VALSE

查看: 6375|回复: 0

AI100_机器学习日报 2017-10-21 自动化所解读“深度强化学习”:从AlphaGo到AlphaGoZero

[复制链接]

829

主题

837

帖子

7万

积分

版主

Rank: 7Rank: 7Rank: 7

积分
78974
QQ
发表于 2017-10-27 17:07:17 | 显示全部楼层 |阅读模式
AI100_机器学习日报 2017-10-21
@好东西传送门 出品,由@AI100运营, 过往目录http://ai100.com.cn


订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

邮件版包括17条,本期的Web版有完整内容19条

用日报搜索找到以前分享的内容: http://ml.memect.com/search/
今日焦点 (5)
[img=20,20][/img] wx:   网页链接 2017-10-21 21:42
公告板 会议活动 深度学习 视觉 算法 应用 语音 自然语言处理 Alex Smola GPU Tuomas Sandholm 行业动态 胡郁 会议 机器翻译 柯洁 强化学习 邵洋 神经网络 唐振韬 推荐系统 王永东 语言学 赵冬斌
「【深度】自动化所解读“深度强化学习”:从AlphaGo到AlphaGoZero」【AI WORLD 2017世界人工智能大会倒计时 18 天】大会早鸟票已经售罄,现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗?今年,即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们请到CMU教授、冷扑大师发明人Tuomas Sandholm、 百度副总裁王海峰 、微软全球资深副总裁王永东、亚马逊AWS机器学习总监Alex Smola 、科大讯飞执行总裁胡郁,华为消费者事业群总裁邵洋等国内外人工智能领袖参会并演讲,一起探讨中国与世界AI的最新趋势。 抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com  新智元推荐  来源:中国科学院自动化研究所作者:邵坤 唐振韬 赵冬斌 【新智元导读】 近日,DeepMind在Nature上公布了最新版AlphaGo论文,介绍了迄今为止最强的围棋AI:AlphaGoZero。AlphaGoZero不需要人类专家知识,只使用纯粹的深度强化学习技术和蒙特卡罗树搜索,经过3天自我对弈以100:0击败上一版本AlphaGo。AlphaGoZero证明了深度强化学习的强大能力,这一成果也势必将推动该领域的进一步发展。 中科院自动化研究所三位作者特撰写此文,深度技术解读从 AlphaGo 到 AlphaGoZero 的演进过程中深度强化学习方法所取得的发展及其意义。 在人工智能领域,感知和决策能力是衡量智能的关键指标。近几年深度学习和强化学习的发展使得直接从原始的数据中提取高水平特征进行感知决策变成可能。深度学习起源于人工神经网络。早期研究人员提出了多层感知机的概念,并且使用反向传播算法优化多层神经网络,但是由于受到梯度弥散或爆炸问题的困扰和硬件资源的限制,神经网络的研究一直没有取得突破性进展。随着计算资源的提升和相应算法的发展,深度学习在人工智能领域取得了一系列重大突破,包括语音识别、图像识别及检测、自然语言处理等。深度学习由于其强大的表征能力和泛化性能受到了越来越多研究人员的关注,相关技术在学术界和工业界都得到了广泛的研究。强化学习是机器学习中的一个重要研究领域,它以试错的机制与环境进行交互,通过最大化累积奖赏来学习最优策略。强化学习的框架如图1所示。强化学习智能体在当前状态st下根据策略π来选择动作at。环境接收该动作并转移到下一状态st+1,智能体接收环境反馈回来的奖赏rt并根据策略选择下一步动作。强化学习不需要监督信号,在模型未知的环境中平衡探索和利用,其主要算法有Q学习,策略梯度等。Q学习是强化学习最重要的算法之一,其主要更新公式为: 其中α是学习率,γ是折扣因子,方括号内表示的是TD误差。强化学习由于其优秀的决策能力在人工智能领域也得到了广泛应用,代表工作TD-Gammon。 图1.强化学习框架图在通用人工智能领域,感知和决策能力都是衡量一个智能体所蕴含智能的关键指标。早期成功的强化学习应用案例主要依赖于组合人工特征和价值函数来实现,随着深度学习的进展,直接从原始的高维数据中提取特征变成可能。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,能够为复杂系统的感知决策问题提供解决思路。图2是深度强化学习的框架图,从图中可以看到,DRL的框架包含两个基本模块:由深度学习组成的感知模块和由强化学习组成的决策模块。两个模块之前通过状态动作相互影响。图2.深度强化学习框架深度强化学习早期的主要思路是将神经网络用于复杂高维数据的特征提取,转化到低维特征空间便于强化学习处理。由于卷积神经网络对图像处理拥有天然的优势,将卷积神经网络与强化学习结合成了研究热点。2013年,DeepMind团队发表了一篇关于深度强化学习应用于Atari视频游戏的重量级论文,首次在复杂高维的状态空间下使用深度强化学习学会了游戏策略。该文章中提出的深度强化学习框架被称为深度Q网络(DeepQ Network:DQN)。2015年,DeepMind团队进一步完善了DQN算法,并将研究成果发表在Nature上。DQN将深度卷积神经网络和Q学习结合到一起,并集成了经验回放技术和目标Q网络。经验回放通过周期采样历史数据增加了数据的利用效率,同时减少了数据之间的相关性。DQN在大部分Atari视频游戏中实现了人类玩家的控制效果,是深度强化学习领域重要的开创性工作。DQN的网络框架如图3所示。训练过程中,采取相邻的4帧游戏画面作为网络的输入,经过三个带有ReLU激活函数的卷积层和两个全连接层,输出当前状态下可选动作的Q值,实现了端到端的学习控制。DQN采用带有参数θ的卷积神经网络作为函数逼近器。在迭代次数为i时,损失函数为: 其中: θ-代表的是目标Q网络的参数。目标Q网络经过固定迭代次数后更新一次。 图3.DQN网络结构图DRL领域又一里程碑式的工作是由DeepMind在2016年初发表于Nature上的围棋AI:AlphaGo,如图4所示。AlphaGo的问世将深度强化学习的研究推向了新的高度。它创新性地结合深度强化学习和蒙特卡罗树搜索,通过策略网络选择落子位置降低搜索宽度,使用价值网络评估局面以减小搜索深度,这样搜索效率得到了大幅提升,胜率估算也更加精确。与此同时,AlphaGo使用强化学习的自我博弈来对策略网络进行学习,改善策略网络的性能,使用自我对弈和快速走子结合形成的棋谱数据进一步训练价值网络。最终的在线对弈时结合策略网络和价值网络的蒙特卡罗树搜索在当前局面下选择最终的落子位置。 图4. 围棋AI:AlphaGo 随着AlphaGo的出现,深度强化学习领域的研究取得了一系列进展。作为真正意义上将深度学习和强化学习结合起来并实现了端到端学习决策的算法,DQN的出现引发了众多研究团队的关注。Schaul等提出一种带优先级经验回放的深度Q网络,该方法对经验数据进行优先次序的处理,增加重要历史数据的回放频率来提高学习效果,加速学习进程。DQN的另一个不足是它漫长的训练时间,为此Nair等提出了DQN的大规模分布式架构—Gorila,极大提高了学习速率。Guo等提出将蒙特卡罗树搜索与DQN结合,实现了Atari游戏的实时处理,游戏得分也普遍高于原始DQN得分。此外,Q学习由于学习过程中固有的估计误差,在大规模数据的情况下会对动作的值产生过高估计。Van等提出的双重DQN将两个Q学习方法运用到Q函数更新中,有效避免了过高估计,并且取得了更加稳定的学习策略。Wang等受优势学习的启发提出了竞争架构的深度强化学习算法,实验证明竞争架构的DQN能够取得更好的评估策略。探索和利用问题一直是强化学习中的主要问题,复杂环境中的高效探索对深度强化学习的学习结果有深远影响。Osband等提出一种引导深度Q网络,通过使用随机值函数让探索的效率和速率得到了显著的提升。递归神经网络适合处理和时间序列相关的问题,强化学习与递归神经网络的结合也是深度强化学习的主要形式。Narasimhan等提出一种长短时记忆网络与强化学习结合的深度网络架构来处理文本游戏。这种方法能够将文本信息映射到向量空间从而获取游戏状态的语义信息。对于时间序列信息,深度Q网络的处理方法是加入经验回放机制。但是经验回放的记忆能力有限,每个决策点需要获取整个输入画面进行感知记忆。Hausknecht等将长短时记忆网络与深度Q网络结合,提出深度递归Q网络,在部分可观测马尔可夫决策过程中表现出了很好的鲁棒性,同时在缺失若干帧画面的情况下也能获得不错的实验结果。随着视觉注意力机制在目标跟踪和机器翻译等领域的成功,Sorokin等受此启发提出深度注意力递归Q网络。它能够选择性地重点关注相关信息区域,从而减少深度神经网络的参数数量和计算开销。此后,研究人员在已有深度强化学习算法上做了进一步改进。Mnih等提出了深度强化学习的异步算法,通过CPU的多线程同时训练多个游戏,共享网络参数的同时也克服了训练数据的相关性,在多个CPU上训练极大提升了学习速率和算法性能。 Jaderberg等提出UNREAL算法,在A3C的基础上学习多个辅助任务。UNREAL提升了深度强化学习的数据利用率,在Atari和三维游戏场景中都达到了更好的效果。作为DQN的一种变体,C51算法从分布式的角度分析深度强化学习,将Q(s,a)看做回报的近似分布而不是一个具体的近似期望值。与UNREAL算法相比,C51在Atari视频游戏上的平均性能表现要优于前者。参数噪声可以帮助算法更有效地探索周围的环境,加入参数噪声的训练方法将会让模型的效果大大提升,并且可以让我们更快地教会强化学习智能体执行任务。NoisyDQN在动作空间中借助噪声注入进行探索性行为,结果表明带有参数噪声的强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高。以上的算法各自都可以提升深度强化学习性能的某个方面,因为它们都着力于解决不同的问题,而且都构建在同一个框架上,所以能够被整合起来。在DeepMind 最近发表的论文中,研究人员综合了主流深度强化学习方法,并提出了整合方案:Rainbow,如图5所示。通过实验结果,研究人员展示了整合后的表现,证明了这些算法很大程度上是互补的。最终,Rainbow在Atari2600 视频游戏基准测试平台的数据效率和最终结果上都达成了新的业界最佳水平。图5. Rainbow在Atari 游戏中与各类DQN 方法的性能对比从DQN到Rainbow,深度强化学习作为一个新兴的研究领域,其理论和应用得到了逐渐完善。在大规模的任务中,深度强化学习智能体展示了卓越的进步。研究人员在基于值函数和基于策略梯度的深度强化学习算法方面都取得了一系列的研究成果。深度强化学习的研究一方面可以提升各种复杂场景中智能体的感知决策能力,另一方面,高效算法的应用落地也能为社会带来更多积极的影响,比如医疗、智能驾驶、推荐系统等。 AlphaGo Zero的出现,再一次引发了各界对深度强化学习方法和围棋AI的关注与讨论。AlphaGoFan和AlphaGo Lee都采用了两个神经网络的结构,如图6所示。其中策略网络初始是基于人类专业棋手数据采用监督学习的方式进行训练,然后利用策略梯度强化学习方法进行能力提升。在训练过程中,深度神经网络与蒙特卡洛树搜索方法相结合形成树搜索模型,本质上是使用神经网络方法对树搜索空间的优化。 图6. AlphaGo的网络结构图 AlphaGo连续战胜李世石和柯洁,都表明了基于深度学习、强化学习和蒙特卡罗树搜索的方法能有效解决完全信息的博弈问题。 图7. AlphaGo与李世石和柯洁的对弈图然而,AlphaGo Zero做了更进一步的升级和改进。AlphaGo Zero将策略网络和价值网络整合在一起,使用纯粹的深度强化学习方法进行端到端的自我对弈学习。AlphaGo Zero自学习训练过程如图8所示。图8. AlphaGo Zero自学习训练过程AlphaGo Zero与之前的版本有很大不同。几个主要的不同点在于: 第一,神经网络权值完全随机初始化。不利用任何人类专家的经验或数据,神经网络的权值完全从随机初始化开始,进行随机策略选择,使用强化学习进行自我博弈和提升。第二,无需先验知识。不再需要人为手工设计特征,而是仅利用棋盘上的黑白棋子的摆放情况,作为原始输入数据,将其输入到神经网络中,以此得到结果。第三,神经网络结构复杂性降低。原先两个结构独立的策略网络和价值网络合为一体,合并成一个神经网络。在该神经网络中,从输入层到中间层是完全共享的,到最后的输出层部分被分离成了策略函数输出和价值函数输出。第四,舍弃快速走子网络。不再使用快速走子网络进行随机模拟,而是完全将神经网络得到的结果替换随机模拟,从而在提升学习速率的同时,增强了神经网络估值的准确性。第五,神经网络引入残差结构。神经网络采用基于残差网络结构的模块进行搭建,用了更深的神经网络进行特征表征提取。从而能在更加复杂的棋盘局面中进行学习。第六,硬件资源需求更少。以前ELO最高的AlphaGo需要1920块CPU和280块GPU训练,AlphaGoLee则用了176块GPU和48块TPU,而现在,AlphaGoZero则使用了单机4块TPU便能完成训练任务,如图9所示。第七,学习时间更短。AlphaGoZero仅用3天的时间便能达到AlphaGoLee的水平,21天后达到AlphaGoMaster的水平,棋力提升非常快如图10所示。图9. 各个版本的AlphaGo所需硬件资源对比图10. AlphaGo Zero的棋力提升过程和与其他围棋AI的ELO比较AlphaGoZero 的成功证明了在没有人类指导和经验的前提下,深度强化学习方法在围棋领域里仍然能够出色的完成指定的任务,甚至于比有人类经验知识指导时,完成的更加出色。在围棋下法上,AlphaGoZero比之前版本创造出了更多前所未见的下棋方式,为人类对围棋领域的认知打开了新的篇章。某种程度而言,AlphaGoZero展现了机器“机智过人”的一面。目前来看,AlphaGo中神经网络的成功主要还是基于卷积神经网络,但是下围棋是一个动态持续的过程,因此引入递归神经网络是否能对AlphaGo的性能有所提升也是一个值得思考的问题。AlphaGoZero所蕴含的方法并非是石破天惊、复杂无比,相反这里面的很多方法都早已被前人提出及实现。但是以前,这些方法尤其是深度强化学习等方法,通常只能用来处理规模较小的问题,在大规模问题上常束手无策。AlphaGoZero的成功则刷新了人们对深度强化学习方法的认识,并对深度强化学习领域的研究更加充满期待。深度学习与强化学习的进一步结合相信会引发更多的思想浪潮。深度学习已经在许多重要的领域被证明可以取代人工提取特征得到更优结果。而深度学习在插上了强化学习的翅膀后更是如虎添翼,甚至于有可能颠覆传统人工智能领域,进一步巩固和提升机器学习在人工智能领域的地位。 AlphaGo之父DavidSilver认为,根据最新的实验结果,监督学习能产生当时性能最优的模型,而强化学习可以超越人类已有的知识得到更进一步的提升。只有监督学习确实可以达到令人惊叹的表现,但是强化学习才是超越人类水平的关键。AlphaGo的成功有力的证明了强化学习实现从无到有的强大学习能力,但是这并不意味着通用人工智能领域问题得到了解决。本质上,AlphaGoZero解决的仍是启发式搜索的问题,在搜索的基础上,使用深度强化学习训练出态势评估函数。就目前而言,AlphaGo尚未展现出类似于在Atari视频游戏中那样普遍适用的泛化性能。因为虽然基于深度强化学习的蒙特卡罗树搜索在回合制游戏上已经取得了成功,但是由于搜索算法与生俱来的搜索时间与空间的开销,或许对回合制类游戏影响不大,但是对实时类游戏的影响却是巨大的,在如同星际争霸II这类实时游戏中,如何解决好时间开销与游戏连续性的矛盾则是一个值得深思的问题。目前为止,DeepMind团队在星际争霸II中使用深度强化学习方法所能达到的效果也与期望相去甚远。因此,通用人工智能问题的研究及解决仍然任重道远。 文章作者:邵   坤(博士,自动化所复杂系统管理与控制国家重点实验室)唐振韬(博士,自动化所复杂系统管理与控制国家重点实验室)赵冬斌(研究员,自动化所复杂系统管理与控制国家重点实验室) 【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。大会门票销售火热,抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026 AI WORLD 2017 世界人工智能大会购票二维码:  via: https://mp.weixin.qq.com/s?times ... e=Ykf2aqEm7rgcBcTdg*2gqIL7kJxeADOwDao5UH7QX2zx6QSrv1uv90xImYGTx-lv08YnWXlEy7za6zPkfgCUFBkBeL8LepG8G*DA1i7o-YSzGPzO2VkCV7N33TmLC1zqmayDFqGQI0IsmEhYCr6hFl*PWu5MO27rTJSAGWrUXdE=




爱可可-爱生活   网页链接 2017-10-21 08:11
Chase Roberts
【机器学习代码单元测试】《How to unit test machine learning code》by Chase Roberts @keeper6928/how-to-unit-test-machine-learning-code-57cf6fd81765">[url]http://t.cn/RWZj5WH[/url] pdf:http://t.cn/RWZj5WY




爱可可-爱生活   网页链接 2017-10-20 19:34
会议活动 活动
【2017机器学习平台研讨会总结】《Machine Learning Platform meetup》by Faisal Siddiqihttp://t.cn/RW7exvX pdf:http://t.cn/RW7exvi




爱可可-爱生活   网页链接 2017-10-16 21:43
【2017年与机器学习相关含金量最高的技能或知识有哪些?】《As of 2017, what set of skills or knowledge pertaining to machine learning are most valuable to the industry, including research positions? | Quora》http://t.cn/ROnrbA7


爱可可-爱生活 网页链接 转发于2017-10-21 10:25
《最具价值机器学习技能 Top10》via:新智元 http://t.cn/R010YZq



爱可可-爱生活   网页链接 2017-10-12 07:24
语音
【语音识别问题尚未解决】《Speech Recognition Is Not Solved》by Awni Hannun http://t.cn/ROaqht2


爱可可-爱生活 网页链接 转发于2017-10-21 17:30
《一文概览语音识别中尚未解决的问题》via:机器之心 http://t.cn/RW2VYnH



最新动态
[img=20,20][/img] wx:闻菲   网页链接 2017-10-21 21:42
公告板 会议活动 深度学习 视觉 算法 应用 自然语言处理 Chris Rowen CVPR ECCV ICCVYihui He 分类 行业动态 会议 活动 机器人 贾佳亚 柯洁 神经网络 孙剑 孙翔雨 王珏 招生 征稿
「ResNet成为AlphaGo Zero核心技术,孙剑详解Zero的伟大与局限」【AI WORLD 2017世界人工智能大会倒计时 18 天】 大会早鸟票已经售罄,现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗?今年,即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们请到旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。想现场感受顶级科学家的风采和CMU的学风与氛围,或者是现场向他们请教技术问题?点击文末阅读原文,马上参会! 抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com  新智元原创  作者:闻菲 【新智元导读】DeepMind迄今最强棋手AlphaGo Zero横空出世,其中一个重要组成部分是出自华人团队的深度残差网络ResNet。新智元采访了深度残差网络ResNet作者之一,旷视科技Face++首席科学家孙剑博士。孙剑认为,AlphaGo Zero技术提升足够伟大,但在真实技术落地过程中还有着众多局限。孙剑分享了他的最新工作——更小更好的神经网络,以及他的人才观。在采访中,孙剑还谈到,人脸识别远远没有被解决,“全世界的视觉研究人员一起来做都不够”。 2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGo——AlphaGo Zero,其中一个重要模块是出自华人团队的深度残差网络ResNet。就此背景,新智元采访了深度残差网络ResNet作者之一,旷视科技Face++首席科学家孙剑博士。孙剑认为,AlphaGo Zero技术提升足够伟大,但在真实技术落地过程中还有着众多局限,并指出未来的主流深度学习技术还将会围绕大数据训练模式的方式展开。在采访中,孙剑还谈了人脸识别远远没有被解决,“全世界的研究人员一起来做都不够”。 “AlphaGo Zero的搜索过程简化了很多,例如把以前系统中的两个网络合并成一个网络,将深度残差网络的输入做最简化。”孙剑博士在谈到本次AlphaGo Zero的技术特点时说:“把19x19棋局图像直接送给神经网络,让神经网络看着棋盘做决策,这个非常简洁。”  孙剑表示,本次AlphaGo Zero的提升主要有两个核心要素,一个是启发式搜索,一个是深度残差神经网络,而这两者又实现了完美结合。其中,启发式搜索的思想非常朴素,是个针对问题设计的一个高级定制版蒙特卡洛数搜索算法;而深度残差神经网络则让简单的搜索算法极大地提升了效率。 深度残差神经网络(ResNet)在2015年由孙剑在微软领导的视觉团队率先提出,并在当年的ImageNet以及MS COCO两大学术竞赛中包揽五项冠军。ResNet一个重要的突破是实现了152层的网络深度,这让一些非常复杂的函数做映射时的效率与有效性得到了极大的提升。结合了ResNet的强大网络使AlphaGo Zero能够快速、准确地学习每一子的落子概率和对整个棋局进行判断。 “AlphaGo Zero的伟大之处是第一次让机器可以不通过任何棋谱,在只告诉规则的前提下,完全从随机开始,而且只在一台有TPU的单机上运行,不到3天就超越柯洁版的水平,最终成为围棋大师,这种无师自通的学习模式在AI整个发展上是具有里程碑意义的。”孙剑博士讲到AlphaGo Zero的技术意义时说。“但是,这种‘无师自通’在很多AI落地中也存在一些局限,因为严格讲,围棋规则和判定棋局输赢也是一种监督信号。因此,说人类无用,或者说机器可以自己产生认知,都没有准确地理解AlphaGo Zero。” 虽然在技术上令人惊艳,但在很多AI行业落地中,所谓的无师自通或者弱监督学习在短期还是无法成为主流。目前人工智能落地解决的很多事情,实际上都是在模拟人类的某一种技能,让机器应用这一技能去完成任务,而这需要海量的数据与更多的信号输入。以旷视Face++所擅长的人脸识别为例,人脸识别是人类特有的一种能力,与演化和后天习得有关,把这种能力输出给机器,就需要人的监督信号。所以,在今后很长一段时间内,监督学习依然是AI研究与AI商业化的主流方向。 对于这次ResNet被AlphaGo Zero论文引用,孙剑显然非常开心,还特意发了朋友圈。“这次应用在AlphaGo Zero中的ResNet残差神经网络,曾获得了CVPR2016的最佳论文奖,我也非常高兴这个技术可以应用在AlphaGo Zero系统中,而这个应用过程其实并不需要我们直接接触,而是一种研究成果的交流。” 加入旷视以后,孙剑的研究和交流步伐也没有停下。他现在是旷视的首席科学家,同时也是旷视研究院的院长。虽然在采访中,“商业化”、“场景”、“落地”等非常“创业公司”的词常常出现在孙剑的论述中。但是,孙剑认为,在创业公司做研究和在大企业做研究实际并没有什么不同。“做研究很大的一个点就是,别人都往那边走的时候,你要看看别的方向做不做。”孙剑说。 这样做的一个结果,是旷视研究院在今年7月提出的ShuffleNet,ShuffleNet专门为了移动应用而生,在设备提供的计算量很小的时候也能快速响应。“卷积神经网络在设计空间有几个重要的维度,比如深度、卷积核个数,卷积核大小以及特征图,每一层的计算复杂度完全取决于这几个参数。”孙剑说:“我们目前得出的结论是:一个网络的真正性能,主要取决于其计算复杂度。如果新的网络结构没有大的变化,基本是计算力决定这个网络性能有多好。” 为了适应移动端的计算力,ShuffleNet在结构上继承了残差网络(ResNet)的设计思想,并在此基础上做出了一系列改进来提升模型的效率:首先,使用逐通道卷积替换原有的3x3卷积,降低卷积操作抽取空间特征的复杂度;将原先结构中前后两个1x1逐点卷积分组化,并在两层之间添加通道重排操作,进一步降低卷积运算的跨通道计算量。 ShuffleNet的主要吸引力在于,它使用的是任何人都可以在任何深度学习框架中轻松实现的简单、标准的操作(分组化卷积 + channel shuffling)。这对于许多应用都非常有用,事实证明,ShuffleNet发布后也得到同行的广泛应用。任何人都能用,而且易于使用、容易实施,能快速改进性能,这正是我们需要的研究,这样的研究在未来也将变得愈发重要。 除了像ShuffleNet这样通过网络设计的方式把计算量降下来,旷视在去年还发表了一项工作DoReFaNet,走的低精度的路子,把内部的数表示从浮点型,切换到定点或者更低位的表示,它可以是网络中的权重,也可以是网络中的特征。DoReFaNet训练中的梯度用Low-bits表示,“因为这个网络的权重、激活,以及梯度分别用一位、两位、以及四位来表示,所以我们研究院就叫这个网络DoReFa-Net。” 在今年的ICCV上,孙剑和旷视的研究人员Yihui He,以及ResNet的另一位作者孙翔雨(以前也在微软亚洲研究院,现在和孙剑一起加盟旷视)合作,也有一篇论文发表,题为《加速极深神经网络的特征剪枝》(Channel Pruning for Accelerating Very Deep Neural Networks),继续在降低计算量的这一方向上发力。 剪枝(Pruning)这种方法,是在网络训练好以后,把里面冗余度最大的表示(Channel)去掉,重新训练网络,这样网络体积比以前小,而精度跟原来一样甚至更好;当然精度也有可能稍稍降低一点,但都在产品应用可以接受的范围内。 孙剑介绍说,现在的神经网络分支比较多且零碎,以前的剪枝方法已经不再适用。“我们这个方法第一次对新的现代深度神经网络做有效剪枝的方法,剪枝能够和低精度、ShuffleNet结合在一起,实现更小、更经济的网络。” 孙剑说,这是他们的一个基础研究,并没有局限于人脸或图像识别。作者在论文中写道,我们剪枝过的VGG-16通过5倍加速实现了最先进的结果,同时只增加了0.3%的误差。更重要的是,我们的方法能够加速ResNet,Xception等现代网络,分别只有1.4%、1.0%的精度损失,这是非常重要的。 旷视研究院在今年的CVPR有5篇文章发表,2018年的CVPR截稿时间是11月,大家也在积极准备。不过,旷视研究院对发文章的数量没有要求,“我从来不鼓励数量,我看的是质量,”孙剑说:“我以前写论文也没有特别多,但哪怕只有一篇文章,能够被用在像AlphaGo这样的系统上,那就有20倍的效果。” 现在,孙剑到公司每天第一件事情,就是去网上看有没有新的、有意思的论文发表出来。旷视内部也有论文讨论小组,大家会把看到的论文或者自己的实现/复现发到群里面。孙剑每周都会跟每一个小组进行非常深入的研究,将他以前做研究的思路和方法分享给大家,供年轻人参考,营造积极创新的氛围。“我每天都会问自己,我应该做什么事情,让大家都有清晰的目标,让大家能够发挥自己的潜力去做这些事情。”孙剑说,而这就是他认为他自己最核心的任务。 “如果说我有KPI,那么我的KPI就是在旷视研究院把创新的环境做好,让年轻人在这里能够发挥最大的潜力来做创新,把这个组织越做越强,越做越大,”孙剑说:“而这样做附带的效果,就是公司的产品从研究中实现更强大的竞争力和生命力,公司整体也能得到更好的商业回报。” 现在,旷视研究院一共有80多人,分布在北京、西雅图、南京等城市,目前还有至少2个分部正在筹建中。孙剑说,旷视研究院还将继续扩大,“随着公司的发展成比例扩大”。对于人才选择,孙剑给出了几个标准:首先,数学一般好就行,其次,编程能力要很好,最后,潜力要很大。孙剑解释说,深度学习现在还是一个实验性的科学,很多的结论都是从实验中得来,因此需要快速做出东西来迭代,这对编程能力提出了很高要求,而要能够很好地运行系统,数学里线性代数学很好就可以了。 旷视研究院现在有基本任务组(分类、检测、图像分割、视频分析)、硬件组、平台组、引擎组,在第二轮面试的时候都会与孙剑直接会面。除了(校园)招聘,挖掘实力人才加盟也是旷视的一条道路,而这里孙剑本人的名望、实力和影响力无疑也是主要的吸引因素。最典型的例子,就是孙剑邀请到前Adobe首席科学家王珏,后者于今年5月加盟旷视,带领旷视在西雅图的研究院。 “我跟王珏博士认识了很多年,每次开会都会遇到,我们非常了解彼此的工作,我非常欣赏王珏博士的工作——PhotoShop里好几个非常创新的功能都是出自王珏之手,他也发表了很多高质量的SIGGRAPH论文,他的风格其实跟我很类似,我们彼此都很认可。”孙剑说。 王珏博士在Adobe工作了9年,2016年萌生寻找新环境继续挑战自己的想法。当时,王珏博士收到了包括谷歌、Facebook、腾讯、阿里等许多公司的邀请。最终成功招揽到他的是旷视。“我去找他,他非常爽快就答应了。”孙剑笑着说:“我就请他吃了碗面。” 对于人脸识别,孙剑认为正脸光照好的情况下,计算机已经超越人类,现在的问题是解决在极端情况下的用例,包括静态和动态,包括光照、角度、化妆、发型……最终,人脸识别其实是识别人的问题,那么就要做到从背影也能识别出你是谁。这也是人工智能解决小样本学习、抽象和自适应能力的一个核心问题。 在研究院的各种方向中,孙剑还特别提到了旷视自己原创的深度学习引擎MegBrain,它早于TensorFlow开发,相当于旷视内部的TensorFlow,也是创业公司中唯一自我研发并全员使用的深度学习引擎。孙剑说,旷视对于计算引擎的演进非常重视,现在MegBrain已经开发到7.0、8.0的版本。“用了MegBrain,大家都不想再用其他引擎”,而拥有自己的原创引擎,大幅加速了旷视自己的产品创新和竞争力。 现在旷视的研究氛围很自由,但领域十分聚焦,也即图像和视频理解,关注其中的文字、人物、车辆,对应旷视的产品和服务。这比起学术界和大公司研究院来似乎没有那么自由,但孙剑对此并不担心,因为“问题足够大”。 他认为人脸识别这个问题远远没有被解决,而视觉是人工智能里最重要的问题之一,人类有90%的信息都是从视觉进来的。视觉里的问题,“大到把全世界的视觉研究员都联合到一起,在我看来都是不够的。”孙剑说。 11月8日,在新智元AI World 2017世界人工智能大会上,孙剑将发表演讲,聚焦人脸识别等视觉前沿技术和问题,为我们带来计算机视觉最新技术和应用的精彩分享。 孙剑博士目前在旷视科技(Face++)担任首席科学家、旷视研究院院长。2003年毕业于西安交通大学人工智能与机器人研究所,毕业后加入微软亚洲研究院 ( Microsoft Research Asia),任职首席研究员。自2002年以来在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五个顶级学术会议和期刊上发表学术论文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,两次获得 CVPR Best Paper Award (2009, 2016)。孙剑博士于2010被美国权威技术期刊 MIT Technology Review 评选为“全球35岁以下杰出青年创新者”。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 ( ImageNet分类,检测和定位,MS COCO 检测和分割),其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。同时孙剑带领的团队的研究成果也广泛被应用在微软 Windows, Office, Bing, Azure, Surface, Xbox 等多条产品线上。目前孙剑博士正在带领旷视科技的研究团队推进计算机视觉技术的进步和探索其在工业和商业上的实践。 点击文末阅读原文,马上参会! 【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。大会门票销售火热,抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:  via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect




[img=20,20][/img] wx:   网页链接 2017-10-21 21:42
公告板 会议活动 深度学习 视觉 算法 应用 资源 自然语言处理 Adam Polyak Adam W. Harley Allan Jabri Ang Li Armand Joulin Camille Couprie CRF Du Tran Frank Dellaert Georgia Gkioxari ICCVJacob Andreas Judy Hoffman Justin Johnson Kaiming He Kate Saenko Laurens Van Der Lawrence Zitnick Li Fei-Fei Lisa Anne Hendricks Lorenzo Torresani Marcus Rohrbach Mario Fritz Michael Cogswell Michal Perdoch Mike Schroepfer Natalia Neverova Nicolas Usunier Pauline Luc Richard Newcombe Ronghang Hu Ross Girshick Ross Girshick Closing Stefan Lee Trevor Darrell Tsung-Yi Lin Xiaolong Wang Yann Lecun Yaser Sheikh 调参 分类广告系统 行业动态 何凯明 会议 活动 贾佳亚 可视化 课程 强化学习 社交网络 神经网络 孙剑 问答系统 语言学 智能汽车
「【Facebook ICCV17入选】15篇论文,何凯明3篇,LeCun1篇」【AI WORLD 2017世界人工智能大会倒计时 18 天】大会早鸟票已经售罄,现正式进入全额票阶段。还记得去年一票难求的AI WORLD 2016盛况吗?今年,即将于2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们请到腾讯优图实验室杰出科学家贾佳亚教授、旷视科技(Face++)首席科学家孙剑等中国计算机视觉的领军人物。想了解计算机视觉的最新动态, 点击文末阅读原文,马上参会!抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com  新智元编译  来源:research.fb.com编译:弗格森 【新智元导读】 Facebook公布了今年入选计算机视觉顶级会议ICCV的15篇研究成果。涉及语义和图像分割、物体识别、图像分类、视觉与语言的结合、图像生成、3D视觉等多个方面。 来自世界各地的计算机视觉专家将于本周聚集在于威尼斯举行的国际计算机视觉会议(ICCV),介绍计算机视觉和相关领域的最新进展。来自Facebook的研究将在15篇经过同行评审的出版物和海报中发表。 Facebook研究人员还将出席众多的研讨会和讲座。  以下是 Facebook 在本年度的 ICCV 上呈现的研究完整列表,根据研究主题进行了整理: 论文:Mask R-CNN作者:Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick论文地址:https://research.fb.com/publications/mask-r-cnn/ 这篇论文开发了一种新的系统,对于照片中的每个像素,它可以预测像素会对哪些物体作出反应,也可以预测像素会对哪一个物体作出反应。所以系统不仅会描绘羊,然后告诉你它们是羊(“语义”分割),但它也会告诉你哪些部分的图像对应于哪只羊(“实例”分割)。Mask R-CNN是成功完成此项工作的系统之一。 Facebook的 CTO Mike Schroepfer在今年早些时候在F8的主题演讲中展示了Mask R-CNN的Demo。 论文:Predicting Deeper into the Future of Semantic Segmentation作者:Pauline Luc, Natalia Neverova, Camille Couprie, Jakob Verbeek, Yann LeCun论文地址:https://research.fb.com/publicat ... antic-segmentation/ 本文开发了一种深度学习模型,从一个视频中的特定帧(静态)尝试预测下一帧将是什么样子。所以在某种意义上,它是试图猜测视频接下来会展示什么内容的。本文表明,研究最后所得到的模型可用于提高计算机视觉系统在语义分割等任务中的质量。 论文:Segmentation-Aware Convolutional Networks Using Local Attention Masks作者:Adam W. Harley, Konstantinos G. Derpanis, Iasonas Kokkinos论文地址:https://research.fb.com/publicat ... al-attention-masks/ 在深度神经网络中,网络的层次越深,一个卷积网络中的众多神经元对图像进行“审查”的部分就越大。这可能会导致局部性(localized)变差以及模糊的反应,因为,神经元需要对图像非常大的部分进行“审查”。在这项研究中,我们通过每一个神经元只出现在自己感兴趣的区域,进而锐化这种反应。 论文:Dense and Low-Rank Gaussian CRFs Using Deep Embeddings作者:Siddhartha Chandra, Nicolas Usunier, Iasonas Kokkinos论文地址:https://research.fb.com/publicat ... ng-deep-embeddings/ 虽然卷积网络可以非常准确地将图像中的像素分类为不同的类别(汽车,飞机,...),但相邻的决策通常不一致:一半物体可能被标记为“床”,另一半则被标记为“沙发”。本文提出了一种耦合所有像素分类的技术,以非常有效的方式产生一致的预测。 论文:Focal Loss for Dense Object Detection作者:Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár论文地址:https://research.fb.com/publicat ... e-object-detection/ 本文提出了一种新的物体检测系统。该系统在技术上与现有的目标检测技术不同。当下,大多数系统由多个“阶段”组成,每个阶段都由不同的模型实现,本文开发了一个在单个阶段解决整个对象检测问题的模型。这种简单性很有吸引力,因为它使得系统更容易实现和使用。 论文:Low-shot Visual Recognition by Shrinking and Hallucinating Features作者:Bharath Hariharan, Ross Girshick论文地址:https://research.fb.com/publicat ... ucinating-features/ 物体检测系统通常是基于成千上万的图像进行训练,这些图像中包含了它们需要识别出来的物体。本文着重于解决在仅看到该类别的很少示例之后识别新的对象类型的问题。它通过“设想”我们想要识别的物体的额外例子来实现。 论文:Transitive Invariance for Self-supervised Visual Representation Learning作者:Xiaolong Wang, Kaiming He, Abhinav Gupta论文地址:https://research.fb.com/publicat ... sentation-learning/ 本文提出通过观察对象在视频中的外观变化来学习更好的对象检测模型。例如,驾驶的车辆的视频会显示来自不同帧的不同角度的汽车。因为你知道每个框架其实都描述了同一辆车,所以你可以使用这些信息来学习更好地理解同一个物体的不同视角的模型。所得到的模型可用于改进对象检测器。 论文:Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization作者:Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra论文地址:https://research.fb.com/publicat ... based-localization/ 大多数现代图像分类系统都基于称为卷积网络的模型。这些网络工作得很好,但它们也是一个“黑匣子”的问题。本文开发了一种新技术,可以通过可视化照片中的哪些区域让系统以特定的方式对其进行分类,从而“打开盒子”。 论文:Learning Visual N-Grams from Web Data作者:Ang Li, Allan Jabri, Armand Joulin, Laurens van der Maaten论文地址:https://research.fb.com/publicat ... rams-from-web-data/ 大多数图像识别系统都是通过手动注释的大型图像集合进行训练。此注释过程繁琐而且不能扩展。本文开发了一种图像识别系统,该系统接受了5000万张照片和用户评论的训练,无需手动注释。该系统可以识别跨越多个单词的对象,地标和场景,例如“金门大桥”或“自由女神像”。 论文:Inferring and Executing Programs for Visual Reasoning作者:Justin Johnson, Bharath Hariharan, Laurens van der Maaten, Judy Hoffman, Li Fei-Fei, C. Lawrence Zitnick, Ross Girshick论文地址:https://research.fb.com/publicat ... r-visual-reasoning/ 本论文研究的是视觉推理问题:根据一个图像,它的目的是回答诸如“蓝盒前面的东西的形状是什么”的问题。它通过使用将问题转换为简单的计算机程序的“模块网络”来实现,并且使用神经网络来实现该程序中的每个指令。本文还发布了一个新的视觉推理数据集,称为CLEVR-Human。 论文:Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning作者:Abhishek Das, Satwik Kottur, Jos. M. F. Moura, Stefan Lee, Dhruv Batra论文地址:https://research.fb.com/publicat ... forcement-learning/ 本文开发了一个chatbot来回答关于图像的问题。例如,你可以问这个chatbot:“那个女人的伞的颜色是什么?”。如果图像中有两个女人,chabot会问:“哪个女人?”你回答:“黑头发的人”,chatbot会告诉你:“伞是蓝色的”。我们还没有真正解决这个问题,但这是试图解决这个问题的首批论文之一。 论文:Learning to Reason: End-to-End Module Networks for Visual Question Answering作者:Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko论文地址:https://research.fb.com/publicat ... question-answering/ 本文介绍了一种用于回答诸如“紫色圆柱体左边的球的颜色是什么”的新技术。该技术通过将问题转换为小型计算机程序来实现。然后,程序中的每个指令由神经网络执行。程序“生成器”和程序“执行器”都是从图像和问题的配对中学习的。 论文:Speaking the Same Language: Matching Machine to Human Captions by Adversarial Training作者:Rakshith Shetty, Marcus Rohrbach, Lisa Anne Hendricks, Mario Fritz, Bernt Schiele论文地址:https://research.fb.com/publicat ... versarial-training/ 本文涉及自动生成标题的问题,即图像的自然语言描述。主要的技术创新是,它试图使系统产生的字幕看起来更像是人类制作的字幕。 论文:Unsupervised Creation of Parameterized Avatars作者:Lior Wolf, Yaniv Taigman, Adam Polyak论文地址:https://research.fb.com/publicat ... uration-extraction/ 本文开发了一个新的系统,根据你的脸部的常规照片,生成一个像你一样的头像。主要技术创新是系统以“无监督”的方式进行培训。这意味着它没有配对的脸部图像和相应的头像进行训练:它看到的是一堆脸和一堆头像。系统学习自动找出哪些头像对应于哪个脸。 论文:Deltille Grids for Geometric Camera Calibration作者:Hyowon Ha, Michal Perdoch, Hatem Alismail, In So Kweon, Yaser Sheikh论文地址:https://research.fb.com/publicat ... camera-calibration/ 物体的三维模型被用于虚拟现实等应用中。这些模型是通过从“天顶”的角度拍摄物体制作,而不是用数百台相机同时进行拍摄。这些相机需要进行校准,使得将所有图像组合成对象的3D模型的系统准确地知道相机所在的位置。几十年来,这种校准是通过拍摄标准checkerboard来完成的。本论文表明,通过使用带有三角形场的checkerboard,可以更精确地校准摄像机。 Instance-Level Visual Recognition TutorialTalks by Georgia Gkioxari, Kaiming He, and Ross Girshick Closing the Loop between Vision and Language WorkshopLarry Zitnick, Opening keynoteDhruv Batra, Invited talk Generative Adversarial Networks TutorialSoumith Chintala presents his GANs-in-the-wild paper Role of Simulation in Computer Vision workshopDevi Parikh, Invited talk Workshop on Web-Scale Vision and Social MediaAng Li, Invited talk on his Facebook internship project Workshop on Computer Vision for Virtual Reality Organized by Frank Dellaert and Richard Newcombe COCO + Places WorkshopTeam FAIR presents its competition submission PoseTrack Challenge WorkshopYaser Sheikh, Invited talkGeorgia Gkioxari, Rohit Girdhar, Du Tran, Lorenzo Torresani and Deva Ramanan present their challenge submission 【AI WORLD 2017世界人工智能大会倒计时 18 天】点击图片查看嘉宾与日程。大会门票销售火热,抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026【扫一扫或点击阅读原文抢购大会门票】AI WORLD 2017 世界人工智能大会购票二维码:  via: https://mp.weixin.qq.com/s?times ... e=Ykf2aqEm7rgcBcTdg*2gqIL7kJxeADOwDao5UH7QX2zx6QSrv1uv90xImYGTx-lv08YnWXlEy7za6zPkfgCUFBkBeL8LepG8G*DA1i7o-YQHsCFz1R1y74qF8FkQQ8JhcUyTgfXPkOpKAGxl4TF*J5qeHK3cccH7k2-lIYXWxK4=




[img=20,20][/img] wx:漆锋滨   网页链接 2017-10-21 20:02
深度学习 算法 应用 GPU HMM 安全 刘鑫 全隐 社交网络 申威 神经网络 语言学
「漆锋滨 | “神威•太湖之光”超级计算机系统」点击上方“中国计算机学会”轻松订阅!来源:《中国计算机学会通讯》2017年第10期《专题》 引 言 科学计算、理论研究和科学实验,一直被认为是研究世界的三大技术手段。随着计算技术的发展,科学计算对超级计算机能力的要求越来越高。因为高性能计算是解决我国经济建设、科技进步、国家安全等一系列重大问题不可替代的重要手段。在过去的15年里,我国通过部署多种国家级科技项目和资助计划,来推动我国高性能计算能力的提升,也成功研制多台超级计算机,逐步形成了具有一定规模的国家级高性能计算服务环境,支撑了一批重大领域应用。国家863计划支持的“神威”、“天河”、“曙光” 等超级计算机现已进入了世界领先行列。“神威·太湖之光”超级计算机系统是由国家并行计算机工程技术研究中心于2015年12月研制完成的。它是世界上第一台峰值运行速度超过十亿亿次(125PFlops)的超大规模并行处理计算机,也是我国第一台全部采用国产处理器构建的、排名世界第一的超级计算机。2016年6月公开发布后,神威·太湖之光在国际上立即引起强烈反响,并连续三次获得TOP500排名冠军。基于神威·太湖之光整机系统的“千万核可扩展全球大气动力学全隐式模拟”应用获2016年度戈登·贝尔奖,实现中国高性能计算应用的重大突破。系统组成和体系结构神威·太湖之光系统采用基于高密度弹性超节点和高流量复合网络架构,面向多目标优化的高效能体系结构,并采用了高密度组装、高效率直流供电、全机水冷等关键技术,配备精确的资源调度管理、丰富的并行编程语言和开发环境。系统由高速计算系统、辅助计算系统、高速计算互连网络、辅助计算互连网络、高速计算存储系统、辅助计算存储系统和相应的软件系统等组成,总体结构如图1所示。其中,计算资源由高速计算系统和辅助计算系统提供,存储资源由高速计算存储系统和辅助计算存储系统提供。高速计算系统和辅助计算系统通过云管理环境进行统一管理,为用户提供统一的系统视图。图1 “神威·太湖之光”系统总体架构图 神威·太湖之光的各个系统都具有相当高的技术指标:高速计算系统峰值运算速度125.436PFlops,内存总容量1024TB,访存总带宽4473.16TB/s,高速互连网络对分带宽70TB/s,I/O聚合带宽341GB/s。实测Linpack持续运算速度93.015PFlops,Linpack效率74.153%,系统功耗15.371MW,性能功耗比6051.131MFlops/W;辅助计算系统峰值运算速度1.085PFlops,内存总容量154.5TB;磁盘总容量20PB。“申威26010”异构众核处理器神威·太湖之光系统的计算性能离不开所采用的“申威26010”异构众核处理器。该处理器由上海高性能集成电路设计中心自主研制,采用片上计算阵列集群和分布式共享存储相结合的异构众核体系结构,使用64位自主申威指令集。全芯片集成了4个运算核组共260个运算核心,核组间支持Cache一致性。每个核组包含1个运算控制核心(主核)和1个运算核心阵列(从核阵列),运算核心阵列由64个运算核心(从核)、阵列控制器、二级指令Cache构成,4个核组的物理空间统一编址,运算控制核心和运算核心均可以访问芯片上的所有主存空间。芯片标准工作频率1.5GHz,峰值运算速度达3.168TFlops。处理器集成4路128位DDR3存储控制器、8通道PCIe3.0、千兆以太网接口和JTAG接口。其架构如图2所示。图2 “申威26010”异构众核处理器架构图高速计算系统神威·太湖之光高速计算系统采用紧耦合超节点架构,由40960块申威26010异构众核处理器和20480块计算板节点组成,每块计算节点板包含两颗申威26010异构众核处理器,通过计算插件板、计算超节点和计算机仓等模式进行系统扩展,构成了125.436PFlops的高速计算系统,其体系结构扩展如图3所示。图3 高速计算系统体系结构扩展示意图高速计算互连网络高速计算互连网络负责把高速计算系统所有计算节点和存储节点连接为一个有机的整体,互连网络采用多层级胖树交叉的混合拓扑网络结构,实现全机计算节点和存储服务节点的高带宽、低延迟通信,有效支持计算密集、通信密集和I/O密集等多种类型课题的运行。其拓扑连接如图4所示。图4 高速计算互连网络拓扑连接示意图计算超节点网络模块采用两级胖树全交叉的互连结构,实现256颗申威26010异构众核处理器之间的全连接通信,支持超过65536核心的高效并行计算。超节点网络模块之间通过中央交换网络模块实现互连,并同时直接连接到共享资源池网络模块。中央交换网络模块完成超节点网络模块之间的上层网络互连,根据对各种规模并行课题的分析,结合工程可实现性,对上层网络和下层网络互连的带宽进行合理配置。存储系统神威·太湖之光包括高速计算存储系统和辅助计算存储系统,总容量为20PB,系统管理员可根据用户和课题使用特点分配不同的存储资源。语言环境图5 神威·太湖之光计算机系统语言环境组成结构图系统的语言环境由基础编程语言、并行编程语言和接口、用户使用环境、基础编程环境和工具等四部分组成,如图5所示。神威·太湖之光计算机系统支持主流的基础编程语言,满足实际课题编译需求,支持MPI3.0、OpenMP3.1、Pthreads、OpenACC2.0等与国际接轨的并行编程标准,以及消息并行编程模型、共享并行编程模型和加速并行编程模型,能够满足科学与工程计算课题开发和移植的多样性需要。OpenACC得益于OpenACC语言对异构加速编程简洁的抽象和描述,OpenACC在神威·太湖之光计算机系统中得到了高效实现和广泛应用,已有气候气象、地质勘探、海洋船舶等诸多领域的应用课题使用OpenACC在神威·太湖之光上进行了移植和优化,效果较好。由于申威26010众核处理器与GPU、MIC等异构处理器存在部分体系结构上的差异,OpenACC在神威·太湖之光计算机系统上的实现和使用也略有不同,我们对OpenACC标准进行了适当的功能延伸和语法扩展。图6 OpenACC循环数据拷贝控制示例首先,延伸了parallel构件的copy子句的语义,用于实现主存到多个SPM的数据传输,并通过与loop构件和tile子句的配合使用,有效控制数据拷贝的大小,以充分利用容量有限的SPM空间。Fortran代码示例如图6所示。编译器自动分析数据访问方式与循环划分方式的映射关系,根据循环划分方式确定数据的划分方式,图中i循环以块大小为1的方式进行并行划分,j循环在tile子句的作用下,以块大小为2的方式进行串行划分,与之相对应的,A、B、C三个数组的划分方式也可以确定,以A为例,每轮计算所需要的A的数据量是(256, 2, 1),编译器会在SPM中为A、B、C三个数组分别申请(256, 2, 1)的缓冲,并自动生成对应的数据传输控制语句。其次,扩充了两种优化的数据传输控制子句,分别是swap/swapin/swapout和pack/packin/packout,二者都是通过数据变换来提升数据传输效率的有效手段。Swap系列子句主要用来处理某些访问方式不连续的数组数据的拷贝,先将这些数组转置,然后通过连续的数据传输操作进行传输,以提高数据传输的效率,具体用法见图7。图7 OpenACC swap子句示例表1 申威26010与其他众核处理器的比较主要技术突破首次全部采用国产处理器神威·太湖之光系统是基于国产处理器,采用自主研发的高效可扩展的十亿亿次量级体系结构构建的世界最高性能的超级计算机系统。系统设计并实现了高密度运算紧耦合弹性超节点结构,超节点内实现256个CPU无电缆全交叉互连,超节点间通过资源池热备份技术实现了全系统规模下的超节点弹性可扩展,支持大规模运算核心的高效并行运行,适应计算密集、通信密集和I/O密集课题运算需求。为满足数万个节点规模下通信密集课题和I/O密集课题的不同性能要求,神威·太湖之光研制者提出了一种由超节点网络、共享资源网络和中央交换网络组成的高流量可扩展复合网络结构,实现了全机40960个运算节点和240个I/O节点的高带宽低延迟通信,最大通信步长仅7步,系统对分带宽70TB/s。首次设计实现世界领先的众核处理器申威26010异构众核处理器提出了片上计算阵列集群、分布式共享存储相结合的异构众核体系结构,提高了运算能力与数据共享效率;提出了定点浮点复用,逻辑操作重构技术,采用256位SIMD指令扩展和流水线融合等方法,实现了高效精简核心结构,提升了众核处理器能效比;采用寄存器级数据通信、多模式异步数据流传输和运算阵列快速同步等技术,提高了运算核心协同执行效率;采用片上数据全路径纠检错,基于CHIPKILL与重读的存储接口保护技术,片上热点噪声抑制与隔离的物理设计技术,提升了众核处理器芯片的基础可靠性;自主设计实现1.5GHz工作频率的申威26010众核处理器,浮点峰值性能3.168TFlops,能效比达到10GFlops/W。首次实现世界领先的低功耗设计与控制体系神威·太湖之光系统采用系统级低功耗设计思想,进行器件、部件、系统等全方位低功耗设计,在国产CPU、运算系统、网络系统、供电与冷却、高密度组装等多层次进行低功耗基础支撑设计。在此基础上,建立细粒度功耗实施检测系统、系统状态感知系统,节点级自主低功耗设计、外部任务驱动的多层次低功耗控制系统,建立层次协同的系统级功耗控制管理体系,在不影响系统性能和使用模式的前提下,有效降低了系统运行能耗,提升了整机系统性能功耗比,实现高效绿色计算。首次实现面向千万量级核心的高并发度软件系统神威·太湖之光系统采用多层多粒度并行作业控制和异构环境下的多策略资源调度技术,有效支撑了千万量级核心的高效管理;采用异构存储资源的融合和动态调整技术,提高了存储资源访问性能;采用异构融合的高效基础编译支撑框架、多级自适应数据布局方法、数据驱动的多模式访存优化等编译优化技术,提高了程序运行性能;采用面向消息模型的运行时感知与程序异常诊断技术,降低了大规模调试的系统开销。系统提出基于众核阵列直接通信的数据重用方法,提升了访存和通信密集型课题的众核适应性;提出基于半自动循环变换级变量拆分的众核并行方法,解决了部分应用代码量巨大、热点不集中的众核并行难题;提出复杂计算区域非规则类矩形静态负载平衡算法和多粒度动态任务评估映射算法,解决了一批科学研究重大挑战应用课题全机协同高效解算的难题。首次入围并获得国际高性能应用最高奖戈登·贝尔奖由美国计算机学会(ACM)和美国电气与电子工程师协会(IEEE)联合颁发,旨在表彰研究人员利用并行计算实现科学突破所取得的成就。该奖项始于1987年,被誉为“超级计算领域的诺贝尔奖”。基于神威·太湖之光在大气、海洋和材料领域的三个应用入围2016年的戈登·贝尔奖。这是中国团队近30年来首次入围,占据了全部入围团队的半壁江山。2016年11月,“千万核可扩展全球大气动力学全隐式模拟”应用最终获奖,实现了戈登·贝尔奖零的突破。中科院软件所、清华大学、北京师范大学的联合研发团队,借助神威·太湖之光超级计算机,设计和开发了新的高可扩展非静力大气动力全隐求解器,可有效开展全球公里级大气动力过程模拟,与当前国际主流的大气动力模式广泛采用的显式或半隐式求解方法相比,该方法模拟步长可提升两个数量级。本研究也是国际上第一个可扩展至千万核规模的偏微分方程求解器,与2015年获得戈登·贝尔奖的工作相比,计算效率提升10倍以上。国家海洋局第一海洋研究所与清华大学合作,基于我国自主知识产权的MASNUM海浪模式,在国际上首次开展了全球1公里分辨率的海浪模式研究。他们使用神威·太湖之光系统计算资源,计算效率超过36%,性能与国际同类应用相比提高30余倍。中科院计算机网络信息中心通过大规模并行算法和实现技术的创新,实现了40%峰值性能的千万核规模相场模拟,远高于普通软件约5%的水平,与2015年入围戈登·贝尔奖的工作相比,性能提升32倍。基于神威·太湖之光,模拟体系规模比之前提高两个量级,达到1011量级。系统应用情况神威·太湖之光系统自投入使用以来,已为上百家用户、数百项大型复杂应用课题的计算提供了服务,涉及气候、航空航天、海洋环境、生物医药、船舶工程等19个领域,其中整机应用14个(千万核),半机以上规模应用12个,百万核以上应用20多个。从大部分应用可以看出,当前的实际复杂应用系统向着多时空尺度、强非线性耦合和三维真实构型的方向发展,包含大量多尺度多模型的计算问题,存在多粒度、多维度、多层次的并行性,面临着全系统、全物理过程、真三维、自然尺度的计算模拟,对计算机的能力要求更高。根据加州大学伯克利分校提出的对科学与工程计算应用的分类标准,我们对各应用分类如下:(1)稠密线性代数方程组,如Linpack、大规模流固耦合和流声耦合计算、潜艇收发分置全向声散射特性等;(2)稀疏线性代数方程组,如高超声速飞行器数值模拟、大型客机失速特性模拟等;(3)谱方法,如基于FFT的湍流直接数值模拟、BNU_ESM地球系统模式等;(4)多体问题,如分子动力学GROMACS、微孔道扩散过程MD模拟等;(5)结构网格,如飞行器数值模拟、可压缩边界层湍流直接数值模拟、地球系统模式、地震模拟等;(6)非结构网格,如高超声速飞行器数值模拟、污染排放模拟等;(7)MapReduce,如蒙特卡罗模拟期权定价、BLAST基因序列比对、托卡马克装置逃逸电子行为模拟等;(8)组合逻辑,如AES、MD5等;(9)图的遍历,如社交网络分析等;(10)动态规划,如精确基因序列比对分析等;(11)回溯和分支限界,如SAT代数攻击等;(12)图的模型,如深度神经网络、隐马尔可夫模型等;(13) 有限状态机,如网络协议分析等应用。以上 13 类应用全部在神威·太湖之光系统上完成大规模并行计算。结 语我国在超算领域已经取得了举世瞩目的成就,但是,应该清醒地认识到我们离超算强国还有相当大的距离:核心技术突破的面不够宽,自主的并行应用软件不够丰富,各层次超算人才的培养有待加强,超算中心的作用和职能有待进一步发挥等。新一代E级超级计算机预研已经启动,我们将与同行开展全方位合作,在国产处理器、体系结构、软件和应用方面做出更多更精彩的创新成果。   致谢:本文成稿得益于国家并行计算机工程技术研究中心刘鑫博士的大力帮助,在此表示衷心感谢。参考文献请查看【阅读原文】。作者:漆锋滨CCF常务理事、CCF无锡分部主席。国家并行计算机工程技术研究中心研究员。曾获国家科技进步奖特等奖1次、一等奖3次。研究方向:计算机体系结构和系统软件Qifb116@sina.com via: https://mp.weixin.qq.com/s?times ... e=Ykf2aqEm7rgcBcTdg*2gqE7afT*gIjKk07O0QLkRVxbQHFfn2ZiE0N3q2c44iH0pa5Kb9lo5GADeSx4sSTmaKR03yVnSUOg7MRgt3fGgpSLYj2*RPYP-7jQ*BKWoFDxGvGalKb2PAdri4ltjCuEtHkwBG7pb3ACjoSio-y4VpU0=




PaperWeekly   网页链接 2017-10-21 18:18
自然语言处理
推荐一个文本摘要(Text Summarization)的资源网站,包括一些经典的摘要系统,会议,资源等。传送门:http://t.cn/RW29egB




大数据_机器学习   网页链接 2017-10-21 17:38
算法 Python 强化学习 神经网络 易应
常用python机器学习库总结 >>>> ython的一个机器学习模块,它的目标是为机器学习任务提供灵活、易应、强大的机器学习算法。(这名字很霸气) PyBrain正如其名,包括神经网络、强化学习(及二...机器学习, python,开始学习Python,之后渐渐成为我学习工作中的第一辅助脚本语言,虽然开发语言是...全文: http://m.weibo.cn/5291384903/4165343486254900




IT技术博客大学习   网页链接 2017-10-21 11:05
算法 应用 推荐系统
【亿级工具类APP头条数据聚合优化实践】 中华万年历的头条数据是根据推荐算法聚合而成的数据,包括ALS算法数据、用户画像数据、时效数据、非时效数据、定投数据、惊喜数据、频道数据、热榜数据、用户相关阅读推荐数据等。启动方式分为冷启动... 详见:http://t.cn/RWwXVMo 分享自@帘卷一庭秋




爱可可-爱生活   网页链接 2017-10-21 09:32
经验总结 深度学习 博客 代码
【PlaidML:致力于跨平台开发部署的开源高性能深度学习框架】’PlaidML: Open Source Deep Learning for Every Platform' GitHub: http://t.cn/RWZDmgu ref: http://t.cn/RWZDmg1




专注云计算   网页链接 2017-10-21 08:44
【机器学习新手工程师常犯的6大错误】机器学习中有很多构建产品或解决方案的方式,每种方式的假设情况都不一样。很多时候,如何找到合理的假设并不容易。机器学习初学者经常会犯一些事后觉得蠢爆了的错误。本文作者创建了一个机器学习新手工程师常犯的错误清单。希望大家可以从中学习,创建更鲁棒的解...全文: http://m.weibo.cn/1750765385/4165209071993964




爱可可-爱生活   网页链接 2017-10-21 08:16
算法 GPU Kaggle 回归
【GPU未来发展回归预测】《Using Regression to predict GPUs of the future | Kaggle》by Skalskihttp://t.cn/RWZjrER




爱可可-爱生活   网页链接 2017-10-21 07:22
Python
【Bounter:(Python)高性能大规模数据集(词频)计数器】’Bounter -- Counter for large datasets' by RaRe Technologies GitHub: https ://github .com/RaRe-Technologies/bounter ​




专知   网页链接 2017-10-21 00:25
经验总结 算法 资源 笔记 课程 强化学习
【DRL教程学习笔记01】AlphaGo Zero核心技术- 深度强化学习简介 | 原文:http://t.cn/RWZqRhT




网路冷眼   网页链接 2017-10-21 00:04
经验总结 博客
【A Gentle Guide to Machine Learning】http://t.cn/RWZUOkY 机器学习入门指南。 ​




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-4-19 22:08 , Processed in 0.028589 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表