【独家】《Nature》：深度学习处在婴儿期，但它是未来的...

贾伟中科院合肥 · 发表于 2015-3-16 01:25:37

http://www.wtoutiao.com/a/1970063.html

【独家】《Nature》：深度学习处在婴儿期，但它是未来的一部分

本文来源Nature，作者Nicola Jones，由机器之心独家翻译出品，参与成员：微胖、sunglass、小琦。

三年前，在山景城（加利福尼亚州）秘密的谷歌X实验室里，研究者从YouTube视频中选取了大约一千万张静态图片，并且导入到Google Brain —— 一个由1000台电脑组成的像幼儿大脑一样的神经网络。花费了三天时间寻找模式之后，Google Brain 能够只靠自己就能区分出某些特定的分类：人脸，身体，还有——猫！

Google Brain发现，互联网上充斥着猫的照片，这个发现让人感到很有趣。但这也是深度学习复兴中的里程碑：一门发展三十余年，拥有大量数据及处理能力的技术，帮助计算机解决一些人们可以直观解决的繁琐的问题，小至人脸识别，大到语言理解。

深度学习使计算机中的神经网络重新焕发生机，这一直是计算机领域的古老想法。这些系统，零星的被脑中密集的联通神经细胞所影响，在实验的基础上，通过调整神经元直接连接的参数来模仿人类学习的过程。Google Brain，有大约一百万模拟神经元，十亿个模拟神经连结（突触），比之前的深度神经网络大十倍。该项目创建者 Andrew Ng（吴恩达），已经再一次地把深度学习系统扩大了10倍，如今吴恩达的身份是百度首席科学家。

这些先进技术使那些盼望电脑能像人类一样思考的想法越来越接近现实。过去几年中，像谷歌、苹果和IBM 这类公司都已经野心勃勃的启动了相关研究。对普通用户来说，深度学习的成果体现在越来越聪明的软件层面，比如智能地进行照片分类、理解口头命令、翻译外语文章等。对于工厂和科学家们，深度学习计算机能搜索潜在的候选药物，绘制大脑中真实的神经网络或者预测蛋白质的功能。

「人工智能一直在失败中进步。它可能成为另一个leapfrog（蛙跳）」纽约大学数据科学中心主任、深度学习研究者Yann LeCun说到。

「接下来几年我们将目睹许多大鱼吃小鱼的事例，许多人将进入深度学习的大潮中，」加州伯克利分校的计算机图像识别研究者Jitendra Malik很同意这个观点，但就长远而言，深度学习可能不会占上风；一些研究者追求那些有保障的技术。「我是不可知论者」Malik说。「时间将会告诉人们哪些技术更适合。」

受大脑启发

如果追溯到20世纪50年代，计算机还是一个新鲜产物，第一代人工智能研究者急切地幻想成熟的人工智能技术近在眼前。但当研究者发现实际的知识里蕴含着巨大复杂度时，他们渐渐不再乐观，尤其是遇到一个感知问题，比如说人脸与面具或猴子脸的区别到底在哪里。许多研究者与学者花了几十年时间对计算机识别物体所必备的不同特征的规则进行手动编程。「找出特征是件难事，耗费很多时间，并且需要专业知识，」Ng说到，「你得想想有没有更好的方法。」

20世纪80年代，神经网络的深度学习似乎是个更好的解决方案。这些系统能够从抓取的数据中生成自己的规则，提供一种采用受大脑启发机制的对称性来完成类大脑功能。这种策略需要模拟神经元并将之组织成多个层次。当系统面对一张图片时，学习系统的第一层仅能简单区分其中的明暗像素点。下一层就能意识到某些像素点构成了边界；再往下一层就能区别水平和垂直线条。最后一层能识别出眼睛，并且认识到人脸中通常有的两只眼睛。(见“脸部识别”图)。

Malik说，第一个深度学习程序表现的并不比更简单的系统好，除此之外，使用起来还需要技巧。他说，「神经网络是需要管理的优雅艺术。其中包含着些许黑色魔法」。神经网络需要学习大量实例，就像小孩收集现实世界的信息一样。80年代到90年代，由于没有太多的数字信息可用，计算机要花费很长的时间去确定有些什么信息。因此，这一时期的技术应用非常少，其中一个是由LeCun开发的技术，现在被银行用于手写支票识别。

然而，直到本世纪初，诸如LeCun、他的前导师——加拿大多伦多大学计算机科学家Geoffrey Hinton等深度学习倡导者们都相信，计算能力的增强以及数字数据爆炸将会再次推动这项研究的发展。 George Dahl，Hinton的学生说，「我们想要向世界证明，这些深度神经网络确实有用并能有所助益。」

起初，Hinton、Dahl和其他几个人解决了困难但有商业重要性的语音识别问题。2009年，研究报告指出，经过经典数据——三小时录音和转录语音——训练后，在口语转为文本的准确率上，他们的深度学习网络破了纪录，这项纪录由标准、基于规则的传统套路保持了十来年。Dahl，这个在微软实习期间，将深度学习技术带到了微软的人说，他们的成功吸引了主流智能手机厂商的注意。「几年之后，他们都转向了深度学习」。比如，苹果手机语音助手Siri，正是以深度学习为基础的。

巨大飞跃

当谷歌在安卓手机操作系统中采用以深度学习为基础的语音识别技术时，单词错误大幅度降低25%。Hinton认为，在这个领域有所进展，非常困难。「这就象毕十次技术突破之功于一役。」

与此同时，Ng说服谷歌让他使用谷歌数据和计算机来建造谷歌大脑。谷歌大脑对猫的识别，是一次颇为吸引人的计算机进行无监督学习的展示（但仅凭這点，并不能说明其具有商业可行性）——无监督学习是最难的机器学习任务，因为被输入计算机的信息没有携带任何诸如姓名、题目或种类等的解释标签。但是，不久，Ng就遇到了麻烦，谷歌之外，几乎没有哪个研究者拥有从事深度学习的工具。他说，「磨了许多嘴皮子，那些沮丧的研究生们还是会跑过来跟我说，没有1,000台电脑，也能开展研究？」

所以，回到斯坦福后，Ng开始使用图形处理器GPUs——一种为家用电脑游戏开发的超快芯片，开发更大、更便宜的深度学习网络。其他人正这么干着，Ng说，「在硬件上投入大约100,000美元，我们就能用64个GPU制造出一台拥有百亿连接的深度学习网络。」

胜利的机器

但是,说服计算机视觉科学家需要更多的筹码：他们希望看到标准测试的成绩。Malik记得Hinton曾经问过他，「你是个怀疑论者，如何能够说服你？」Malik回答说，国际著名赛事——ImageNet的胜利。

比赛中，每个团队用大约1百万张图片组成的数据组来训练计算机程序，这1百万张图片被人工标注了所属类别。训练后，计算机程序就要接受测试：将程序未曾见过的相似图片归到所属类别。每张图片，程序均有5次机会，如果5次均错，则视为测试失败。过去的获胜者失败率约为25%。2012年Hinton实验室团队采用了深度学习获胜，失败率仅15%。

LeCun说，「深度学习完胜任何其他技术」，不过他并非战队成员。胜利让Hinton赢得了谷歌兼职工作。2013年5月，公司将成果用于升级更新Google+图片搜索。

Malik被说服了，「在科学领域，你不得不随经验证据的变化，适时而动，这场比赛结果就是证据」。后来他修改了技术，在另一场视觉识别竞赛中，打破了比赛记录。许多其他参赛选手也纷纷采用这一技术：2013年，所有ImageNet选手都使用了深度学习。

在图像和语音识别上取得巨大胜利后，人们对将深度学习运用到自然语言理解——比如，很好地理解人类对话以转述或回答问题——以及语言翻译，越来越感兴趣。同样，当前这些任务是靠硬编码规则以及明文本的统计分析完成的。这些技术的最先近成果可以在诸如谷歌翻译这样的软件中找到，该翻译软件能够生成用户理解的翻译结果（尽管有时很搞笑），但是，和顺畅的人工翻译相比，还差得远。「未来，深度学习会比现在表现地更好」，众包专家Lius von Ahn说，他的公司Duolingo(位于Pittsburgh, Pennsylvania)，（众包）依赖于人而不是计算机进行文本翻译，「所有人都同意时是尝试不同的方法的时候了」。

深度科学

与此同时，深度学习也被证明有助于完成各种科学任务，Hinton说，「深度网络确实擅于发现数据集中的模式」。2012年，默克（Merck)药物公司表示，在有效备选药物的预测上，任何打败公司机器程序的选手，将会获得公司给出的赏金。比赛任务是，从数据库中获取三千多万小分子，每个小分子有成千上万种化学性质描述，以此为基础，预测每个小分子对15种不同的目标分子的反应。Dahl和他的同事运用深度学习系统赢得了22,000美元。「我们改进了默克程序基准，提高了约15%」他说。

生物学家和机器计算研究人员（包括麻省理工学院的 Sebastian Seung）正在使用深度学习来帮助他们研究大脑切片的三维图像。这些图像中有表示神经元联结的乱如团麻的线；它们要先被标定出来，然后才能用于绘制和计量。过去，追踪标定线条的工作由本科生来完成，但是随着项目的开展，面对将会出现的数百万神经元，追踪标定工作的自动化将是解决问题的唯一办法。深度学习，似乎是解决自动化的最佳手段。Sebastian Seung正在使用一个深度学习程序去绘制视网膜中的一大片神经元，再将结果转发给一个叫做EyeWire的众包游戏上，由志愿者们去审校。

威廉·斯坦福·诺贝尔（William Stafford Noble,），西雅图华盛顿大学的计算机科学家，已经使用深度学习教授一个程序如何查看一连串的氨基酸并预见其聚合成的蛋白质结构—比如，氨基酸不同的部分会形成多肽链还是α螺旋，或者溶剂浸入该结构中的孔隙是否容易。一直以来，诺贝尔都是在一个小数据集基础上训练该程序，接下来的几个月，他将进一步深入到蛋白质数据库：一个目前有着将近10万个蛋白质结构的全球数据库。

深度学习也能为计算机科学家们带来巨大经济利益：Dahl正在考虑创业良机，LeCun上个月被Facebook聘去领导一个新的人工智能部门。这种技术（深度学习）为人工智能的实践成功奠定了基础。「深度学习刚好符合一个特性—如果你给它越多数据它会变得越来越好，」Ng提到。「深度学习算法并不仅仅如此，但是，毋庸置疑，它是最好的—当然，也是最简单的。那就是他是AI能够得以实现的巨大保障的原因所在。」

不是所有的研究人员都对深度学习方案，坚定不移。Oren Etzioni，西雅图艾伦人工智能研究所（ Allen Institute for Artificial Intelligence，去年9月成立，目标是发展人工智能）的主管Oren Etzioni说，他将不会再靠大脑获得灵感。「和我们发明飞机时一样，」他说，「最成功的飞机设计并不是以鸟类生物为模型。」Etzioni的具体目标是发明一种电脑，它可以在浏览了一堆文书之后，通过标准化小学科学知识测试（最终直至通过大学入学考试）。为了通过考试，电脑必须要学会阅读和理解图表和文字。艾伦研究所将如何做到这一点还是未知数——但是对于Etzioni来说，神经网络和深度学习并不是首选的解决方案。

另一个与之抗衡的方案是，依靠一种可依据输入事实进行推理的电脑，而不是让电脑从抓取数据自己生成事实。因此，可以采用断言（ assertions）进行编程，诸如「所有女孩都是人类」。接下来，当面对带有女孩的文本时，它就能做出如下判断：这个女孩是一个人。为了囊括世间的普通常识，需要数以千记（如果不是数百万）的断言。这和微软的沃森电脑工作原理大致相同，众所周知，2011年，这台电脑在电视节目 Jeopardy中战胜了顶级人类选手。即便如此，Rob High（位于德克萨斯州的公司首席技术官）声称，他们已经尝试性地使用深度学习，提升Watson的模式识别能力。

谷歌也在对冲赌注风险。尽管基于Hinton的深度学习网络，谷歌的图片标识（picture tagging)能力获得新的进展，公司也设有其他投入更为庞大的部门。在2012年12月，谷歌雇用了未来学家Ray Kurzweil来探索让计算机从经验中学习的不同方式——其采用的技术，并不局限于深度学习。去年五月，谷歌得到了来自本拿比（ Burnaby），一台加拿大研制出的量子计算机（参见《自然》杂志498,286-288；2013）。这台电脑是非人工智能难题的保障，诸如，颇有难度的数学计算——尽管它可以，在理论上，被用于深度学习。

尽管已经取得了一些成就，深度学习依然处在婴儿期。「它是未来的一部分，」Dahl说道。「奇妙之处在于，我们做了这么多，却仅触及了冰山一角。」最后，他补充道，「我们才刚刚起步」。