神经网络的信徒们

贾伟中科院合肥 发表于 2015-4-6 11:12:00

【独家】神经网络的信徒们

2015-04-04 机器之心

本文来源chronicle，作者Paul Voosen，机器之心独家翻译出品，参与成员：郑劳蕾、Salmoner、Angelaa、微胖。

魔法已经进入这个世界。如今，许多美国人口袋里装着薄薄的黑色平板，这些机器接入遥远的数字云和卫星，它们解码语言、通过摄像头观察并标记现实，挖掘个人数据，它们以某种方式理解、预测着我们的心愿。倾听、帮助着人类。

因为与多伦多大学有个约会，这个夏天，我如约而至，走出市区宾馆，感到了些许秋天的气息，手机「向导」已然待命。我问路边哪里可以找到咖啡。它给了答案。机器知道什么？它是怎么学到的？使用技术和理解技术之间的鸿沟，远比我们所知道的还要宽。机器是怎么工作的？据我所知，没有人能准确地说明白。我们知道的和机器知道的之间有什么差距和联系呢？这个问题上，有一个人最有发言权，此刻我正手捧着咖啡，走向他。

Geoffrey Hinton，一位学院派的计算机科学家，是这个领域的火炬手，他的整个职业生涯都是与少数同伴一起，坚守者人工智能，而该理念早已被其他同行摒弃多次。他是一个才华横溢但却被边缘化的人，一个信徒，一个不得不把自己的想法掩藏在晦涩的语言中以通过同行评审的性情乖戾的程序员。他坚定地认为，虽然我们对大脑知之甚少，但即使是大脑的玩具模型，也会在计算能力方面比传统的人工智能更强、更灵活。他的思想和算法将会为我们生活的方方面面注入活力，他是人工神经网络的大师。

这种网络，现已更名为「深度学习」，在过去的几年中，无人出其左右，还登上了《纽约时报》头版。由于擅长处理语音、视觉以及其他复杂人机交互，神经网路已经被谷歌、Facebook、微软、百度——任何你能想象到的技术先驱——欣然采纳。在这些公司里，神经网络已经证明了一种有效的可以吸收大量数据并从中进行有价值预测的处理方式：怎样让你的数据中心更高效节能？此用户之后有买车的意愿吗？科技公司对每一个擅长神经网路的程序员展开了激烈角逐，他们一直从学术界重金聘用人才。据报道，去年谷歌花费超过4亿美元收购DeepMind公司，它们没有产品，只是将将「记忆」集成到了学习算法中。在那之前，谷歌买下了Hinton的项目，具体价格未公开。

在技术领域，深度学习似乎无孔不入。在过去的几个月里，我邮箱里关于深度学习的报道堆积成山：深度学习识别出患有自闭症风险的基因；深度学习为图片和视频自动添加标题；深度学习识别大型强子对撞机中的粒子；使用深度学习来引导汽车和机器人。

伴随着一篇篇报道，深度学习将人工智能这个概念带入到公众视野，尽管还没有一些具体应用。我们应该担心机器人革命的到来吗？注意：不是现在，也许在50年后。）这些程序员真的蠢到这种地步——以为他们真的是在模仿大脑吗？不是。我们正在向着具有真正智能的机器的方向前进吗？这取决于你如何定义智能。面对天花乱坠的宣传，深度学习能不辜负这些「夸张报道」吗？

对深度学习的大肆吹捧招来许多研究人员的警告——如果不注意这些潜在风险，他们将面临人工智能的反击。「这很有杀伤力。」纽约大学教授、现Facebook 人工智能研究负责人Yann LeCun说，人工智能曾有过三四次这样的经历——死于过度炒作。

有几次，人工智能死在人工神经网络上。在上世纪60年代，神经网络一度势如破竹，不料却因晶体管的局限性而跌下神坛，这种情况在80年代又重复出现。Hinton的一个老搭档告诉我，在那段黑暗的日子里，象Hinton和LeCun这样一心一意坚持的研究人员，如堕鼠洞，被学术界无视。几乎没有人预料到会有第三次上升。许多人仍然担心会有另一场崩溃。

然而，Hinton却充满信心。他邀我前往多伦多去了解这个新领域的深刻过往。在过去十年中，他一直在举办为期一周的有关神经网络的暑期学校，我曾经拜访过。那时天气炎热，一整天枯燥的报告，一群年轻人，大部分是男性，满怀希望的挤进拥挤的教室。我在Hinton的办公室找到了他，虽然已经退休但办公室仍为他保留着。他站在那里，腰背有点吃力。这半年他总是乘火车前往位于加州的谷歌总部。他的门上装饰着一些难以辨认的手写体数字，它们是从记录着神经网络早期成果的数据集中截取下来的。

67岁的 Hinton很难会跟自己过不去。在经历被边缘化的一生后，如今，他几乎能和每个遇到的人打交道。例如，在多伦多时，他在地处市区谷歌办公室的外面工作，这里都是广告部员工。他是唯一的研究人员。偶尔会有好奇的员工悄悄走过来问：「你是做什么的呢？」

「你有一个安卓手机吗？」Hinton回应到。

「有。」

「语音识别很棒，不是吗？」

「是，很棒。」

「嗯，我的工作就是设计能够识别语音的神经网络。」

提问者几乎总是陷入沉思。

「等等，你什么意思呢？」（译者注：这说明大多数人还是不能理解神经网络的真实含义。）

只要我们试图创造「会思考」的计算机，研究人员就会立刻为它们应该怎样运行而争吵。计算机应该模拟（我们想象中的）人脑思维的工作方式吗，就像是认为逻辑和抽象思维都能被程序语言来表达的笛卡尔理论。或者，不去模仿真实物理上的大脑，而是模仿大脑的简化版——拥有神经元网络和突触，以希望网络实现更高的计算能力？正是这一争议在历经数载后孕育出人工智能。

康奈尔航空实验室心理学家Frank Rosenblatt，是上世纪50年代后期的大脑模仿先驱。他的工作灵感源自Donald O. Hebb，这个人十年前就预测过学习机制：当一个神经元反复激活另一个神经元，细胞就提高了它们的连接效率。认知科学家喜欢这样表述：「细胞互相激发，缠绕在一起」。Rosenblatt认为，这个简单想法足以创造一个可以学会识别物体的机器。

并且他动手做了一个：你现在可以在美国博物馆Smithsonian里看到这台被称作「感知器」（他是这么称呼它的）的各个部件。机器占据了整个实验室，它的运作机制很简单，包括三层。在一端，用400个光传感器来模拟视网膜；传感器多次连接一组512个电子触发器，当它通过一个特定的可调节的兴奋阀值时就会像神经元一样激发。这些触发器连接到最后一层，当一个物体与感知器受训见过的对象相互匹配时，它就会发出信号。

训练（Trained）是关键词：感知器没有被编程，但训练过。它自己不会学习。Rosenblatt创建了一个公式，来计算感知器正确或错误的次数，而且错误可以被追回，然后在512个触发器中分别进行修改。充分调整这些权重后，感知器可以开始识别一些最基本的模式，比如，标准的字母形状。

Rosenblat非常积极的来分享这个激动人心的成果。1958年夏，他和他的赞助方美国海军举行了新闻发布会。就像科学界经常发生的那样，他开始谈论未来。在研究人员听来，这未免显得愚蠢可笑；但在今天听来，却很有先见之明。《纽约时报》抓住了发布会的要点：

「海军透露了一种电子计算机的雏形，它将能够走路、说话、看、写、自我复制并感知到自己的存在……据预测，不久以后，感知器将能够识别出人并叫出他们的名字，立即把演讲内容翻译成另一种语言并写下来。」

Rosenblatt的名声使他的同行们心生反感，其中许多人已经选择追求基于规则的人工智能；双方都在追逐军事研究经费。最重要的是，麻省理工学院两位杰出的计算机科学家Marvin Minsky 和Seymour Papert，试图复制感知器并揭露其缺陷，成果于1969年集结成书，正是这本书险些毁掉神经网络。他们说，感知器天生具有局限。最根本的缺陷是，它学不会「异或」（exclusive or）逻辑，一种基本逻辑，两个值相异时结果为真。

学习这种功能需要在感知器里额外添加一层。但是,没人能从生物学层面找到一个合理的方式来计算、传输该「隐藏层」的调整活动。神经网络压缩信息之后，这些信息无法复原。如同无法倒流的时间。

研究停滞，研究经费也消失了。Minsky 和Papert赢得了这场战争。

尽管这些令人沮丧，但Rosenblatt找到了其他出路。他开始着迷于另一个项目：该项目试图证明，将一只老鼠的脑细胞移植到另一只老鼠后，大脑细胞仍会保留记忆。但是，这项工作并没持续多久——Rosenblatt英年早逝，那是1971年的一次航海事故，独自一人离开这个世界，那天正是他的生日。好像神经网络也要随他而去了。

没人告诉Hinton这些。大学时期，Geoff Hinton不断「跳槽」——化学、物理学、生物学、哲学和心理学等，最终，他申请到了爱丁堡大学的一个人工智能研究生项目。

Hinton来自一个逍遥派家族，家族成员都习惯去做他们自认为最好的事情。比如，曾曾祖父之一的乔治·布尔（ George Boole）的代数成为计算机时代的一块基石，其中包括打败Rosenblatt的「异或」理论；另一位曾曾祖父管理着维多利亚时代的性俱乐部。他的祖父在墨西哥开矿，他的父亲是一名昆虫学家，「他认为六条腿的动物比两条腿的东西更有趣。」

Hinton在青少年时期开始沉迷于计算机和大脑。他能够在十分钟内用刀片和六英寸长的钉子、铜线，做出一台继电器；给他一个小时，他能给你整出一个振荡器。

他一直坚信：「如果你想去了解思维工作的方式，忽略大脑可能是个糟糕的想法」。用计算机建立一些简单的模型，然后观察他们如何运作——似乎是个显而易见的研究办法，「这就是我至始至终一直在做的。」

不过，这个研究方法并非那么显而易见。在他位于爱丁堡的公寓里，他是唯一探究神经网络的人。研究进展艰难。「看你挺聪明的一个人，」人们对他说，「为什么要做这个？」

Hinton不得不进行秘密研究。他的论文不能以神经网络学习为主题；只好转而关注电脑是否能够推断出图片某个部分是什么，比如，人的一条腿。如果他在文中提到「神经网络」，他的论文就很可能无法通过同行评审；他不得不谈论「理想网络」。毕业后，他没有找到全职的学术工作。但是，慢慢的，在1979年他组织的一次会议上，他找到了同道中人。

一位在索尔克生物研究所从事生物研究的计算神经生物学家，也是后来 Hinton 的长期合作伙伴Terrence J. Sejnowski说：「我们都坚信神经网络。可以说是盲目信仰，因为我们不能用数学或其他方法来证明任何事情。」但是，当看到基于规则的人工智能搞不定诸如视觉难题时，他们知道自己手中握有王牌，Sejnowski补充道，「能够解决这些问题的唯一行得通的系统就是大脑。」

Hinton习惯于挑战权威，所以，20世纪80年代早期，他在加州大学两位心理学家 David E. Rumelhart和 James L. McClelland指导下做博士后，也就不足为奇了。 Hinton 说，「在加利福尼亚，学者们认为有趣的观点不止一个。」而他反过来赋予这些有趣观点唯一的计算机思维。McClelland说：「我们认为Geoff 独具慧眼，他谈到的事情，或许能够开拓新世界。」

在一个舒适的会议室，他们每周都开会，寻找能够上溯到多层结构的纠错机制的训练方法。 DNA结构的联合发现者 Francis Crick 在听说他们的工作后也要求参加周会。McClelland说：「我觉得他象《帽子里的鱼（The Cat in the Hat）》中的鱼」，他会给参会人员讲解他们的想法是否合乎生物常理。

Hinton说，这个组织过于局限在生物学领域。因此，假如神经元不能发送反馈信号，会怎么样？他们不能盲目再现大脑。这其实是一个数学问题，Hinton 认为，是个获得一个损失函数的梯度的问题。他们认识到，设计出来的神经元不能像开关一样。如果你将神经网络的计算看做一个沙漠地貌的话，这些神经元就如同沿着陡峭悬崖进行滑落；并且只有一个下落路径。如果他们把这些东西看做一个更加优雅的技巧——一个S型函数——那么，这些神经元就可以当做一个阈值判断器，但信息（除了下落）也可以从底部爬升回去。

当这些还在继续时，辛顿却不得不离开圣地亚哥（San Diego）。计算机科学部门决定不给他职位。他回到英国做了一份无聊的工作。某晚，他被一个叫 Charlie Smith男人的电话惊醒了。

「你不认识我，但我认识你。」Smith 告诉他，「我为System Development Corporation工作，想投资具有长远规划的项目。对于那些可能不可行、或者无法长时间运行的项目，格外有兴趣。我一直在读你的论文。」

Hinton从这个神秘的组织获得了35万美元。他后来才知道这笔资助的来源：兰德公司的一个非营利子公司通过为开发核导弹攻击软件获得了数百万美元。政府以此要求他们，要么把这笔钱用来支付薪水，要么尽快散出去。这笔资助让Hinton可以更加愉快的开始研究。

回到圣地亚哥，Hinton继续研究他们的算法数学，最初被命名为反向传播（back-propagation）。完成后，他尝试模拟那个曾经的打败 Rosenblatt的「异或」（exclusive or）操作，他让系统整夜运行。第二天早上，神经网络已经学会了。

到20世纪80年代末，神经网络随处可见。他们重返《纽约时报》，出现在有关圣地亚哥团队技术著作的书评里。许多公司认为，神经网络有望解决很多问题。就连好莱坞也以此博取眼球：比如，阿诺德施瓦辛格扮演的机器人终结者说：「我的CPU是一个神经网络处理器，一个会学习的计算机。」

Hinton 在卡内基梅隆大学呆了几年，他和Rumelhart、Ronald J. Williams 一致证明，神经网络能够进行特征的多层级学习，以这种神经网络为基础，机器可以进行复杂计算。但是，他对反向传播（BP）并不满意，包括LeCun在内的其他几位也发明了反向传播——结果也没那么强大。在 Sejnowski的协助下，Hinton依据Boltzman分布设计出了一个神经网络，借鉴了统计力学中描述在变化的温度下物质改变能量状态的概率。这就是典型的Hinton：他从物理类比而非纯数学理论进行编程。那段时间，Hinton非常高产。Sejnowski回忆说，有次他在厨房接到了Hinton的电话:「Terry，我已经知道大脑如何工作的了。」在过去的三十年中，Sejnowski补充说，这样的电话他接到了十多次。

世界并未因Hinton的成就而兴奋太久。研究碰到了新的难题，神经网络可以学习但学的不太好。神经网络需要强大的计算能力和可供学习的大量例子。如果一个神经网络失败了，人们也未必清楚其中原因，人类大脑也是如此。即使两个人用了同样的算法，他们也可能会得到不同结果。Facebook的 LeCun说，工程师讨厌这种变化无常。他们说，这太复杂了，除非有人相信魔法。相反，程序员倾向选择那些可预测的、和反向传播表现差不多的学习算法。

当他们看到神经网络日渐衰落时，也不得不去关注Rumelhart怎么办，这个人却放弃了，他要为神经网络的第二次衰退负责。他慢慢被Pick病——一种罕见的痴呆症——压垮。 McClelland 认为，这可能是由过度使用大脑里的神经细胞而引起的，他于2011年去世。2001年，认知科学学会设置了Rumelhart奖，Hinton是第一个获得此奖的人。

蒙特利尔大学教授Yoshua Bengio说，这个领域失去了自己的愿景，在20世纪90年代，身为一个神经网络派追随者，他加入过Hinton和LeCun团队。虽然LeCun 模仿视觉皮层建立了一个神经网络，能够读取全美国20%的银行支票，但没人再谈论人工智能了。「在主流机器学习会议上，很难发表任何有关神经网络的内容，」Bengio告诉我，「过去十年中，神经网络走完了从流行到泯灭的过程。」

十年前，Hinton、 LeCun和Bengio密谋挽回神经网络。较之其他对手，神经网络有着特定优势：通过训练，它们可以识别新事物——人们称之为有监督学习——但是，它们自己也能进行模式识别，就像一个孩子，让其独处，在父母告诉他答案之前，他就能自己区分方体与球体。如果它们能够进行无监督学习，这会重新吸引世人目光。2006年，Hinton发表了有关「深度信念网络」的文章，该网络能够深入多层运行、自行学习事物的基本特征，在最后一层经由训练提高精度。这个人工神经网络被冠以新名称「深度学习」。

然而，在他们征服世界之前，世界已经向他们发生倾斜。也是2006年，新的更为强大的计算机芯片问世，Hinton的学生发现这种芯片能够完美满足深度学习的严苛要求。一夜之间，神经网络提速近30倍。与此同时，Google和Facebook已经收集大量用户数据，这使得计算机在大规模网络上运行程序变得更加容易。Hinton的一位学生在Google实习的时候，将Hinton的语音识别技术导入了Google系统。旋即取得成功，困扰了人们近十年的语音识别难题得到了解决。于是，Google开始在所有Android手机上运行Hinton的软件。

结果令人震惊。这些神经网络和20世纪80年代的神经网络，几乎没什么差别。这是一个简单的有监督学习系统，它甚至没用到Hinton在2006年的突破性成果。在规模上，没有其他算法能够媲美神经网络。Hinton 说：「回顾往昔，仅仅是个数据量和计算量的问题。」

如今，Hinton 要花半年的时间呆在Google园区内，防止谷歌工程师走进过去数十年中的死胡同。同时，他也在探索着那些因为不可行而被被抛弃的神经网络，探索着他所说的「黑知识」。他经常花费一整天来编程，如果他是教授的话，就没法做这些事了。我问他职业生涯中，那段时间最为高产，他毫不犹豫的说：「下个五年。」

Google在许多产品上使用了深度学习。暑假拜访Hinton时，他们正在将深度学习应用到语言翻译上。谷歌拥有针对每种语言的编码和解码网络，它们能将每个单词转化为包摄了某个单词丰富含义的庞大矩阵中的数字——矩阵中，「猫」和「狗」数字相似度要胜于「猫」和「褐色」。以此为例，英语编码网络将这些数字传输给法语解码网络，该网络借由这些数字对翻译结果进行一个整体预测，然后将预测结果与逐字分析的结果进行对比，与此同时，还要一直和已知翻译进行比较并追溯错误。

Hinton，这位惯于挑战权威的人却为一家大公司工作，多少有点讽刺。但是，这不可避免，因为只有大公司才能提供让深度学习一展拳脚的工具；大学没有这个能力。 Hinton暑期班的茶歇时间，我偶尔听到一位年轻学者抱怨某家公司无法提供足够数据训练机器，几分钟后，这位年轻学者补充说：「我要去微软了，数据就不会是个问题了。」

Hinton说：「有些危险的是，如果足够多的大公司雇了足够多的研究人员，那么，大学就没有足够多的人来培养学生、进行纯粹的基础研究了。」不过，他继续补充说，技术公司意识到问题了，比如谷歌就希望Bengio继续自己的基础研究。

LeCun已经在Facebook里重新建立了一个贝尔实验室，1990年代，他曾经在贝尔实验室工作过。他保证会发表实验室的研究，「我认为，学术研究不会消失。」技术公司的求贤若渴正在吸引更多的求学者而不是打败学术。在警惕过热的同时，他也对深度学习充满自信，它仅仅是个开始。「如果不是对此坚信不疑，我不会力排众议从事深度学习20年。」

Bengio不禁回想起那些未被资助的研究工作，计算机视觉、语音识别领域那些秉持传统研究套路的同行评审，对这些工作大加攻击。他说，多样性才能战胜人类偏见，「但是，人类倾向于摒弃那些他们无法理解、并不信仰的事物。」

如今，神经网络研究者如日中天。就连长期推崇传统人工智能的MIT，如今也加入到了深度学习的队伍中。

索尔克研究所的Sejnowski说：「我们就是在恐龙脚下艰难求生的弱小哺乳动物。基本上，微弱胆小的哺乳动物会赢，恐龙消失，新纪元开始了。」

Rosenblatt在新闻发布会上曾分享过的很多梦想，如今都已成真。其他梦想，仍然遥远，比如计算机意识。如今，最大的神经网络拥有10亿个连接，是几年前规模的1000倍。不过，和人类大脑相比，仍显微小——10亿个连接不过是1立方毫米大小的组织，在脑部扫描中，比一个立体像素还小。我们距离真正的人类智能还相当遥远。Hinton深受大脑启发，不过，他很清楚自己不是在复制大脑，而且还差的很远。

随着神经网络不断发展，有关它们潜力究竟如何的种种猜测也是源源不绝。许多研究者认为，从中可以进化出推理。Gary F. Marcus，纽约大学的心理学家，在几篇《纽约客》的文章中质疑了深度学习的成果，文章写到，Hinton敦促他表态：神经网络能够做什么，才会让他印象深刻。这位心理学家的回答是什么呢？看看这一段：「地方议会议员拒绝给游行示威者们颁发许可证，因为他们害怕暴力。」谁害怕暴力？如果神经网络可以回答这个问题，那么他们就能认识到重要意义。

Sejnowski补充到，这里带着深深的讽刺。如今，深度学习是源自神经科学的开发庞大数据库的最有前途的工具之一。「我们做这件事是用来理解大脑工作方式的，」他说，「结果表明，这个工具很管用，工具与大脑有很多不同之处，它是用来理解神经科学的最好工具。」

那是在多伦多的漫长的一天。在我访问期间的某一刻，我注意到 Hinton在他的笔记本电脑上运行着一个程序。每隔几秒钟，两个手写体黑白数字闪现在屏幕上，并随机覆盖。他正在测试一种新的算法，查看它在视觉混乱的情况下对两个数字的检测效果。

两个新数字出现了。他眼中露出一丝调皮的神情。

「这两个数字是什么」他问我。

「6和4？」

我答对了，电脑也一样。但我渐渐累了。我的神经网络渐渐失灵。另一组数字闪现。

Hinton问，「这组呢？」

我说：「这好难。0和5吗？」

「0和9。它检测到了0和9。现在它比你强了。」

我弄错了，但机器却没有。

页: [1]

VALSE's Archiver

神经网络的信徒们