2015伦敦深度学习峰会笔记：来自DeepMind、Clarifai等大神的分享

贾伟中科院合肥 · 发表于 2015-11-30 23:17:53

http://m.csdn.net/article/2015-10-17/2825945

2015伦敦深度学习峰会笔记：来自DeepMind、Clarifai等大神的分享时间：2015-10-17 22:35 作者：Alessandro Vitale

上周，我有机会参加在伦敦举行的第三届深度学习峰会，上两届分别在旧金山和波士顿举行。

深度学习峰会由 RE.WORK主办，汇集了从工业领域到学术领域不同背景的专业人士，在快节奏的两天里，安排了许多时长为20分钟的演讲以及供人们交流讨论的茶歇。

这里是我第一天的笔记，如果您发现我有说错的地方，请告知我！

所有的演讲都已录成视频，一旦视频发布，我将会在此篇博客中更新链接。

英伟达的 Alison Lowndes致欢迎词之后，演讲由Alex Graves开始，他的讲话是《神经图灵机》（NTMs，论文及代码）。Alex是递归神经网络（RNNs）最重要的研究者之一，同时他是谷歌DeepMind的成员。神经图灵机背后的思想是学习编程而不是模式。其中的困难之一是编码程序操作，因此它们是可微的，使得NTMs可以通过梯度下降方法来训练。他们已经能够训练NTMs让它们执行基本的算法，如复制，循环和排序。他们现在正在寻找NP问题的解决方案，如旅行商问题，初步结果表明效果不错。

神经图灵机学习排序

Koray Kavukcuoglu，同样来自于谷歌DeepMind，他的演讲是《端到端的Agents学习》。Koray也是Torch框架的创建者之一，Torch被大量用于谷歌DeepMind和Facebook AI Research之中。他演讲的主题是通用性AI，同一个系统可以在大量任务中工作并且从原始输入中自动学习。他提出了著名的深度Q网络（DQN）算法，它学会了玩Atari 2600款游戏并且比人类玩家玩的还要出色，最后出现在了《自然》杂志的封面上（论文）。DQNs是由深度学习（端到端训练，从原始数据到行动值）和强化学习的组合，后者在某种程度上是一个agent（例如玩家），通过在环境（例如游戏）中行动进行学习，并且最大化奖励（例如得分）。Koray然后展示了Gorila（论文），它是一种分布式DQNs训练架构，许多actors通过并行的方式采取行动，在49款游戏中，有41款游戏得到的结果比使用原始本地架构要好。更多关于Gorila的资料可以在2015 ICLR（幻灯片视频1 视频2）上的David Silver演讲中找到。DQNs还未解决的问题之一是长期策略（例如，找到在之后游戏之中打开门的一把钥匙）。他们同时还在演讲游戏之间的迁移学习。

Gorila，当你需要大规模的强化学习时可以使用

之后演讲风格改变，Ben Medlock， Swiftkey的联合创始人和CTO，与The Next Web的Martin Bryan之间开始了炉边谈话。Swiftkey是一款智能键盘，它代替了智能手机的内置键盘。目前算法主要集中在输入词改正和联想，长期目标是预测用户意图而不是用户想要输入的文字。搭载深度学习的第一个版本几乎准备就绪了。DL可以帮助分析艰难的语言，比如汉语和芬兰语，并且与传统神经网络处理相比，它可以利用更多的上下文信息（位置，应用程序，时间等）。DL在更长期分析中同样有用，使用RNNs和之前语句可以得到更好的预测。

接下来是英伟达的Alison Lowndes的演讲，她演讲的内容是《深度学习对现代生活的影响》。她大体概述了深度学习，包括神经网络复兴背后的三个驱动力（更多的数据，更好的模型，强大的GPUs）。Alison给出了最近一些不错的例子，比如Giraffe（论文和代码），它是一款国际象棋引擎，通过与自己对弈，在仅仅72个小时之内就达到了国际大师的水准。

Giraffe在72小时内成为国际象棋专业玩家

之后根特大学博士、目前就职于谷歌DeepMind的Sander Dieleman发表了演讲，演讲主题是关于他与另外几位根特博士生如何在浮游生物分类中赢得了Kaggle竞赛。他们的模型使用了一个基于OxfordNet（论文）的CNN，这个CNN赢得了2014年ImageNet挑战赛。那次挑战的一个困难点是仅仅只有30000个样本，但分类有121个之多，所以他们做了极大的数据扩展以避免过拟合（旋转，转换，改变比例，翻转等）。Sanders写了一篇关于这个解决方案很棒的博客。

扩展浮游生物数据集的一种良好方式

Jeffrey de Fauw，又一位根特大学的博士，也是一位数据科学家，展示了Kaggle糖尿病性视网膜病变比赛的解决方案。本次比赛的目标是在眼部图像中确定糖尿病性视网膜病变（糖尿病性视网膜病变是发达国家中工作人群致盲的首要原因）的迹象。此外，只提供小数据集（35000条标记了左和右眼的数据），这些数据是偏态分布的，而且还有噪声。他分享了此次比赛的经验和教训：

先用小型网络，能够更快迭代；
不要用太多的过滤器；
对较小类进行细分采样和扩张数据（例如亮度等）。

Jeffrey针对此解决方案同样写了篇不错的博客。

真实数据，不平衡分类和相机拍摄噪声

Andrew Simpson，萨里大学研究员，演讲了关于永恒学习机器（PLMs）的话题。PLMs是一种新型的深度神经网络，能够快速学习。Andrew说，目前的DNNs有一些缺陷，特别是在使用它们前需要进行训练，而且永远保持同一个状态，使用LSTM的RNNs也有同样的问题，因为它们可以使用内存进行预测但是不能进一步训练。PLMs由两类DNNs组成，一类用来分类图像（存储DNN），另一类用来生成新图像（召回DNN）。它们使用永恒随机梯度下降，在每次迭代的时候，随机选择一个分类，召回DNN用这些输入来合成各个训练图像。经过召回训练的图像同随机选择的类一起来训练网络得到反向传播SGD中的一个步骤。通过“新经验”SGD步骤，新的类可以迅速添加，而不需要从头开始训练新的DNN。更多资料可以在这些论文中找到论文1 论文2。

PSGD训练2种组合起来的深度神经网络

下一位是Matthew Zeiler，Clarifai的创始人及CEO，讲述了他们的API可以在10000种概念（一个概念既可以是一个对象，一个形容词或者一个动作）上分类图像。该API同样可以用于视频处理。他给出了一个令人印象深刻的视频处理演示，各种概念在视频时间轴上高亮显示，使视频易于搜索；它可以让任何人编辑视频的能力同样引人注目！他们非常注重性能（三五分钟的视频可以在6秒钟内处理完），充分利用AWS GPUs和专有工具包优化了速度和内存。目前它们支持21种语言概念，并对本地化做出了显著努力。他们将进一步涉足医疗保健领域，与现场传感器一起支持医学分析（例如耳朵，嘴巴和鼻子的图片）。

Matthew Zeiler展示汉语视频注释（图片由Courtney Corley提供）

接下来是Max Wellington，阿姆斯特丹大学计算机科学教授， Scyfer BV创始人，深度学习发起人，专注于医疗保健。他首先介绍了将机器学习运用于医疗保健领域中的困难，也就是维度灾难（对于个人有TB级的数据，但是对于患者则很少）和隐私灾难（数据被封锁在各个医院，缺少整体观察）。他提出了一些可行的方案：

生成扩展数据集模型；
充分利用数据的对称性；
去除已知偏差（例如一些医院可能在不同阶段治疗疾病）；
使用贝叶斯方法减少过度拟合。

他进一步阐述，展示了他最近一些工作：

贝叶斯黑科技（论文， Hugo Larochelle备注），其目标是学习一个神经网络，类似于集成神经网络降低权重存储和概率校准输出；
贝叶斯变分法丢失率（论文， Hugo Larochelle备注），使用新的算法来学习丢失率，有助于避免过拟合；
一篇尚未发布的关于区域不变性的论文（深度生成模型不变性表示，Louizos等人，2015），NN可以创建输入数据的潜在表示信息，去除已选择的信息（例如照片光照信息），有助于去除偏差。

去除光照信息后图片能够很好地被聚类

上午的最后一个演讲，主讲人Lior Wolf，特拉维夫大学的教员，演讲的主题是《使用深度学习和Fisher向量进行图片标注》（论文PDF）。他首先表明，他以计算机视觉研究员的身份涉足自然语言处理领域，这又是一个DL如何在各个领域越来越多的佐证。Lior然后谈到了3个任务：

图像标注（从给定列表中为一张图片分配一个描述）；
图像搜索（给定描述搜索图像）；
合成描述（为新的图像生成新的描述）。

为了实现图像标注和搜索，他们最开始用CNNs将图片转换成向量，用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中，由此产生了基于Fisher向量的模型。一旦他们得到了语句向量，他们使用典型相关分析（CCA）将图片表示和语句表示投射到同一空间里，使图像和句子可以匹配，找到最近邻的部分。为了合成描述，CNN->CCA管道中结合使用RNNs和输入数据。尚未解决的问题之一是，系统决定什么来描述，仍然需要继续研究，图像的哪一部分需要被描述。

自动生成的一个不错的描述

午餐之后，下午的演讲由两场语义分割开始，这意味着识别和描述图片中的物体。在道路场景解析（自动驾驶汽车），机器人抓取物体和医疗保健（分割肿瘤，龋齿等）等中是很有用的任务。

Sven Behnke，波恩大学计算机科学系主管，讲述了两个算法，神经抽象金字塔和语义RGB-D感知器。《神经抽象金字塔（NAP）》是他的历史著作（约98年，论文）。NAP是一个神经网络，其包括横向连接，与人类视觉系统工作方式十分接近。它成功地应用于图像去噪和人脸定位。他最近的工作集中在语义RGB-D感知器方面，它是DNNs，输入数据来自于类似体感传感器，包括距离信息。使用这些距离信息，可以计算出每个像素的高度并相应地缩放输入，由此得到更好得分割和语义解释（论文PDF）。此外，他们还在原始对象上使用深度遮罩，并且将色彩画的深度图像作为CNN的输入，由此取得了良好的效果（论文PDF）。

使用距离信息得到更好的语义分割

Bernardino Romera Paredes，牛津大学博士后研究助理，接着分享了语义分割的一种新算法（论文），它采用了全卷积网络再加上一个条件随机域作为递归神经网络，端到端地训练。他们取得了最好的准确性，但目前算法在实时使用上还不够快。他们发布了一个很棒的在线演示： http://crfasrnn.torr.vision

猫是DL从业人员常用的图像

接下来是Miriam Redi，雅虎实验室的研究科学家，她的演讲内容是《机器视觉的主观眼》。她的研究目标是在图像，特征中找到隐藏的元素，比如情感，社会，美学，创意和文化。她展示了四个不同的项目：

计算机肖像美学（论文）。使用画面特征和摄影师注解，他们能够预测肖像的美感，发现图像的特征，比如对比度和清晰度与感官美有高相关性，而性别，年龄和种族与感官美无相关性；
帮助发现美但不流行的图片（论文）。目标是在Flicker上发现美的但是被忽视的内容。他们首先在诸多资源中创建大型美感注解的数据集，然后创建能够找到新的美丽图画的模型；
跨文化情感预测（论文）。他们创建了12种语言的情感标注数据集。有趣的是，他们试图使用迁移学习，最后发现在拉丁语（使用法语标注训练出的分类器能够很好的预测拉丁语情绪）中迁移学习表现良好，而从拉丁语数据集中学习到的模型在预测汉语情绪上效果不佳；
使用Vine视频预测创造性（论文）。从诸多注解的视频和视频特征中，他们发现，当兼顾美学特征和新奇特征时，他们可以对创造性的定义进行建模。

总体来看，尽管大部分工作都是手工对特征进行编码，并且几乎没有使用深度学习，但是还是有许多有趣的问题有待探索，而且结果还非常令人满意。

雅虎实验室项目对创造性的定义

Cees Snoek，QUVA总监，他演讲的内容是《视频理解：今天和未来的期待》。Cees讲述了视频标记，说道，高通公司正在建设Zeroth平台，它可以使预训练的深度学习模型在您的移动设备上进行物体识别（如果搭载了高通Snapdragon芯片）。在演讲的第二部分，他提出了视频动作识别的一种方法。最初的想法是使用小管（论文PDF）过滤帧，只取移动物体周边的区域。搜索空间大大减少，分类速度随之增加。然后，使用物体识别（论文PDF）并且使用Word2Vec计算运动对象距离，他们可以在没有动作标记数据集的情况下预测动作（论文PDF）。

帧序列中生成的小管

随后是圆桌对话《深度学习在未来该何去何从》。嘉宾有Tony Robinson， Speechmatics创始人及CTO，Daniel Hulme， SataliaCEO，John Henderson，白星投资负责人担任主持人。Tony Robinson是90年代使用神经网络进行语音识别的先驱，之后在AI冬天转向了其他算法方面，最后他又干回老本行了。Daniel Hulme的工作重心放在使用象征性AI（他将DL定义为子象征性AI）攻克难题（例如车辆路径），这其中重要的问题是如何行动而不是如何预测。当问及什么是AI的时候，Daniel说是目标导向适应行为，而Tony则说是目前计算机不能做的事情

。对于未来，Tony说他仅仅能预测到计算机性能的提升，并且希望不要对深度学习大肆宣扬以免进入第二个冬天。当然，Daniel看到了2020年象征性AI的复兴。对于口头对话，他们意识到还有许多工作要做，这些工作一定会得到回报。他们同样被问及到AI对人类的威胁，并很快进行了反驳。他们用两种场景阐述了这个问题，一个是智能机器人（终结者类型的），另一个是愚钝机器人，使用愚蠢的方法解决问题（想想根除癌症，对机器人来说最简单的方法是消灭人类···）。由于我们有预知后果的能力，第二类机器人似乎更加危险。

这天最后一个演讲人是Sébastien Bratières，剑桥大学 dawin gmbh演讲布道者和联合博士研究员。演讲的主题是语音识别深度学习。Sébastien概述了DL如何改变语音识别管道。概括地说，语音识别是由一个声学模型（AM）构成，它能够从原始音频和语言模型（LM）中预测字词/音素序列，这个语言模型基于前一个字词选择另一个词语。在过去的5到10年中，AMs已经从高斯混合模型+隐马尔科夫模型演变到深度神经网络，而LMs从N-grams演变到RNNs。尽管管道已被简化，但仍然会使用旧模型（GMM+HMM仍然用于制备DNN的输入数据），未来的目标是只使用DL训练端到端的模型。尽管如此，仍有许多“不变”的问题，这对用户体验很重要，而且目前DL还未解决，比如适应性（不同口音，背影噪音等，在训练集中没有表现出来）。展望未来，Sébastien说，人类不是通过转录语音来学习语音识别的，非监督式学习在此还有发展空间（零资源的方法）。

一个简化了的语音识别管道

这是第一天峰会所有的笔记。总体而言，非常有趣并且多样化。

英文原文： Notes from Deep Learning Summit 2015 London — Day 1（译者/刘翔宇审校/赵屹华、朱正贵责编/周建丁）

关于译者： 刘翔宇，中通软开发工程师，关注机器学习、神经网络、模式识别。

彭劲璋北交 · 发表于 2015-12-4 10:12:48

好文章，值得收藏！