【机器学习研究会:图像识别】全球顶级计算机视觉专家华山论剑实录

贾伟中科院合肥 发表于 2015-9-15 08:48:01

http://mp.weixin.qq.com/s?__biz=MzA4MjE5NjAzMg==&mid=209392707&idx=1&sn=3b4c9370b550c658d15091a7bcc37e37&scene=23&srcid=0914uQBORyp66AJoigMTWUrF#rd
【图像识别】全球顶级计算机视觉专家华山论剑实录

2015-09-14 机器学习研究会杨静lillian微信号 lillian_yang_1111 功能介绍以思想变革未来，探索美好新世界。分享高智慧含量的最前沿科技与人文洞察，建设中国最具影响力的智能科技专家智库平台。 http://mmbiz.qpic.cn/mmbiz/VPia6sR85GCMq7WGlfgMRh6pb2mNjo6QZYNedHic4odkliboPIHiaC5GZ64ew3ScMhbNLJPaqIRRUV7ADib5ktLMuCA/640?wx_fmt=jpeg&wxfrom=5
http://mmbiz.qpic.cn/mmbiz/UicQ7HgWiaUb0uib0Uy00gmxMXxibTuWuo7cdAa7rAj2ahaiaUrS861AuEAfFTCQ3aBo6813GUAgt8S8Qs53KPovLTg/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

让计算机看懂世界世界顶级专家探讨图像识别的发展和未来新智元推荐：感谢雷鸣供稿
时间：2015 年 9 月 13 日（周日）22：00嘉宾：1）贾扬清：谷歌大脑资深科学家，全球最普遍使用的图像识别开源软件 caffe 的作者2）徐伟：百度深度学习实验室杰出科学家3）赵勇：格灵深瞳创始人，前谷歌研究院资深科学家，谷歌眼镜核心成员主持人：雷鸣：北大大数据与机器学习创新中心主任；百度七剑客，酷我创始人形式：实时互动，多群转发主群内容
内容点1）图像识别的现状：物体识别、人脸识别、动作识别等发展到什么程度？2）未来 5 年，会有什么突破，真的能够超过人吗？3）在安防领域，尤其是公共安全、企业安全、家庭安全上的机会4）在身份识别领域，上班打卡、银行开户、身份认证等的机会5）在智能硬件，让硬件能够感知周边环境，变得更聪明的机会6）在机器人领域，让机器能够有超越人类的视觉，进而更加智能的机会

http://mmbiz.qpic.cn/mmbiz/UicQ7HgWiaUb1JFOvBfqmLkCYnqfgvw4OUnmBE7gwP38kSSeYSjYRFtSxShrLUj5AzfW0yrB3fwAHtHCf2JfOAibg/640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1
主持人雷鸣：各位，我们今天非常有幸请到了贾扬清，徐伟，赵勇三位人工智能专家，让我们欢迎他们的到来！下面开始今天的沟通话题。

【现状】计算机视觉和图像识别
雷鸣：首先，请三位嘉宾聊一下当前计算机视觉和图像识别的现状，现在到底到了什么水平？

赵勇：图像识别在过去几年发展太迅速了。五年前我博士毕业刚刚加入谷歌研究院的时候，我所在的组很多同事都在研究这个问题。回忆当时，可能不会有任何人可以想象到之后这几年个领域这么巨大的进展。如果盲目地看看 ImageNet、ILSVRC 上跑的分数，甚至给人这么一种感觉：计算机图像识别的能力是不是已经超越人类了？

赵勇：当然这些重要的进展，最大的贡献，来自于深度神经网络技术的发展，大数据的发展，以及大规模高性能运算的发展。

贾扬清-谷歌-research ：对，计算机视觉在物体识别上的进展前几年突飞猛进，现在几乎可以说已经超越人类在特定的任务上的识别能力了，比如说人脸识别，具体物种的识别等等

徐伟-百度IDL-杰出科学家：我认为在一些特定的任务上，是超过人类了。比如人脸识别。

雷鸣：特定任务，也就是说当我们在聚焦在一类问题，并匹配相应的算法和数据训练，可以接近，并不是广泛的超越，也就是说在开放的数据上，和人类还是有很大差距的，对吧

贾扬清-谷歌-research ：对的，比如说 Washington University 最近开放的 MegaFace 项目，就有这样的结果。一些在 Labeled Face in theWild 上比较好的算法在更大的 MegaFace 数据集上就可能出现瓶颈。说明在更开放的数据集上，我们还有很多进展可以期待

雷鸣：各位感觉，以现在的发展速度，在开放数据上，在未来5年会有突破吗？

赵勇：我不会把超越人作为一个合理的目标。毕竟人拥有很多非常特殊的能力，在有些地方人的能力远远超过机器；在其他方面其实机器早就超过人了。譬如人脸识别今天的进展允许计算机在一个很大的数据库里识别人，这件事情人可能就做不到。因为毕竟大多数人的记忆能力有限，在他的生活中最多需要识别几百人。但是对于熟悉的人，人的识别能力是极其精确的。即使在很差的光线条件，很远的距离，甚至带上口罩和墨镜，有时候人都有很好的识别能力。俗话说：对于特别熟悉的对象，人眼可以做到“烧成灰我都认识你”。

徐伟-百度IDL-杰出科学家：另外说和人比，需要说明是和普通人还是和专家比。不少任务也已经超过普通人。比如动物识别，花卉识别

雷鸣：@赵勇，也就是说，我们人类在进行熟悉的人的识别时，其实不仅仅应用的图片信息

赵勇：我的意思就是徐伟的意思。对于识别自己熟悉的人，每个人都是专家。今天计算机仍然比不上人类的专家。

徐伟-百度IDL-杰出科学家：不过对特定人的识别，目前也还缺乏这样的数据。人是有了大量的数据才会作的很好的。

徐伟-百度IDL-杰出科学家：不过计算机比不上，一种可能是没有这么多的数据去做这样的研究

贾扬清-谷歌-research ：我对视觉领域的进展还是挺乐观的，比如说今年的 ImageNet Challenge 准备不再包含 object classification，但是要增加 object detection 和 video detection 的比重，也说明研究界对于新的问题的兴趣

赵勇：首先，对于识别熟悉的人，人类掌握巨大规模的数据，例如识别自己的亲人。另外，人生活在一个时间和空间连续的世界中，我们的识别不是发生在一张照片里。这里面的机理可能非常复杂。今天的深度学习还没有到这种程度。

徐伟-百度IDL-杰出科学家：过去几年的进步有不少是因为有了合适的数据带来的，比如 ImageNet,LFW

贾扬清-谷歌-research ：如徐伟所说，数据可能会是将来研究这些算法的一大需求

徐伟-百度IDL-杰出科学家：如果有人提供了这样的数据，可能相应的结果很快就会出来。因为计算能力现在已经有了。

【应用】三维信息与计算机视觉
雷鸣：现在我们很多识别都集中在图片上，对于视频流数据，以及 3 维的深度信息，对识别的帮助大吗？将来这些信息对于提升识别质量，是否会有非常大的帮助？

赵勇：动作识别这个领域，三维信息的作用就非常大。提到动作识别，大家可能印象最深的还是 Kinect技术。这是一种依赖深度传感器的识别技术。毕竟，之于动作本身，最重要的核心信息是形状、结构，而不是色彩和纹理等传统两维彩色相机。因此这个结果也是非常合理的。但是，无论是 Kinect 还是 OpenNI，本质上仍然解决的是人机交互过程中使用的动作识别问题。在这些应用中，识别的对象（交互者）往往站在相机的正面，用一种配合的姿态被识别。所以大多数时候不存在多个物体之间的相互遮挡，人体各个肢体之间的相互着当也不严重，而且人体的形态比较简单（不会附带其他物体，比如背包、雨伞、箱子等身体之外的物体）。基本上这些场景都属于比较可控的场景。

贾扬清-谷歌-research ：很有帮助。去年 techcrunch 上有一个有趣的 demo 叫 IsItYou- 使用三维信息和时间维度可以得到比单纯图片更丰富的信息

徐伟-百度IDL-杰出科学家：我觉得，对于视频图像的学习，现在计算能力还有些欠缺。

赵勇：当时在完全不可控的场景中（例如安防监控），首先要同时应付更多的人，这些人之间可能有严重的相互遮挡，而且由于这些人都没有主动配合识别，和相机的视角方向有可能是正面、侧面、背面、甚至是下面。加上实际情况中的复杂性，比如人们可能携带着各种无法预测的物体，人与人之间可能非常接近以至于纠缠在一起。在这种不可控的情况下，动作识别的挑战还是很大的。

赵勇：事实上，格灵深瞳在过去两年基于ＲＧＢＤ相机，研发了一款用在安防监控领域里的视觉系统。在动作识别方面我们遭遇了严重的挑战。在面对这些挑战的过程中，深度神经网络技术，针对人体结构的先验知识，更好的 volumetrictracking 技术帮了大忙。尽管如此，实时动作识别这个 feature 仍然面临着运算成本高等现实问题。当然，也有很多学者通过大量样本的深度学习，在传统色彩相机捕捉的数据上试图识别肢体动作。这些研究也产生了一些有趣的结果。但是和基于深度信号的方法想必，这类技术的现状是只能比较好的处理简单的姿态。在对结果要求比较高的实时系统中，目前看来还是基于深度图像的方法比较靠谱。

贾扬清-谷歌-research ：现在视频学习很多还是一些大公司在做，关键是因为数据和运算能力都还没有达到 commoditize 的程度

【应用】视频信息处理
雷鸣：看来随着计算能力的提升，在我们可以期待在视频信息处理上的巨大发展！下面我们谈谈对于具体的应用领域吧，首先我们接着赵勇提到的，就是安防领域

赵勇：我希望高性能运算技术能够获得更大的突破，尤其是低成本低功耗的异构运算技术，能够使得我们能够更加有效地、低成本地在实时环境中使用深度神经网络技术。目前的深度学习技术严重依赖ＧＰＵ平台。虽然在训练模型阶段，这样的成本是可以接受的。但是在大规模应用深度学习，特别是在移动设备、机器人等实时应用中，使用ＧＰＵ来进行模型测试并不是最理想的方式。为了迎接这些挑战，我们需要更强大，更高效的半导体运算架构。

雷鸣：图像识别对于公共安全，企业安全和家庭安全，都有神马可能的作用和贡献呢？

赵勇：我希望传感器方面能够有重要的突破。在彩色传感器方面，我希望敏感性以及动态范围能够有大的改善。在深度传感器方面，我希望尺寸更小、工作距离更远、功耗更低的传感器能够被推上市场，这方面大家可以关注solidstate lidar这项技术。个人认为这项技术对于机器人领域有很大的影响力。

徐伟-百度IDL-杰出科学家：安防还是很有空间的。我家装了一个视频监视器，什么风吹草动都会触发

赵勇：其实计算机视觉在今天的安防领域里的存在感是很小的。市场上绝大多数安防产品，仍然停留在网络录像机阶段。

贾扬清-谷歌-research ：我了解的在美国这边有很多传统的做家庭安防的公司，用的技术都很古老，所以效果也不很好，要不就是“风吹草动”就会有误报，要不就是在真实时间中很难触发。Dropcam、Nest 等等在这方面做了一些尝试，但是目前还没有真正的产品问世，但是我觉得这会是一个很大的市场

赵勇：要大规模在安防领域里推广计算机视觉，首先需要把数据平台和运算平台结合起来。今天的安防系统大多数达不到这样的条件。

雷鸣：现状不是太理想，如果有需求，恰恰说明未来有希望，各位畅想一下未来 5 年，这方面有哪些机会呢？

徐伟-百度IDL-杰出科学家：实时监控需要大量计算能力还是一个瓶颈

赵勇：格灵深瞳在过去两年一直研发安防系统使用的计算机视觉。我们使用了深度信号，使得问题简单一些。但是即使如此，在一个小小的摄像头里运行检测、跟踪、识别，甚至是深度学习识别，对于运算系统的挑战还是很大的。

贾扬清-谷歌-research ：我觉得将来的安防系统应该会配备智能的摄像头，在本地就可以实现视频的理解，物体的识别以及跟踪等等技术，这样就不会需要长时间和服务器的通讯，并且避免服务器端被大量计算请求淹没的问题，专用的芯片可能会在这个领域很有帮助

雷鸣：@徐伟，这个能够通过一些专用的计算机视觉芯片解决吗？直接安装在本地？

徐伟-百度IDL-杰出科学家：目前的算法如果不计成本，应该可以做的不错了。算一低成本功耗的计算能力很重要

贾扬清-谷歌-research ：比如说 NVidia 的 Tegra 和 Movidius 的 Myriad2 就在致力于解决本地计算能力的压力，但是目前的确还在初步尝试的阶段，在成本以及功耗速度比上面还有空间

赵勇：在安防领域，有些公司正在走云计算的方案，就是把所有的图像数据都上传到云上，然后利用云的计算能力来分析。但是这样作的成本很高。所以我还是把希望寄托在高性能的嵌入式系统上。

雷鸣：你们觉得考虑现在软硬件的综合发展，在未来 5 年，安防这个领域，计算机视觉这块会有巨大的机会吗？会有成熟可以接受的解决方案并大范围被使用吗

徐伟-百度IDL-杰出科学家：我同意赵勇的观点，都在云端计算代价太高。

赵勇：这点我还是乐观的。至少在有些特殊领域，计算机视觉已经可以解决实际问题了。比如银行安防（室内小场景），道路安防（汽车是比较容易处理的目标）。家庭安防的困难，就在于对成本要求很严格，几乎不可能承受高成本的计算机视觉运算。而且家庭安防需要应付的情况更加复杂，难以预料。我更看好需求明确的政府和企业应用。

雷鸣：说到汽车相关，我发现很多停车场已经不发卡了，直接拍照识别车牌

贾扬清-谷歌-research ：对的，还有一个应用是 baby monitor ：）这方面大家往往会愿意投入不小的成本

雷鸣：下面我们再聊聊身份识别这一块儿，你们觉得会大范围使用吗

贾扬清-谷歌-research ：parking 是另外一个巨大的市场，比如说如何提供停车场内部的车流引导，如何动态计算停车场当中空余车位的分布，等等。比如说，大城市的机场停车场非常迫切地需要这样的技术

赵勇：是啊，车牌识别已经非常成熟了。但是目前套牌车很多，所以我们又开发了车行车款识别软件能够在几千车型车款和年份中精确识别目标。在结合联网的大数据，我估计以后套拍车就没有生存空间了。

雷鸣：本来邀请 face++ 的创始人印奇过来，他们做这一块儿，但是由于时间冲突，没能行，略感遗憾。

雷鸣：@赵勇，打击套牌车，好啊！

贾扬清-谷歌-research ：身份识别上我特别想提一下 google 做的 ProjectAbacus，这个项目我一直在参与，前一段时间公开了，想法是通过检测和识别用户使用 Android 设备的各种行为和生物信息（点了什么 app，说了什么话，人脸是不是匹配用户）来实现无密码的身份识别。人工智能在这方面是非常核心的技术

贾扬清-谷歌-research ：这个项目我知道有很多咱们国内的同行在合作开发，比如说 CUHK 的汤老师组。更加智能的身份识别，特别是隐式的身份识别，可以非常明显地提高单纯基于密码的系统的安全程度

赵勇：总体来说，安防领域的挑战还是很大的。虽然面前市场上的产品基本上都是录像机，但是用户对于计算机视觉产品的期待还是非常高。如果不能解决实际问题，产生大量误报，用户宁可不使用。比如人脸识别技术，在安防系统中的使用量是很低的。

雷鸣：当前如果在照片相对理想的情况下，人脸识别的错误率是多少？人脸识别和其他生物特征识别相比，孰优孰劣，比如指纹，虹膜，声音等

徐伟-百度IDL-杰出科学家：人脸需要和传统的刷卡来用，确保刷卡人正确

贾扬清-谷歌-research：我个人的感觉是人脸目前作为一个单独的方法还是不够的，我们在 LFW 上可以达到 0.2 左右的错误率，这个对于银行来说还是太高

雷鸣：是否人脸识别当前，乃至很久一段时间，都只能作为身份识别的辅助手段，而很难作为主要手段使用？

贾扬清-谷歌-research：所以需要增加其他的信息，比如说密码，语音等等

赵勇：虹膜肯定精确的多。有文献表明虹膜识别的能力达到 192bit entrophy(注：熵，平均信息量)，人脸现在好想只有十几个 bit。但是虹膜识别的侵入式比较高，距离近。不过人脸识别目前工作距离也不远

徐伟-百度IDL-杰出科学家：语音不见得比人脸好

贾扬清-谷歌-research：我觉得整合才能达到效果，偷一张照片容易，但是偷照片 + 偷语音 + 偷密码 + 偷卡，并且要一一匹配起来就很难了：）

雷鸣：那么所谓的刷脸支付，如何理解

贾扬清-谷歌-research：每个单独的方法可能都只能达到十几个bit

徐伟-百度IDL-杰出科学家：卡和脸结合已经很好了。刷脸支付可以保证你的卡不被偷用，就是刷卡不用密码

雷鸣：@徐伟，刷脸支付实际是卡 + 脸（卡是唯一的）

赵勇：人脸支付的活体检测可能是个问题。也就是如何区分一张真的人脸还是一张照片，或者视频里的人脸。现在的活体检测往往要求人脸按照软件指引产生一些对应的移动，但是这样的体验并不好。

徐伟-百度IDL-杰出科学家：比如商场买东西，不用担心活体的问题

赵勇：无论如何，使用多种手段，结合各种优势，来提高可靠性，必然会是未来主流。

【影响】计算机视觉与智能设备
雷鸣：下面我们再聊聊计算机视觉对智能硬件，以及机器人发展的影响

雷鸣：大家觉得计算机视觉和机器人发展之间会有什么相互关系？

赵勇：机器人从很多角度来讲，只剩下感知技术一个瓶颈了，如果能够解决感知问题，机器人这件事情就能够大规模的发生。

雷鸣：我记得和李飞飞教授聊的时候，他认为当前的机器人对世界的感知因为图像理解不深入，所有有很多局限，解决的好会非常促进

贾扬清-谷歌-research：机器人一直都是人工智能里面的一个大方向，不过我觉得机器人所需要的可能是广义的计算机视觉- 因为机器人可以使用多种传感器，不光是单独图片或者视频的信息

徐伟-百度IDL-杰出科学家：认知技术会是更大的瓶颈，关键是听到了，看到了，该做什么。现在机器人还是缺乏决策推理的能力

贾扬清-谷歌-research：机器人领域另外的一个挑战是如何通过理解以后的信息来实现机器人的行为，在机器人领域目前很多方法都是 caseby case 的，如何找到一个通用的算法（比如说 reinforcement learning）是个挺大的挑战

赵勇：现在是听到、看到，但是听不懂、看不明白，尤其在现实世界里。
@贾扬清，我想到了DARPA的机器人大赛

徐伟-百度IDL-杰出科学家：现在语音识别做的不错了，不过计算机还是不知道该干什么

赵勇：先不去想特别复杂的、有类人思想和行为的机器人，就说能够在现实世界里完成具体功能的机器人，例如汽车，现在核心问题仍然是怎样把可靠的感知技术变成可以大规模推广的现实。

雷鸣：@徐伟，语义理解，确实还在继续进展中

徐伟-百度IDL-杰出科学家：对，所以即使解决了计算机视觉问题，也只能作特定任务的机器人。

贾扬清-谷歌-research ：这方面我觉得首先会在特定的方向上有突破（比如说自动驾驶汽车），因为从大规模推广的角度说，最后零点几的错误率是很重要的，这个需要很多工程上的努力。说句大家经常开玩笑的话，“机器学习最擅长的就是解决问题到一半”：）

赵勇：谷歌在无人驾驶方面作了很多领先的工作。听说在近期也要量产无人驾驶汽车了。当时目前这种技术依赖的激光雷达、差分ＧＰＳ，以及高精度ＩＭＵ，都价值不菲。距离走入平凡的汽车还有遥远的距离。

徐伟-百度IDL-杰出科学家：特定任务的机器人离人们心目中的智能机器人还有有不同的

雷鸣：@徐伟，估计机器人的发展还是先发展和完善特定机器人。

赵勇：人们心目中的智能机器人，我觉得还不是未来五年讨论的目标。

徐伟-百度IDL-杰出科学家：是啊，所以我说认知是最大的瓶颈

雷鸣：我突然在考虑，是否人类考虑的那种强人工智能机器人根本就不会出来？想象工业革命，估计人类在工业革命初期也考虑一个像人一样什么都能做，都能做好，力气大的机器，可是最终我们到现在为止，还是各种专用机器。。。

赵勇：我觉得既然人都可以依赖视觉系统开车，我希望未来的计算机视觉也能帮助自动驾驶汽车完成任务。毕竟这项技术的成本低得多，而不是目前以谷歌汽车为主的这种路线。

贾扬清-谷歌-research ：谷歌汽车现在其实也越来越多地使用计算机视觉的技术，所以这应该是一个大方向：）

雷鸣：专用的设备，他的性价比会更高。而综合的东西，性价比低，虽然都能做，但是不如一组各自擅长不同功能的设备合作来的好。

徐伟-百度IDL-杰出科学家：依靠视觉自动开车，5 年内应该有戏，不过激光雷达如果大规模生产，说不定就便宜了

赵勇：提到所谓的“强人工智能”，我个人挺悲观的。可能不是未来二十年能够看到的东西。

徐伟-百度IDL-杰出科学家：二十年不算悲观了。100 年算悲观！！

贾扬清-谷歌-research ：我觉得强人工智能的概念可能是一个伪问题，因为从一定程度上“智能”在语义上就是我们还无法理解的东西，如果我们了解了一个东西是如何实现的，就不算智能了，这个在以前人工智能解决各种游戏（backgammon）以后大家的反响上就可以看出来

赵勇：关键是，我根本就没有见到很多靠谱的“强人工智能”团队。这个概念已经在市场上被炒作的泛滥。

【应用】再谈计算机视觉技术
雷鸣：我们拉回来到视觉，大家对计算机视觉在其他领域的应用，还有什么想法？比如农业，测量，医学，军事等有什么已知的有意思的公司或产品，或者未来 5 年可能有的机会

徐伟-百度IDL-杰出科学家：医学方面会有很大希望

贾扬清-谷歌-research ：这方面应用很多，农业、医学方面的公司都有
赵勇：人工智能的发展，肯定还是由弱到强。现在连“弱智能”都没搞定，太早的讨论“强智能”似乎不靠谱。

贾扬清-谷歌-research ：加州有一个公司采用视觉的技术来实现生菜的苗距管理，可以实现 3-10% 的产量提升，这方面的效果非常明显

赵勇：我看好商业数据分析、生命科学研究、以及安全领域（例如金融安全、公共安全领域）

贾扬清-谷歌-research ：军事也有很多应用，比如卫星图像的目标检测

贾扬清-谷歌-research ：在医学上，很多公司比如说 metamind，enlitic，cellscope，都有很好的应用

雷鸣：@贾扬清，你最近刚刚发布了 2.0 版本 caffe，相对前一个版本有什么重要更新啊？

贾扬清-谷歌-research ：简单地说是希望使得大家在科研应用上更加容易一些，比如说可以更容易地构建一个 sgd 的算法，这个目前是我们的一个尝试性的 refactor，具体我就不多打岔啦：）民用的卫星检测也很有市场，比如说通过监测港口的货船来预测经济走势（这个对很多金融公司都是很有用的信号）

赵勇：最近我看到华大基因创始人王俊讨论用大数据和人工智能解决生命科学问题，觉得很有意思。

赵勇：说到机器人，除了家里用的扫地机器人，我个人最看好自动驾驶汽车成为人类历史上最早实现的大规模机器人。我很看好这项技术。如果成功，可以改善安全、交通效率和环保问题。

Q&A第一轮
深度学习在医学图像有那些可以做的应用？

贾扬清-谷歌-research：在医学上面，深度学习最直接的应用是医学图像检测，比如说癌症的病灶。更长远地说，可以通过自然语言处理等方法来index大量已知病例，来帮助医生安排医疗方案以及估计预后

多种传感器信息包括图像，语音等，用于机器人，有什么好的信息融合或协同学习的方法或研究？

贾扬清-谷歌-research：协同学习目前还处于比较简单的后期融合上面

关于mix型的神经网络，有没有实际的工作证明？

贾扬清-谷歌-research：他在任务中的效果优于单一的神经网络模型，比如说 conv-lstm 与单纯 lstm 的对比(工程师群)”单一的神经网络模型无法处理特定输入，比如说 conv-lstm 的 conv 部分是提取图像信息，这个是非卷积网络很难做到的，所以与其说效果区别，不如说 mix 是必须：）

请贾先生介绍一下适用于图像、动作识别的基础算法有哪些？

贾扬清-谷歌-research：图像识别基本上就是标准的 CNN 方法；物体检测有很多传统的方法，比如说 Viola-Jones，最近比较有意思的是用 CNN 来做检测，比如说 R-CNN 和 multibox；动作识别的话，可以用单纯的 CNN，如果是视频的话也有结合 sequencemodel（比如说 LSTM）的方法

深层模型训练需要各种技巧，例如网络结构的选取，神经元个数的设定，权重参数的初始化，学习率的调整，Mini-batch 的控制等等。现在有这方面的理论指导吗?

贾扬清-谷歌-research：这个还真不太容易，很多的时候有点像经验科学，KarenSimonyan 在 CVPR 上的 tutorial 很值得看一下：http://image-net.org/tutorials/cvpr2015/recent.pdf

请问，我看到大家对图像识别和大数据应用讨论很深入，但是却忽略了用户隐私和系统安全的考虑，不知道这方面是否有值得关注的研究？

徐伟-百度IDL-杰出科学家：现在我们的网络空间已经很不安全了，未来如果大规模应用智能自动驾驶、或者机器人等时，我觉得网络安全的问题会更加突出”，隐私和安全需要区分对待。如果对人的价值足够大，人可能会愿意牺牲一些隐私。但是安全问题必须要有保证

我想问赵总一个问题，我现在做的方向就是您比较关注的智能交通，刚入门时候做了一些道路检测相关的东西，现在开始做场景语义分割，您觉得除了这些传统的方向，比如车辆，行人检测，车道线检测，道路检测等，在交通领域还有哪些计算机视觉可以入手解决的问题？车内？车外？交通流？谢谢赵总~
　
赵勇：我也入行不久。简单分享一下：计算机视觉无非就是解决检测、跟踪和识别的问题。接下来，需要根据这些结果产生行业需要的功能。在交通领域里，科技上能作的事情不多了。因为汽车的行为分析并不特别苦难，问题是产品。怎样造出性能特别稳定的产品？怎样是的产品在各种条件下可靠的工作？怎样大幅度地降低产品成本，使得这种能够能够被大规模地应用。我觉得这些是智能交通领域里的主要挑战。

也想问各种嘉宾，关于迁移学习，现在的研究现状如何，业界有比较好的应用么？ (工程师群)

徐伟-百度IDL-杰出科学家：迁移学习在图像、语音、和语言都有成功的应用。ImageNet 模型的特征在很多其他问题都有很好的表现。wordembedding 也在很多语言问题里很有用。语音识别同样，DNN

刚才各位老师提到零点几的错误率很重要，那么对于控制机器学习的 uncertainty 方面，现在都有哪些技术或者手段呢？能否有可能像实验一样给出一个误差限？

贾扬清-谷歌-research：传统机器学习其实是有比较完整的处理 uncertainty 的方法的，比如说概率图模型的输出往往是概率分布，本身就有 uncertainty。DNN 经常被人诟病的一点是因为它输出是一个 pointestimation，所以的确很难预测 uncertainty。这方面一直有 research 的进展，但是没有 off-the-shelf 的解决方法

定制化深度学习专用芯片，从应用层面看，云端计算和嵌入式端计算，对芯片功能和性能设计，在需求上有什么异同?

赵勇：云端计算的好处是性能高，容量大，功耗被藏在应用背后了。但是缺点就是对带宽的依赖。很多时候，实时应用，尤其是移动的实时应用是不能依赖这种现场采集数据，后台解决问题的远程方式的。何况视觉信号的带宽成本非常高。所以我觉得未来大多数应用都必须实现人工智能前端实现。那么主要的挑战就是在前端，怎样设计高通量、高性能和低功耗低成本的芯片。Nvidia 在 Tegra 系列中作了一些非常有意义的产品，但是未来还需要急需提高性能降低成本；还有一些公司，例如 CEVA,Movidous 也出了一些有趣的产品。无论是怎样的产品，有一件事情是确定的，未来的人工智能计算机必须实现更强大的并行计算。

Q&A第二轮

请问赵勇先生，由于对数据的大量需求，计算机视觉和机器学习在当前是否只适应大公司开发和利用，如果小公司想做这块，有哪些好的突破点？”

赵勇：我们也是小公司，我们也找到了一些方法解决数据问题。更重要的数据收集手段，可能是循序渐进，让自己的产品在工作中自动采集更多的数据，来 iteratively 改善产品的性能。

对于图像检测问题，正负样本比例往往非常悬殊，即便是 CNN 这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案。谢谢！

贾扬清-谷歌-research：正负样本比例悬殊是一个传统的机器学习问题，这一般可以通过 resampling 或者 reweighting 来解决，或者在后期基于测试数据/应用场景的实际分布来 recalibrate。目前生成式模型（generativemodel）有一些有意思的研究，比如说 Facebook 发表的用 CNN 来生成图像的文章。但是总的来说，实际的识别问题还是使用区分式模型（discriminativemodel）效果更好

对于图像检测问题，正负样本比例往往非常悬殊，即便是 CNN 这样强大的判别式模型做起来也有相当的难度。而对于人来说，检测某种物体似乎是一个生成式的问题。请问对此目前有没有比较好的解决方案。谢谢！

徐伟-百度IDL-杰出科学家：特定物体的检测，如果训练数据充分，大多数都可以解决的不错了

图像识别技术，比如要做一个化学苯化物的识别，因为纸质和摄像头环境因素影响比较大，怎么做精准识别？大量的图片知识库？

赵勇：这个问题我不是很了解，一般来说，一个比较大的数据库还是必要的，特别是输入的图片和一般图像差别很大（化学试剂图片 vs一般网图）的时候

贾扬清-谷歌-research：我觉得并不是所有问题都必须依赖深度学习，或者机器学习来解决。

请问 Caffe 什么时侯能支持多 GPU，谢谢！

贾扬清-谷歌-research：已经支持啦: https://github.com/BVLC/caffe/pull/2870

现在有用 FPGA 开发前端、并完成深度学习任务的吗？

贾扬清-谷歌-research：据我了解百度、微软以及很多 startup（teradeep，nervanasys）等都有这方面的尝试或者产品

徐伟-百度IDL-杰出科学家：百度已经用到产品了（徐伟-百度IDL-杰出科学家）

请问贾先生,既然深度学习调参没有经验,那么您是靠什么指导训练的呢?（交流群6）

贾扬清-谷歌-research：说实话，一个就是不断试错，另一个就是通过现有网络来 finetune，比如说从 inception 开始，然后改变 lossfunction。

目前关于视频上传的带宽要求很高，有没有视觉传输的协议？

赵勇：有很多视频传输协议(h263,264etc.)，也有专门针对网络视频信号传输的协议。但是视觉信号的数据量实在是太大了。有不能压缩得太严重，否则细节信息的确实会给后台分析软件带来很多困扰。

贾扬清-谷歌-research：开个脑洞，如果前端可以做计算，我们甚至可以直接传输从视频中得到的语义信息，比如说“有个人走过来了”，然后只传输有需求的视频部分。当然，随着计算能力的提高和网络技术的提高，说不定将来这都不是问题了：）

请问美国有哪些大公司在做机器学习和nlp在医疗方面的应用？我只知道 IBMWatson…

贾扬清-谷歌-research：如果不包括 startup 的话，公开的可能的确只有 IBM，但是很多公司（比如说 Kaiser，美国的一个医疗+保险集团）也在低调地做一些努力，这个方面还是处于起步阶段吧。

深度学习最终看到的只是分类结果，如何看到学习的特征，然后 Digits 工具学习到并显示的特征该如何看？（对应的是传统图像处理方法而人工设计的特征）。谢谢

贾扬清-谷歌-research：这个更多的是在 visualization 上的一些技术细节，比如说 matplotlib 等等，可以参考 caffe 里的 filtervisualization 的示例。应该不是很困难？

雷鸣：各位，时间已经大致到了，大家回答完正在回答的问题，说一下，我们本次沙龙就正式结束

赵勇：在今天的计算机视觉领域里有一个让我比较担忧的现象，就是大多数学生都认为计算机视觉只剩下机器学习，甚至是深度学习了。其实还有很多子领域，比如 computationalphotography，visualslam 等等领域，非常非常重要。甚至很多时候，物理领域里发生的一些突破，会导致传感器领域的巨大创新，使得人们原本研究的很多问题都不存在了。所以我觉得计算机视觉领域，必须重视多学科的进展。

贾扬清-谷歌-research：很同意赵勇的观点，深度学习只是计算机视觉（以及人工智能）的一个方面，虽然最近有长足的发展，但是我们不应该过于限制在深度学习的框架上。

徐伟-百度IDL-杰出科学家：在深度学习之上，还需要有更多的东西。不过深度应该是必须的

雷鸣：各位，今天的沙龙到此结束，非常感谢各位嘉宾的参加。我代表 10 个群，近 3000 名热心听众表示感谢！！！

页: [1]

VALSE's Archiver

【机器学习研究会:图像识别】全球顶级计算机视觉专家华山论剑实录