辩论角色及观点
□王涛(主持人),爱奇艺首席科学家):视频大数据助力影视、动漫、游戏行业,云服务终将实现
□王井东(微软亚洲研究院主管研究员):数据库的建设、标注与数据联盟的建立十分必要
□侯宇涛(英伟达CUDA应用市场总监):GPU和高性能硬件加速深度学习发展
□赵世范(海康威视大数据开发总监):人脸识别尚不成熟,人脸验证已具备实用条件
□谷沉沉(腾讯微信事业群高级工程师):大数据改善用户体验,腾讯不靠卖数据赚钱
□王田(华为研究院媒体研究室首席科学家):5G网络将在2020年左右进一步联连通世界
□谭晓生(奇虎360科技副总裁):大数据开启网络安全与隐私新格局
(上图从左至右)
精彩辩论一、大数据已经很“大”,但远远无法满足现实需求王涛(主持人):最近几年来,由于互联网、移动互联网的高速发展,手机、摄像机、各种传感器数据采集的设备,并且能传输到云端的数据中心?大数据的增长非常快,在未来的10年要增长八位数字,比现有的数据还要多8倍。诸位从自己所在行业的角度出发,你们感觉到最大的需求和问题是什么?大家是如何看待大数据时代的机会与挑战的?
谭晓生:我在360主要负责大数据计算和信息安全。2010年,360做了一个基于大数据恶意文件的鉴别引擎——QVM,今年第一季度QVM在全球一次评测中与卡巴斯基全球并列第一,满分。我们的做法就是基于80亿的大数据样本,颠覆了过去特征码利用扫描的方法。除此之外,在两年多之前,我们开始做基于网络的全流量的监听的供给检测,采用了有监控的学习方法,现在进入到了无监督的学习阶段,最基本的成果就是帮助国家抓住了进行API攻击的犯罪分子。我们用大数据的方法在这方面取得了非常丰硕的果实。我们知道大数据技术的效果很好,存储也已经非常强了,但是怎么样去做更大规模的数据计算呢?这是我现在觉得非常值得关注的一个点。
王田:在大数据方面,华为主要提供通讯设备和网络服务。网络在将来一定会比现在好,会有更高的要求,但具体是什么?比如说对连接数有什么要求?网络响应有什么要求?带宽需要有什么样的要求?我们的通信实验室会根据不同指标和情景做大数据研究。我们考虑更多的是网络的关系,未来大数据里面网络到底应该起到什么样的作用?2020年网络可能是5G,5G业务对网络有一个更高的要求,不仅是带宽还有延迟,还有一些年际数。
谷沉沉:我在主要工作是做微信上面的视频分发,腾讯一直在做一些海量用户的行为的大数据搜集和分析,研究对现在的产品做哪些改进?同时还要对现在的产品质量在海量用户中做一个评价?腾讯的用户量非常庞大,微信现在有5亿用户,视频通话产品的日发起量也是千万起,这样一个海量用户的产品,如何让更多的用户对我们的服务感到满意?就现在来看,无论我们怎么努力,每天我们去看用户反馈,总是有用户在骂我们的产品,说视频通话不清晰、不流畅,现在也在做这一些的尝试,搜集大量丰富的数据,针对一些用户细分场景,比如中国网民是4G网络还是2G、是20兆带宽还是2兆带宽?这样网络的差异和手机性能差异都影响着产品的体验度。
赵世范:海康威视在今年成立了研究院,主要有两部分:智能视频和大数据。大数据组的主要工作,是将智能视频识别以后的对象进行分析,比较成熟的是车牌识别记录下的车辆过车信息。目前的主要工作是协助公安系统做一些案件的侦破,之后也会做一些城市交通疏导方面的工作。海康威视意识到,视频监控的车牌识别还是一个比较成熟的应用,有一些过车记录数据产生;而另外一方面,针对场景的视频识别,还有一些基于人的视频识别,技术难度较大,是我们现在需要解决的问题,比如:第一个,从一个场景里面把人提取出来,同时能够提取场景里面的一些物品;另外一个,实现多个场景人的关联。
王涛(主持人):你们这个是什么级别的量体?需要知道视频这一时刻有人、有物品?还是说需要知道这个物体、人在什么位置?是哪个人?是哪个物体?
赵世范:监控视频领域已经从标清到高清,但实际上高清目前也就是200万到300万像素,而真正能够让给机器达到人眼相似的识别度,像素要到1200万左右,清晰度还需极大提升。目前视频里对移动对象的识别是非常成熟的,可以知道这个视频里面有什么对象?这个东西是人还是车?或者里面有多少人?但这个人和另外一个镜头里面的人是不是同一个人?目前在判断上是非常困难的。计算机对人脸的识别技术有一定的发展,特别是在深度学习应用以后,在互联网应用中有一些突破,但跟安防领域比还是有很大差异。第一个,它的色彩度不太好;第二个,它有很多的形变;第三个,受清晰度和光照等因素影响,会变模糊。判断是不是同一个对象现在非常困难。
侯宇涛:英伟达作为大数据产业链里面的技术以及相关支撑产品的供应商,致力于能够降低大数据计算及处理的计算时间。我们目前面临的最大压力是来自于客户的期望,而且GPU可以加速变形计算的处理,目前加速的速度相对以前已经很高。香港大学的两位老师以前在做人脸识别的计算,一个简单追踪的过程需要20天,用了GPU以后,由20天变成了6小时,有很大的提升。他说,你能不能再快一点?80倍的提升仍远远达不到大型数据采样的需求。英伟达力图优化内存采用3D的构架,并使单卡的内存可以突破24G或者更高,这样可以使更大规模的数据同时得到处理。
王井东:我在微软的主要工作集中在大规模的相似度搜索,有一些技术应用在微软必应搜索这样的产品里面。现在已经有大数据环境,其实直接能够用来帮助去做研究的数据还很少。刚才余凯老师提到,大数据已经很大,但是学术领域里面最大的数据比如ImageNet,也有1000类,fine-grained classes也只有22000多,在实际应用里面还是远远不够的。我们希望将来对大的数据都会有标注。我总结起来就是数据问题,怎么样能够做到更好,更reliable(有用的)的帮助研究开发。
二、人脸识别尚不成熟但大有可为王涛(主持人):刚才说人脸识别是一个很重要的发展方向。前面在特定的数据之上,达到百分之九十几,但在实际的视频监控上差距比较。从商务的角度上来讲,这个差距在哪个地方?未来有什么样的发展方向?
赵世范:在很多应用情境下,多人脸识别的准确率是很高的,比如说安检通道,或者是固定的出入口。但是从别的行业应用来看,人脸识别还有较大局限。第二个,在室外的话,拍摄的角度一般都是由上往下的,如果要真正做到人脸识别,架设高度只能接近两米左右,而现在大多数摄像机的架设高度是3米以上的。另外,人在走路的时候会有摆动,拍摄下来人脸的照片不会是正向的。目前来看,室外环境下,识别准确率能达到50%已经很不错。
余凯:我对人脸识别的话,持一个比较谨慎的观点,考虑这件事情的话,至少要分三个维度:第一个维度是场景;另外一个维度是应用的任务。通常大家会混淆两件事情,一个是人脸识别,一个是叫人脸验证。人脸识别对应的情景是,不知道这个人是谁,也没有人告诉你这个人是谁。人脸验证问题要简单的多,近期内有可能成为成熟的实用技术。而人脸识别技术在绝大部分场景都不实用。另外还有一个维度,我觉得是商业模式的问题,一项技术是整个产品里面的feature(特色、功能),还是说它本身就是一个产品?
王涛(主持人):解释的非常清楚。刷脸技术,很多情况是把验证与识别混淆在一起,非常感谢余院长给我们的解释。
赵世范:我再补充一点。不管有怎样的验证方式,它最终都有一个数据是存在计算机里面的,这个东西总有办法能够偷走,总有办法能够去欺骗通机器。人脸,可以做3D打印的面具;指纹,可以做指膜。而生物识别它是不可撤销的,比如我们没有办法换自己的DNA,但数据本身是可以偷走的。生物特征是辅助识别,但是作为唯一的主识别的话,风险是很大的。比如指纹失效的话,还可以按密码。
三、开放大数据,构建生态圈王涛(主持人):大数据时代首先的核心是数据,大数据在未来是否会变成一个商品?甚至它的价值可以与石油来媲美?未来数据将开放、分享,而是建立大数据联盟,怎么能够高效的在数据分享平台上进行工作,想请各位嘉宾谈一谈你们的看法。
赵世范:实际上,海康并没有数据,海康为业主提供大量监控的设备,但是这些数据都是属于业主的。第二个,用户已经有大量的数据,会提供一些技术手段帮助用户进行数据的分析,但到底是提供数据还是提供服务是有商量余地的。数据共享最大的障碍是隐私的问题。 如果别人拿数据用来犯罪,威胁到了当事人的人身安全,这件事情怎么办?大量的数据是坚决不允许拿走的。如果有少量的样本数据,拿过去之前,也要经过脱敏的处理过程,像今天这种大数据分析的时候,脱敏的作用都不大,脱敏之后照样可以窥探到用户的隐私。
王涛(主持人):给出了非常有价值的观点。谷女士来自于腾讯的微信,从腾讯来说,对于大数据的方向,你们对于这个方向有什么样的看法?
谷沉沉:腾讯这几年一直的观点就是开放,我们希望把数据开放出来,但一定是保证安全的前提之下,保护用户隐私的前提之下。我们可以把一些东西开放出来,给广大的创业团队,或者说其他的一些企业,构建一个互联网、全方位的生态圈的,这有利于整个生态圈的发展。腾讯不会去拿大数据卖钱,腾讯公司肯定不会差这个钱。主要在于怎么去利用大数据帮助我们去改善产品体验,如果有一些想法,我们是非常开放的,欢迎大家一起来利用数据去改善业务。
四、大数据应以人为本王涛(主持人):想请6位嘉宾,最后用一句话回答一下我们的问题,大数据现在已经变的更加繁荣,甚至更加智能。想请6位嘉宾,每人一句话,阐述一下对未来大数据演变的观点,比如说未来大数据的发展,你们希望是什么样的?
王井东:大数据,特别是在图像和视频里面,应关注怎么样去帮助人们,怎样令生活更加方便,我觉得基于此基础之上的研究和开发才是有价值的。
赵世范:大数据的发展是以人为中心,提供让人生活更好的环境。
侯宇涛:最主要把目前的一些社会事实进行一些量化,提供一些辅助决策手段,辅助人去做更多有利的事情。
谷沉沉:大数据在图像视频方面,可以告诉现在的用户趋势,告诉我们应该从哪些方向去发展。另一方面以大数据平台作为评价的体系,或许会发展成为行业标准。
王田:华为致力于未来全连接的网络世界。全连接的网络、智能化的大数据在一起,给人们的生活会带来根本性的改变。
谭晓生:现在的大数据或者是智能化,是人类进化的一个必要阶段。通过大数据进行分析之后,人们的隐私信息变得更加不安全。但是同样大数据这个手段,可以为人们进行安全防御。所以我们总体的状况是,既不会更好,也不会更糟。
王涛(主持人):感谢6位嘉宾对于未来大数据的演进提出非常精彩的预测。期待各位专家能够借助这次论坛的讨论,借助大数据的产业联盟,希望大家对大数据的科研都能够得到快速的发展,再次以热烈的掌声感谢6位专家,还有在座的各位的观众,谢谢你们的参与、你们的提问、你们的分享。
——第二届中国图像视频大数据产业创新论坛系列报道之四