【2015年8月14日,由中国科协、中国科学院指导,中国人工智能学会发起主办的第五届中国智能产业高峰论坛在上海长荣桂冠酒店顺利召开。下面是百度研究院副院长张潼的发言,本文由中国人工智能学会供稿,静沙龙记者王嘉俊整理。】
我们知道大数据这个概念产生的背景是“数据量日益增多”,可能每十年要增长一千倍。以前仅是线下数据的增加,而今天大数据的来源很大程度上是互联网公司,包括:PC互联网和移动互联网。将来可能还会有各种传感器组成的物联网,云端设备等一系列数据收集方式。大数据发展的前提就是“数据量日益增多”。
大数据技术有三个层次,一是用于数据管理的底层技术,比如“云”的概念大家现在都很熟悉了,很多科技公司对“云”的投入都是非常巨大的。第二个层次和我们这个会议有关,就是人工智能技术。刚才李德毅院士讲的非常好,现在的智能基本上是用大数据驱动的,所以我把它叫“大数据智能”。其中一个很重要的基础技术是机器学习,在很多领域都有广泛的应用。大数据驱动的人工智能是和我们这个会议比较相关的。第三个层次,就是大数据在行业中的一些创新应用。
从大数据的发展上看,我觉得将来主要会有三个趋势。
第一个趋势是“个性化”。其实我们谈到大数据,包括很多大数据的书籍都会讲到这个趋势,就是大数据使我们深入了解每一个人。有一个很经典的案例是美国零售公司target,给一位父亲发推销邮件,说他女儿怀孕了什么的。然后他就很生气找到公司经理说:我的女儿还没有结婚。经理只能说:“这个我们可能错了”。但是实际上最后发现自己公司的数据分析是对的,而那位父亲是错了。从这个例子上,我们可以得知:用数据大家能够非常精准的知道每个人的情况,甚至可能比身边的人知道更多。
第二个趋势是“智能化”。智能化在整个大数据发展中起到非常重要的作用,因为智能化技术是一个有很多应用的底层技术。
第三个趋势是“产业化”。比如:互联网+、工业4.0等一系列思想都和这个有关,也可以把产业化理解得更广泛。所以说,在这个报告中,我会着重讲这三方面。“个性化”是针对用户的;“产业化”是针对企业的,而“智能化”算是一个底层的技术。
我们先说一下“个性化”。大数据在“个性化”的应用也包括三个方向。之前,我们讨论的target例子就是“个性化营销”。个性化营销在互联网的应用是互联网广告技术,而这里“个性化”起到了非常重要的作用。还有在将来,“个性化医疗”会是一个很重要的方向。美国也推出了一系列“个性化医疗”的计划。 另一个方向是“个性化服务”,就是怎么去利用个性化技术为每个人做更加全面的定制化服务。
接下来我会主要讲“个性化营销”这一方向。“个性化”在互联网公司里面反映在什么地方呢?是互联网公司通过用户历史行为对用户的深入理解。传统的零售商是通过购买行为,而互联网公司是通过用户网上的一些行为做分析。比如:阿里有用户的电商数据,百度有用户的搜索数据,这些都是用户的网上行为。通过用户的一系列行为,我们可以知道每个用户是个什么样子的人,喜欢什么,将来可能对什么更感兴趣。这种对用户的理解我们称为“用户画像”,就是把用户的信息和喜好给刻画出来。有了用户画像以后,互联网公司就可以做个性化的推荐和个性化的广告。
大家知道,广告是互联网企业的一个重要盈利模式。百度的收入基本上都来自于广告,阿里很大一部分收入也来自于广告,而腾讯的广告业务也在快速发展。
在这里,“个性化”起到非常重要的作用,因为如果我们知道用户的兴趣,就可以针对每一个用户更好地展现广告。互联网广告的一个关键技术,就是广告的点击预估技术,而这个技术就需要用到“机器学习”。
在百度,产生广告点击模型的数据量可以是千亿级,而所需要的服务器数量也是上万台的。对于机器学习而言,其核心就是李院士提到的大数据智能,其前提是大数据,然后才是基于大数据的机器学习。这里面包括:强大的计算能力,复杂的模型,以及利用高效的算法可以使机器在有限的时间内、用有限的计算资源取得最好的数据分析结果。
接下来我们说一下大数据发展的第二个趋势,就是大数据在智能化上起到的作用。这是未来十年一个比较重要的发展方向,而其中的关键就是机器学习能力。百度等很多科技公司,现在都会投入很多力量把大数据智能化作为前沿研究方向,这里包括设计和实现更强大的机器学习系统。有了强大的机器学习能力后,我们就可以把这种能力转变成实际应用,形成智能化的系统。
我们用一个比较经典的案例来说明大数据在机器学习上的作用,就是图象分类技术近年来因为ImageNet数据所取得的进展。传统的图像分类数据集规模是一万左右,而ImageNet在2010年把图像数据提高到百万级。在Imagenet之前的小数据上做出的一些最有效的图像分类机器学习模型都是浅层模型,而这些算法在Imagenet上取得了百分之七十几的准确率。在Imagenet出现后的几年之内,错误率从20%几降到了6%、5%。
这里我们用了大数据和复杂的深度学习模型,利用了GPU等一系列计算能力更强大的硬件资源,以及更高效的算法。用这种方法产生出了非常有效的图像分类系统,而这样的系统可以有效提升大数据智能化的能力。不仅是图象识别,现在我们在包括语音、广告等系统取得的进展都得益于大数据驱动的智能化能力。所以今后一个趋势是用大数据来提升智能化的技术,其手段是加大数据量,尝试更为复杂的模型,并且实现更强的计算能力。目前很多机器学习的前沿研究都是朝这个方向努力,这使我们整个智能技术得以全面提升。
智能技术可以用在各种智能化系统里面。对于百度来讲,搜索引擎就是一个智能化系统,用来提升用户体验。百度其他智能系统包扩“自动问答系统”可以近一步提升用户的搜索体验,也包括“广告系统”用于商业变现。
智能化的技术在未来还可以应用于和物理世界的交互,使机器能够从虚拟世界进入到物理世界,比如机器人。其中几个关键技术之一是感知技术;比如:图象识别,语音识别等技术。接下来的是自然语言技术,可以让机器理解概念,形成“表示”,进行推理。另外一个关键点是交互技术,就是机器和人进行的交流。“表示”和“交互”使机器能够更好的理解和掌握外部信息并进行分析。智能系统的最后一个关技术是决策,使系统产生行动。这需要机器拥有处理知识的能力,包括做分析、做决定,然后产生结果。
我们举一个例子,百度搜索系统目前最常用的感知方式是文字输入,其次还可以是语音或者图象输入。在理解层次上,搜索系统要能分析语意。交互在当今的搜索上用的比较少,却是一个发展趋势。现有搜索系统的一个交互方式是当用户搜索了一个关键词以后,搜索引擎会提示用户可以检索另一个相关的词。在行动层次上,搜索系统就是根据用户输入返回最好的搜索结果。
当今的搜索引擎在智能化上其实是相对简单的。将来可以做出更深入的人机交互形式。今后的搜索可能会演变成为更便捷的机器人或者智能助理。一个例子是迪士尼动画《超能陆战队》里的个人健康助理机器人大白,就是健康垂直领域中的个人助理。百度也在做一些相关尝试,比如说“小度机器人”。这些尝试的目标是通过更先进的智能化技术来提升用户体验并满足用户的定制化需求,而这样的系统比搜索引擎更加智能和强大。在技术上,这需要我们前面提到的大数据“个性化技术”,“感知技术”,和“交互技术”等等。这样一个智能助理可以通过和用户交流来整合资源,进行分析,并且满足需求。这里资源整合是指找到合适的资源来满足客户的需求;而且这个资源可以是线上资源,也可以是线下的资源。今后的智能搜索引擎会有这种更强大的理解用户并满足用户个性化需求的能力。
最后我们说一下大数据发展的第三个趋势,就是大数据的产业化。产业化其实包含很广,其中广告营销也算是一种大数据产业化的应用,这个应用和“个性化”有很强的关联。还有人工智能技术也可能会在将来发展成一个产业。下面我们想重点讨论的是大数据对于产业升级的作用,还有对社会变革的影响。
数据产业化有几个重要的机会点。其一是智能连接,这也是今年早期提出的“互联网+”概念的本意。互联网的本质是把人智能地连接到某种事物;以前是连接人和线上资源,今后希望连接人和线下资源。其二是人机互补。大数据的智能技术可以帮助人来辅助决策,让计算机和人更好地交流,而不是让计算机完全取代人的作用。也就是说:机器可以让人能做原来做不了的事情,使人变得更强大。最后一个机会点是数据创新。所有的这几个机会点的核心是“提升效率”,就是改进传统方式中一些比较低效的部分使效率得到提升。如果我们发现传统产业在一些方面能够利用大数据来提高效率,那么这样的机会就值得去尝试。
互联网思维是连接的思维。而当今的发展是互联网从连接用户到线上资源,过度到连接用户到线下资源,比如说到医疗、出行、餐饮等一系列的线下实体服务行业。其核心是利用互联网方式提升连接的效率。
举一个例子,在中国有嘀嘀打车,在国外有Uber,都是连接人和车。这种连接产生了很多智能技术,其中一个是“智能发单”。当客户想要一个车的时候,他周围可能有很多个车;系统会知道哪一个车是最适合这个订单,哪个司机最愿意接这个单,这样就可以定向发送订单来优化效率。还有一个技术是“智能定价”,比如:上下班的时候定价会高。这样也可以提升整体的行业效率。再有就是“智能需求”:因为系统知道什么地方打车需求更强,可以建议出租车司机去哪里等顾客。另外Uber买了CMU的一个实验室研究智能驾驶技术,这样将来就可以实现无人出租车接送顾客。像Uber这种新兴的互联网公司既是一个大数据公司,也是一个人工智能公司,其商业模式有很高的技术含量。
另外一个大数据产业化机会是“人机互补”,这在美国也有一个比较著名的公司就是Palantir。大家如果看过《从0到1》这本书,应该对Palantir科技不陌生。这家公司的产品思路是利用人和机器配合来解决困难的问题。机器可以查询和过滤海量信息,但不能解决一些人类更擅长的复杂问题;所以机器可以和人相配合,用机器快速的定位和查找人所需要相关信息,帮助人来做决策。这样使用者就能够很快的从海量数据里找到最关键的信息,用以实现目标。Palantir公司产品的一个应用是定位保险金融行业的欺诈行为。实现人机互补需要很多大数据技术,包括多数据融合,智能查询,可视化、关联分析,异常报警等。
百度也在进行类似的尝试,比如利用百度地图数据开发的针对“智能城市管理”的辅助决策系统,可以应用在人口管理、城市优化、城市网络分析等方面。百度有大量地图定位数据,从地图的搜索定位行为我们可以知道人们去了哪里,干些什么。如果有一个大型活动,百度数据就可以用来监控人群密度并根据第一手信息更合理的布置警力。这是一种人机交互、人机相互辅助的模式。
利用这个系统我们对今年初上海外滩的踩踏事件进行了分析。
另外我们开发了可以帮助商家做智能选址的工具,利用百度地图数据分析用户需求并推荐在哪个地方最合适开店。利用大数据做辅助决策是一个非常有前景的方向。
还有一个大数据产业化的机会是“行业创新”。这是指利用大数据把一些传统行业里效率低的地方变得更高效。
一个例子是百度利用其数据做了一系列的大数据预测项目,其中一个就是旅游景点的人流预测。这个项目根据百度数据来预测某个景点将来几天的访问人数,在当时有过一系列媒体报道。
还有一个例子是我们实验室做的大数据在医疗上的创新尝试。现在互联网企业积极进入医疗领域;一个患者看病的过程可以分成三个阶段;一个是病前阶段,是当病人刚得病还没有就医的时候,希望从网上查询一些基本的信息;另一个是就医阶段,这里一个痛点是“挂号”,而百度也在尝试利用互联网方式解决挂号难的问题;最后一个阶段是康复,这需要用药并和医生保持交流。
我们在互联网医疗方向上的研究是从问诊开始的。很多人在刚患有一种疾病时,会有很强愿意在互联网上查询。但是搜索这种形式并不是最有效的获取疾病信息的方式,所以我们做的一个探索是把这个过程变得更加高效和自然。我们开发了一个智能预诊系统,其目的不是为了取代医生,而是为了给病人更好的体验,使病人更便捷地了解所需的疾病信息。目前这个系统可以通过语音输入病症,并显示可能的疾病以及常用药物和治疗信息等。今后系统升级之后还会和病人交流。
我们做的另一个尝试是对于线下零售业的探索。零售商关心的一个主要问题是如何找到有价值的客户,另一个问题是怎么维护老客户。我们的切入点是打通百度的线上数据和零售商的线下数据:从零售商线下的客户出发,我们可以找到他们线上的行为;而根据这些顾客的线上行为,结合零售业传统的线下数据,我们就可以更精准地找到对每个商家最有价值的新客户。我们在和一些零售商的合作过程中证明以这种方法带来的客户有更高的价值。
最后让我们畅想一下未来的社会将是怎么样子?从大数据的角度来看,我们谈到了三个趋势。一个是“个性化”;这里的个性化就是指当用户数据足够多时,如果我们有能力把不同数据源整合起来,机器将会比用户更了解自己,或者比用户周边的人更了解自己。另一个是“智能化”:智能化可以让机器更好地理解人、和人进行交流并帮助人做决策。 其中一些人类的工作会被机器替代,比如无人驾驶,但更多的时候机器不是替代人,而是辅助人做以前做不了的事,也就是我们刚才提到的辅助决策。总体来讲,机器和人结合会使人的效率得以大幅度提高。最后一个是“产业化”:其中大数据对科学技术发展的作用虽然在本报告中没有讨论,但是其作用是不可低估的。大数据在今后一些年会助力传统产业升级,这里包括结合线下服务的智能连接,到最近推出的“互联网+”概念,到大数据在各行各业的创新应用。
谢谢大家!