京东DNN实验室:大数据、深度学习与计算平台的实践
http://www.csdn.net/article/2015-08-04/2825376京东DNN实验室:大数据、深度学习与计算平台的实践发表于2015-08-04 16:58|
7月26日-27日,2015中国人工智能大会(CCAI 2015)在北京召开,深度学习毫无意外地成为与会嘉宾热议的一个话题。来自京东DNN实验室的四位专家,核心科学家李成华、张晓鑫,以及京东智能通讯部总监刘丹、京东数据与机器智能部负责人杨洋参加了此次讨论,并接受了CSDN记者的采访,介绍了京东对人工智能和深度学习的认识,深度学习技术在京东的最新应用进展,以及京东DNN实验室的未来规划。http://img.ptcms.csdn.net/article/201508/04/55c07e925ee3c.jpg
京东眼中的人工智能与业界同仁一样,京东在个性化推荐搜索、金融业务的授信风控中都采用了基于大数据的机器学习模型。不过在目前的阶段,京东DNN实验室目前的重点工作还是京东智能客服机器人JIMI的支持,也就是是NLP。李成华和张晓鑫分别负责底层核心技术用户意图识别、命名实体识别的研究,刘丹和杨洋侧重于产品化。刘丹提出了京东看待当前人工智能的三个基本观点:
[*]人工智能系统水平的评测,除了图灵测试,可以通过在线用户满意度评价来分析系统是否足够智能。
[*]受限于目前的硬件和软件环境,人工智能总体水平可能还不如三岁小孩,但特定环境下的上下文处理可以做得不错,所以人工智能应该是特定场景下的封闭式系统。
[*]深度学习对人工智能的意义很大。基于DNN技术的知识图谱,做深层次的推理,比简单的人工打标签的方式要好很多,因为深度学习可以更容易地找到非常有用的特征。如京东用DNN做用户画像,实现的是2.3倍于人工的效果。
杨洋补充说,人工智能是用好数据的“大脑”。他表示,NLP/机器人是京东应用人工智能技术的切入点,但不是全部。归根结底,京东是要走的数据驱动的路线,无论以前研究传统的数据挖掘方法,还是去年成立DNN实验室,目的都是为了用好大数据。在他看来,大数据是京东的核心竞争力。而把人工智能放在大脑的地位,是走在正确的路上。深度学习在京东应用的最新进展杨洋详细介绍了JIMI机器人的具体应用,包括京东主站的智能客服,负责网页单售前咨询、售后服务、闲聊、百科、专属服务,以及移动端基于HTML5的智能机器人和商家智能助手,负责半自动和全自动接待,商家管理后台等。JIMI机器人覆盖了京东首页、售前与售后客户,和社交平台等。JIMI机器人的核心技术体系分为三个部分:
[*]NLP体系。包括意图识别(特征抽取,多维分类模型,中文语法分析),命名实体识别(信息抽取泛化,结构化资源库),以及应答引擎(交互式场景,记忆能力,一问多答)。
[*]机器学习。包括有监督、半监督和无监督学习(数据资源智能构造,模型调优平台),基于用户反馈的学习(基于互动和反馈的学习,负责成百上千各模型的效果自动提升),半自动和全自动的评测体系(确认模型优化效果确实提高才允许上线),以及异构信息融合与挖掘(基于海量多类型数据挖掘并构造结构化知识库)。
[*]基于用户画像的咨询服务。包括个性化特征(基于购物行为、浏览行为等大数据识别个人特征),情绪识别(识别用户情绪及服务过程质量,服务上采取动态应对机制及人工介入),和意图预测(预测用户问题,半段是否适合机器人接待,实现人工服务和机器服务的智能分流)。
针对三轮以上的多轮对话的实现,杨洋解释说,最开始是尝试规则加场景加语音识别的机制,把单句作为一个对象处理,应答引擎有预设脚本,每个环节都对应了一个模型,每个模型会判断某句话是否和某个场景相关。最新的方法有一种补充机制,如果有感叹词,首先判断感叹词是否有意义,结合前面其他的特征一起来进行意图分类,从而实现多轮的效果。有监督、半监督和无监督学习的区隔如下:
[*]有监督学习用于一些标准平台,包括每个模型解决什么样的业务数据,以及对京东非结构化数据整理;
[*]半监督学习主要采取半自动机器学习方法,比如训练出一系列模型,在训练模型里面实现预先分析,减少人工参与;
[*]无监督学习是对于京东大量商品的学习,以及与京东相关的一些爬虫、重复资源信息,以完善信息资源平台。
从技术层面上来说,刘丹认为,京东和同行各有千秋,但京东胜在数据质量,包括数据类型、数据的准备性,这是对学习效果是很关键的要素。京东自营的东西,质量可控程度最好。所以,JIMI在京东自营业务与非自营业务部分的满意度也不同:根据JIMI服务评价的统计,自营的满意度90%以上,非自营的只有80%(当然也有京东自营的主要是标准化的产品的因素)。但刘丹强调,JIMI人工智能满意度达到80%,就达到了一个瓶颈。张晓鑫解释说,机器学习就是从数据中抽取有效的特征,把这些特征作为输入函数建立模型,如果数据噪音非常大,优化的效果都不会特别好,但如果信息量足够大,同样也定义了最后能解决问题的上限。换言之,数据集的作用比特征的作用要大,特征的作用比模型的作用要大,但是每一个都是整个系统的,都会有一个瓶颈作用。这也是为什么包括图像分类在内,用同一种方法优化,错误率不会有很大的变化。智能客服的进化方向数据质量一定,特征挖掘到了极限,这意味着需要从模型变换的角度来实现更好的效果。张晓鑫表示,下一步会想一些更新的方法从数据里面找到更有效的特征或者更好的模型,目前正在研究的包括RNN、CNN的方法,尝试把这些常用于图像、语音的模型引入到NLP中来。李成华补充说,通过集成学习的模型,可能把效果提高到一个新的高度。京东没有用智能客服100%替代人工客服的想法(链接:京东DNN Lab首席科学家:用深度学习搞定80%的客服工作),原因之一在于情感。刘丹表示,机器回答标准的答案,不包含情感,而人对商品不满意需要一个倾诉,机器未来几十年很难把人的情感分析很到位很清楚,因为人的大脑很庞大,机器只能逼近,不能超越,未来也是如此。不过,虽有情绪识别模块,京东却似乎无意在情感分析方面更进一步,将EQ赋给JIMI来提升服务,这与社交机器人采取的路线大为迥异。张晓鑫表示,目前业界用深度学习来做情感分析的效果比传统方法好很多,JIMI只是定位某句话附带的是正向还是负向的情绪,但客服场景需要得到的更多。刘丹补充说,客服场景里面,人的处理是跳跃性变化的,即便把情感分析加到人工智能上面来,未来很长时间内也很难做到。所以,JIMI的功能,更倾向于为京东精准营销、推荐搜索、销量预测等服务,这将得益于越来越成熟的用户画像技术。(链接:京东DNN Lab新品用户营销的两种技术方案)而谈到知识图谱对NLP的影响和挑战,张晓鑫表示,通过互联网信息的挖掘、去噪、结构化和推理,构建节点关系,形成知识体系,并逐步地积累,这是可行的,但真正完全的智能,最终的数学描述将会是一个非常高维的函数,而且如果是任意范围的数据处理,简单的关系也需要耗费大量的工作,所以目前人类只能在一个低维中间里找到一个好的近似。李成华补充说,知识需要把关联起来才会更准确,京东目前也想要构建词与词的关系,知识与知识的关联,把这些知识整合到系统和数据里面,使模型越来越智能。采用的方法,是word2vec+DNN,把比较独立的知识训练起来,成为一个词相关性的向量,然后再把这些词向量重新整合深度学习的模型。未来:从深度学习云到京东大脑?京东希望人工智能技术体系的商业化能为公司带来更多的价实际值。在CSDN此前的采访中,京东多位高层就谈到了京东大数据和深度学习能力未来会走向开放。但这一次,DNN实验室还透露了一个开放计算平台的计划。这个采用GPU加速技术的平台,主要由张晓鑫牵头来做。目前在搭建当中,预计明年会在整个京东大规模运用。张晓鑫介绍,这是京东基于配备GPU的服务器搭建的一个并行计算平台,在这个平台上,技术人员可以实验各种深度学习的算法,以及其他的算法和模型,然后在这些算法之上会有一些应用,同时这些应用也不限于JIMI人工智能,搜索推荐,销量预测等各个维度也都会涉及。这个平台未来会服务于更多的客户,第三方可以调用成熟的算法和模型。刘丹解释了数据开放目前存在的一个难点:京东和银联合作一些东西,包括银联的数据和京东电商的数据,都是用户比较核心的东西,涉及到数据所有权的问题,目前看没有很好的方法可以公开。但在开放计算平台上,这些数据的推理和简单运用的合作是可以实现的,也不需要用户再做数据打通。可以预见,京东开放计算平台,首先会支持京东内部的各种业务,其次才是第三方电商应用,然后才会扩展到其他行业——如文章开头谈到,京东认为,人工智能应该是特定场景下的封闭系统。从整个中国的人工智能发展来看,大数据、好模型和强计算平台是普遍的需求,但只有大型技术公司才能搭建一套完整的体系。事实上,中国大脑、百度大脑、讯飞超脑离公众已经越来越近。目前,京东还没有提出“京东大脑”这样的概念,但并行计算平台已经初具“云大脑”的雏形。从从长远来看,京东会在这个方向上努力。可以预见,未来的人工智能竞争,将会是“云大脑”的竞争。
页:
[1]