创业公司如何做好机器学习？

贾伟中科院合肥 · 发表于 2015-5-4 23:47:25

创业公司如何做好机器学习？2015-05-04 [url=]出门问问[/url]

“所谓机器学习，就是你选定一个任务，采集相关的数据，然后用算法训练一个模型。最后用这个训练好的模型，去解决用户在实际生活中所遇到的同类型的问题”。在GMIC大会的智能机器人峰会上，出门问问CTO雷欣这样概括“机器学习”，为了便于专业领域以外的人也可以理解，他做了一个简单的比喻：

“如果把机器学习比作人的话，它包括三部分，也就是我说的BBS”。

B－Blood血液，代表机器学习所需要的数据
B－Brain大脑，代表算法
S－Skeleton骨骼，代表工程

可见，对于机器学习来说，数据是首要条件。如果没有或缺少数据，即便有再出色的算法和再强大的工程能力，机器学习系统也会因为“缺血”而无法健康的成长。

加入出门问问后，作为刚刚创立不久的人工智能公司的CTO，雷欣是如何带领团队从0开始获取基础数据，从而打造出自己的机器学习系统的？

在GMIC智能机器人峰会上，雷欣回答了这个问题。

从做饭阿姨那里开始获取基础数据，完成从0到1

在加入出门问问之前，雷欣从来没有面对过缺少数据的问题。在2006年于华盛顿大学西雅图分校获得博士学位后，他先后在微软、SRI（前斯坦福研究所）、谷歌研究院做语音识别相关工作。雷欣说：“这些大公司和传统研究机构都构建了良好的工程基础，作为工程研究人员要做的就是在前人的基础上不断提高优化系统”。

“去年我回到中国加入创业公司出门问问之后，发现情况很不一样。创业公司的资源非常有限。用我们联合创始人的话来说，就是没人没钱没资源。那怎样去做一个机器学习的技术型企业？”

“首先是数据，没有训练数据，机器学习就只能是空谈”，雷欣说，“我们碰到这样一个问题：训练数据从0怎么到1？”

雷欣和他的团队采用了最意料之外，但是又是情理之中的办法，“我们找公司里做饭的阿姨，请她帮忙每天抽1、2个小时读菜谱做录音数据，当然我们的其他员工也会录入一些数据。经过一段时间之后，我们就有了最早的一批语音数据。有了这些数据之后，我们就可以用它来搭建原型系统并对系统简单调优”。

“有了第一批数据之后，接下来的问题就是怎么完成从1到N的积累过程”，雷欣说：“这一阶段就要八仙过海各显神通了。我们用了各种各样的办法，比如我们有一些自动化的数据收集方式，建立了自己开放的数据采集平台。再比如我们还利用了一些开放引擎的API，为我们进行数据的标注。第三，我们通过各种官方合作，为我们的合作方提供语音识别、语义分析的服务，也可以从中搜集到一些数据。最后，我们也会花钱去标注一些数据”。

为做到小而美，只采集垂直领域数据

“小公司和大公司不一样的一点在于，大公司追求的是大而全的东西，所以它的数据需要覆盖各种各样的领域。而我们小公司，不想做大而全，只想做小而美的系统。也就是说，我们会挑选一些对用户比较有用的垂直领域进行数据采集。这样一来我们的工作变得非常高效，垂直领域1小时的语音数据，相当于通用领域内10个小时的数据”，雷欣举例说：“比如出门问问所提供的服务，很多都基于地理位置的信息，所以在很多地图位置的识别上，相对其他系统来说会好很多。比如惠新桥东、惠新桥西这样的定位信息，在其他的通用的系统中可能很难辨别，但由于出门问问在垂直领域里做了深度的优化，所以效果会非常好”。

自建引擎，满足用户真实需求

雷欣强调：“训练数据必须做到与用户的需求相匹配。因为机器学习要做的事情是通过训练用模型记住大量的已有数据，再用这样的模型来解决测试中和实际生活中的问题。所以训练数据和测试数据必须要非常的匹配，否则做的就是无用功，对于用户来也毫无价值。出门问问之所以没有选择用第三方的引擎，是因为我们希望这个系统是可以随着用户需求的变化而很快迭代优化的。

数据是越多越好吗？

通常来讲，数据量当然是越大越好。但是对于一个创业公司来说，在资源非常有限的情况下，是应该用有限的资源去获得尽可能多的数据，还是把资源放在刀刃上、更需要的地方呢？雷欣说：“虽然数据通常来说是越多越好，但是数据所带来的红利，在某一个区间会逐渐饱和，形成拐点。哪怕是在谷歌，它有成百万上千万小时的数据，但是实际用来训练它们机器学习系统的数据，只是很小的一部分。其原因之一是这些数据需要标注，另一个原因是数据达到一定拐点之后，单纯靠数据带来的红利已经是越来越少了。而且，在用大量数据做训练的过程中，所耗费的时间和机器资源都是相当大的。所以在这个数据红利的拐点来临时，就必须考虑是否有必要接着去搜集更多的数据。对于创业公司来说，我们当然希望尽快达到这个拐点，然后把资源集中投入到更需要的地方”。

算法：紧跟开源和领先技术

在语音识别方面，雷欣有着十多年的研究工作经验，所以他以此为例，讲解了如何优化企业自身的算法：“从2002年开始到2011年左右，语音识别最大的进展，都是来自于美国国防部研究机构开展的大型研究项目。到了这几年，谷歌无疑引领着语音识别的潮流，无论是在人员、技术、机器，还是数据方面，谷歌都有很大的优势。作为小公司我们一方面紧跟开源和世界领先技术，另一方面，我们也和一些学术机构保持合作。譬如说我们和约翰霍普金斯大学语音和语言处理中心保持着良好的合作关系”。

工程：用真实的用户数据去训练系统

“只有数据和算法，没有强大的工程实现能力，那么所谓机器学习只是停留在实验室里，是没有实际影响力的。我们要把它落地成为一款产品，才能帮助人们解决实际生活中的问题。在产品化之后，我们会获得更多来自真实用户的数据。通过将产品迅速发布并快速迭代，也可以更好的帮助系统进行工程优化”。

在演讲的最后，雷欣说：“当你有很好的工程实现，有了不错的产品和一定的用户以后，就会有更多的数据。这些数据会反哺机器学习系统，并完成从1到N的回馈。这样，机器学习系统才会得到不断优化、真正变得智能起来”

创业公司如何做好机器学习？

相关帖子