解应春BW 发表于 2017-11-7 15:23:50

AI100_机器学习日报 2017-11-05 聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专...

AI100_机器学习日报 2017-11-05
[*]聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专家等) @wx:专知内容组
[*]推荐中的序列化建模:Session-based neural recommendation @wx:白婷
[*]11分钟训练完ImageNet @wx:
[*]Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译 @wx:
[*]基于机器学习的音乐推荐 @稀土掘金

@好东西传送门 出品,由@AI100运营, 过往目录 见http://ai100.com.cn

订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群http://memect-public.oss-cn-hangzhou.aliyuncs.com/images/AI100_logo.png
邮件版包括12条,本期的Web版有完整内容17条
用日报搜索找到以前分享的内容: http://ml.memect.com/search/今日焦点 (5)
wx:专知内容组   网页链接 2017-11-06 03:58
会议活动 经验总结 深度学习 算法 应用 资源 自然语言处理 NIPS Oriol Vinyals PDF Quoc Le博客 车万翔 代码 邓力 何世柱 胡云华 黄民烈 会议 机器人 吉宗诚 教育网站 课程 论文 强化学习 情感分析神经网络 推荐系统 问答系统 谢幸 信息检索 宇聊天 张俊林 张元哲 赵世奇 周明 朱小燕 主题模型
「聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专家等)(附pdf下载)」【导读】主题荟萃知识是专知的核心功能之一,为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华(Awesome)知识资料收录整理,使得AI从业者便捷学习和解决工作问题!在专知人工智能主题知识树基础上,主题荟萃由专业人工编辑和算法工具辅助协作完成,并保持动态更新!另外欢迎对此创作主题荟萃感兴趣的同学,请加入我们专知AI创作者计划,共创共赢! 今天专知为大家呈送第五篇专知主题荟萃-聊天机器人ChatBot知识资料全集荟萃 (入门/进阶/论文/软件/数据/专家等),请大家查看!专知访问www.zhuanzhi.ai,或关注微信公众号后台回复" 专知"进入专知,搜索主题“chatbot”查看。欢迎转发分享!此外,我们也提供该文pdf下载链接,请文章末尾查看!了解专知,专知,一个新的认知方式!聊天机器人 (Chatbot) 专知荟萃入门学习进阶论文综述专门会议Tutorial软件ChatbotChinese_Chatbot数据集领域专家对话系统的历史(聊天机器人发展)[http://blog.csdn.net/zhoubl668/article/details/8490310]微软邓力:对话系统的分类与发展历程[https://www.leiphone.com/news/201703/6PNNwLXouKQ3EyI5.html]Deep Learning for Chatbots, Part 1 – Introduction 聊天机器人中的深度学习技术之一:导读[http://www.jeyzhang.com/deep-learning-for-chatbots-1.html][http://www.wildml.com/2016/04/deep-learning-for-chatbots-part-1-introduction/]Deep Learning for Chatbots, Part 2 – Implementing a Retrieval-Based Model in Tensorflow聊天机器人中的深度学习技术之二:基于检索模型的实现[http://www.jeyzhang.com/deep-learning-for-chatbots-2.html][http://www.wildml.com/2016/07/deep-learning-for-chatbots-2-retrieval-based-model-tensorflow/]自己动手做聊天机器人教程(1-42)[https://github.com/warmheartli/ChatBotCourse]如何让人工智能助理杜绝“智障”微软亚洲研究院[http://www.msra.cn/zh-cn/news/features/virtual-personal-assistant-20170411]周明:自然语言对话引擎微软亚洲研究院[http://www.msra.cn/zh-cn/news/features/ming-zhou-conversation-engine-20170413]谢幸:用户画像、性格分析与聊天机器人[http://www.msra.cn/zh-cn/news/features/xing-xie-speech-20170324]25 Chatbot Platforms: A Comparative Table[https://chatbotsjournal.com/25-chatbot-platforms-a-comparative-table-aeefc932eaff]聊天机器人开发指南   IBM[https://www.ibm.com/developerworks/cn/cognitive/library/cc-cognitive-chatbot-guide/index.html]朱小燕:对话系统中的NLP[http://mp.weixin.qq.com/s/JyQ34kBNh2M5avdDtL0k_Q]使用深度学习打造智能聊天机器人   张俊林[http://blog.csdn.net/malefactor/article/details/51901115]九款工具帮您打造属于自己的聊天机器人[http://mobile.51cto.com/hot-520148.htm]聊天机器人中对话模板的高效匹配方法[http://blog.csdn.net/malefactor/article/details/52166235]中国计算机学会通讯 2017年第9期   人机对话专刊对话系统评价技术进展及展望                   by 张伟男 车万翔人机对话                                                      by 刘 挺 张伟男任务型与问答型对话系统中的语言理解技术by 车万翔 张 宇聊天机器人的技术及展望                            by 武 威 周 明人机对话中的情绪感知与表达                     by 黄民烈 朱小燕对话式交互与个性化推荐                            by 胡云华对话智能与认知型口语交互界面                  by 俞 凯[https://pan.baidu.com/s/1o8Lv138]中国人工智能学会通讯从图灵测试到智能信息获取               郝 宇,朱小燕,黄民烈智能问答技术                                       何世柱,张元哲,刘 康,赵 军社区问答系统及相关技术                                 王 斌,吉宗诚聊天机器人技术的研究进展                              张伟男,刘 挺如何评价智能问答系统                                       黄萱菁智能助手: 走出科幻,步入现实                        赵世奇,吴华[http://caai.cn/index.php?s=/Home/Article/qikandetail/year/2016/month/01.html]Sequence to Sequence Learning with Neural Networks[http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf]A Neural Conversational Model   Oriol Vinyals, Quoc Le[http://arxiv.org/pdf/1506.05869v1.pdf]A Diversity-Promoting Objective Function for Neural Conversation ModelsA Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues[https://arxiv.org/abs/1605.06069]Sequence to Backward and Forward Sequences: A Content-Introducing Approach to Generative Short-Text Conversation[https://arxiv.org/abs/1607.00970] A Persona-Based Neural Conversation Model[https://arxiv.org/abs/1603.06155]Deep Reinforcement Learning for Dialogue Generation[https://arxiv.org/abs/1606.01541] End-to-end LSTM-based dialog control optimized with supervised and reinforcement learning[https://arxiv.org/abs/1606.01269]A Network-based End-to-End Trainable Task-oriented Dialogue System[https://arxiv.org/abs/1604.04562] Incorporating Unstructured Textual Knowledge Sources into Neural Dialogue Systems[http://www.iro.umontreal.ca/~lisa/publications2/index.php/publications/show/871]A Neural Network Approach to Context-Sensitive Generation of Conversational Responses[https://arxiv.org/abs/1506.06714]A Dataset for Research on Short-Text Conversation[http://staff.ustc.edu.cn/~cheneh/paper_pdf/2013/HaoWang.pdf]The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems[https://arxiv.org/abs/1506.08909]Joint Online Spoken Language Understanding and Language Modeling with Recurrent Neural Networks, 2016[https://arxiv.org/abs/1609.01462]Neural Utterance Ranking Model for Conversational Dialogue Systems, 2016[https://www.researchgate.net/publication/312250877_Neural_Utterance_Ranking_Model_for_Conversational_Dialogue_SystemsA Context-aware Natural Language Generator for Dialogue Systems, 2016[https://arxiv.org/abs/1608.07076]Task Lineages: Dialog State Tracking for Flexible Interaction, 2016[https://www.microsoft.com/en-us/research/publication/task-lineages-dialog-state-tracking-flexible-interaction-2/]Affective Neural Response Generation[https://arxiv.org/abs/1709.03968]Multi-Task Learning for Speaker-Role Adaptation in Neural Conversation Models[https://arxiv.org/abs/1710.07388]Chatbot Evaluation and Database Expansion via Crowdsourcing[http://www.cs.cmu.edu/afs/cs/user/zhouyu/www/LREC.pdf]A Neural Network Approach for Knowledge-Driven Response Generation[http://www.aclweb.org/anthology/C16-1318]Training End-to-End Dialogue Systems with the Ubuntu Dialogue Corpus[http://www.cs.toronto.edu/~lcharlin/papers/ubuntu_dialogue_dd17.pdf]Emotional Chatting Machine: Emotional Conversation Generation with Internal and External MemoryACL 2017[https://arxiv.org/abs/1704.01074]Flexible End-to-End Dialogue System for Knowledge Grounded Conversation[https://arxiv.org/abs/1709.04264]Augmenting End-to-End Dialog Systems with Commonsense Knowledge[https://arxiv.org/abs/1709.05453]Evaluating Prerequisite Qualities for Learning End-to-End Dialog Systems[https://arxiv.org/abs/1511.06931]Attention with Intention for a Neural Network Conversation Model[https://arxiv.org/abs/1510.08565]Response Selection with Topic Clues for Retrieval-based Chatbots[https://arxiv.org/abs/1605.00090]LSTM based Conversation Models[https://arxiv.org/abs/1603.09457]Not All Dialogues are Created Equal: Instance Weighting for Neural Conversational Models[https://arxiv.org/abs/1704.08966]Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders   ACL 2017[https://arxiv.org/abs/1703.10960]Words Or Characters? Fine-Grained Gating For Reading Comprehension    ACL 2017[https://arxiv.org/abs/1611.01724v1] 转自:专知 完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678317&idx=3&sn=fe99119957aa4ee1737031fd36df7b0c&scene=0#wechat_redirect
http://47.93.113.146:6656/api/v1/image?url=http://mmbiz.qpic.cn/mmbiz_jpg/6PqHI4vHibfXPDtxCFc6JfIA6TEILOxDVyurknPBXqzVZaPic97uZicNiaPFP08aAeAmDtwM4R4iadun3baaicuQycIw/0?wx_fmt=jpeg



wx:白婷   网页链接 2017-11-06 03:58
经验总结 深度学习 视觉 算法 应用 白婷 博客 广告系统 神经网络 推荐系统
「推荐中的序列化建模:Session-based neural recommendation」转自:白婷首先介绍下session-based 的概念:session是服务器端用来记录识别用户的一种机制. 典型的场景比如购物车,服务端为特定的对象创建了特定的Session,用于标识这个对象,并且跟踪用户的浏览点击行为。我们这里可以将其理解为具有时序关系的一些记录序列。 一、写作动机传统的两类推荐方法——基于内容的推荐算法和协同过滤推荐算法(model-based、memory-based)在刻画序列数据中存在缺陷:每个item相互独立,不能建模session中item的连续偏好信息。 二、传统的解决方法item-to-item recommendation approach (Sarwar et al.,2001; Linden et al., 2003) : 采用session中item间的相似性预测下一个item。缺点:只考虑了最后一次的click 的item相似性, 忽视了前面的的clicks, 没有考虑整个序列信息。 Markov decision Processes (MDPs)(Shani et al., 2002):马尔科夫决策过程,用四元组<S,A, P, R>(S: 状态, A: 动作, P: 转移概率, R: 奖励函数)刻画序列信息,通过状态转移概率的计算点击下一个动作:即点击item的概率。缺点:状态的数量巨大,会随问题维度指数增加。(MDPs参见博客:增强学习(二)----- 马尔可夫决策过程MDP) 三、Deep Neural Network的方法Deep Neural Network (RNN:LSTM和GRU的记忆性) 被成功的应用在刻画序列信息。因为论文中主要采用GRU,下面简单介绍下GRU.(LSTM 详解参加博客:Understanding LSTM Networks) 原文链接:https://zhuanlan.zhihu.com/p/30720579?group_id=910073604973465600 via: http://mp.weixin.qq.com/s?__biz=MzA4NDEyMzc2Mw==&mid=2649678317&idx=2&sn=6b0c0fe4659ec6580733c536c1a3783e&scene=0#wechat_redirect
http://47.93.113.146:6656/api/v1/image?url=http://mmbiz.qpic.cn/mmbiz_jpg/6PqHI4vHibfXPDtxCFc6JfIA6TEILOxDVNyibX9F5NvZGAE0vycKKcKITfuk6nLsicm11guuROSrok5cOJUvOnhFw/0?wx_fmt=jpeg



wx:   网页链接 2017-11-05 21:03
会议活动 深度学习 视觉 算法 资源 Chris Rowen GPU PDF 行业动态 何恺明 华先胜 会议 活动贾佳亚 贾扬清 论文 神经网络 孙剑 智能汽车
「【11分钟训练完ImageNet】DNN训练再破纪录,1024 CPU Caffe开源」 【AI WORLD 2017世界人工智能大会倒计时 3 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到阿里巴巴副总裁、iDST副院长华先胜,旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com新智元报道来源:arXiv.org编译:费欣欣    编辑:闻菲【新智元导读】此前,伯克利、TACC和UC戴维斯的研究人员使用新算法,在24分钟内训练完AlexNet,1小时训练完ResNet,创下了纪录。现在,他们继续推进,使用1024个CPU,在11分钟内训练完AlexNet,48分钟训练完ResNet-50。研究人员表示,源代码不久后将在Intel Caffe发布。 先来看论文摘要: 自创建以来,ImageNet-1k基准测试集被用于确定各种深度神经网络(DNN)模型分类的精度,作为基准发挥了重要的作用。近年来,它也成为评估不同的DNN训练方法的主要标准。 使用单块NVIDIA M40 GPU,在ImageNet-1k训练ResNet-50(90-epoch)需要14天的时间。训练总共需要10^18次单精度运算。另一方面,目前世界上最快的超级计算机,每秒可以完成2*10^17次单精度运算。如果能够充分利用超级计算机训练DNN,我们应该能够在5秒内训练完ResNet-50(ImageNet-1k,90-epoch)。 为了弥补性能的差距,一些研究人员已经把工作重点放在探索如何有效利用大规模并行处理器训练深度神经网络上面。大多数扩展ImageNet训练的成功方法,都使用了同步随机梯度下降(SGD)。但是,为了扩展同步SGD,必须增加每次迭代中使用的批量的大小。 因此,对许多研究人员而言,扩展DNN训练,实际上就成了开发方法,确保在不降低精度的前提下,增加固定epoch数据并行同步SGD中的批量大小。 过去的两年里,我们已经看到批量大小以及成功使用的处理器数量,从1K批次/128个处理器,增加到8K批次/256个处理器。最近发表的LARS算法将一些DNN模型的批量进一步增加到了32K。继这项工作之后,我们希望弄清LARS是否可以用来进一步扩大DNN训练中有效使用的处理器的数量,从而进一步缩短训练的总时间。 在本文中,我们介绍了这次调查的结果:使用LARS,我们能够在11分钟内有效利用1024个CPU训练完AlexNe(ImageNet,100-epoch),并在48分钟内训练完ResNet-50(ImageNet,90-epoch),批量大小为32K。 此外,当我们将批量增加到20K以上时,我们的准确性远远高于Facebook同等批量大小的准确率。如果需要,可以联系我们提供源代码。代码不久后将在Intel Caffe发布。 Facebook 256颗GPU,1小时训练完ImageNet 此前新智元报道过, Facebook的人工智能实验室(FAIR)与应用机器学习团队(AML)合作,提出了一种新的方法,大幅加速机器视觉任务的模型训练,用1小时训练完了ImageNet。 为了克服minibatch过大的问题,Facebook团队使用了一个简单的、可泛化的线性缩放规则调整学习率(learning rate)。为了成功应用这一规则,他们在训练中增加了一个预热阶段(warm-up phase)——随着时间的推移,逐渐提高学习率和批量大小,从而帮助保持较小的批次的准确性。在训练开始时使用较低的学习率,克服了早期的优化困难。重要的是,这种方法不仅符合基线验证误差,还产生与了比较小的minibatch基准线匹配的训练误差曲线。 作者在论文中写道,他们提出的这种简单通用的技术,能够将分布式同步 SDG minibatch 大小最多扩展到 8k 张图像,同时保持 minibatch 训练前 Top-1 位的错误率不变。 用这种方法,他们能够为一个小批量为 8192 张的图像,保持小批量大小 256 图像大致相同的错误率。 “对于所有大小的 minibath,我们将学习率设置为 minibatch 的线性函数,并对前几个训练时期(epoch)应用一个简单的预热(warm-up)。所有其他超参数保持固定。使用这种简单的方法,我们的模型精度对于 minibatch 尺寸是不变的。这项技术使我们可以在线性拓展 minibatch 大小的情况下,以高达 90% 的 efficiency 减少训练时间,在 1 小时内在 256 颗 GPU 上训练出了精确的 ResNet-50 模型,minibatch 大小为 8k。” 快速训练视觉模型应用意义重大,这项工作出来以后引发了一个小小的轰动——不仅仅是因为论文作者包括贾扬清和何恺明,更是因为使用了256颗GPU(32台英伟达DGX-1工作站),硬件价格高达410万美元,令人咋舌。 24分钟训练完ImageNet,硬件仅需120万美元 但很快,Facebook 1 小时训练完ImageNet的记录就被刷新。伯克利、TACC和UC戴维斯的研究人员使用新的算法,报告称在24分钟内训练完了ImageNet(AlexNet,100-epoch)。 伯克利、TACC和UC戴维斯的研究人员报告称在24分钟内训练完了ImageNet。 他们将批量大小扩展到32k,使用英特尔KNL,硬件费用120万美元。 同时,研究人员表示,他们仅使用了120万美元的硬件,相比Facebook的410万美元便宜了3倍多。 虽然相比Facebook确实节省了不少,但120万美元的硬件设施还是引来不少吐槽。 正如上文介绍,Facebook的Goyal等人提出了预热策略来应对大批量难以优化的问题。然而,伯克利、TACC和UC戴维斯的研究团队发现,预热策略也有局限。当设置AlexNet的批量大于1024或ResNet-50的批量大小大于8192时,测试精度将显着降低。 于是,他们提出了一种新的算法,LARS(Layer-wise Adaptive Rate Scaling,层自适应率缩放)。这实际上是一种新的更新学习率的规则。在训练时,每个层都有自己的权重和梯度,标准SGD算法对所有层使用相同的学习率,但伯克利、TACC、UC戴维斯的研究人员在实验中观察到,不同的层可能需要不用的学习率,这也是算法“层自适应率缩放”名称的由来。 LARS算法使他们在不损失精度的条件下,将批量大小扩展到32k。实验结果证明,LARS可以帮助ResNet-50保持高的测试精度。作者在论文中写道,“我们的ResNet-50基线的准确性略低于最先进的结果(73%对76%),因为我们没有使用数据增强。对于没有数据增强的版本,我们可以得到最先进的精度(90-epoch,73%)”。 在论文最后,作者指出,我们不隶属于英特尔或NVIDIA,我们对GPU或KNL也没有任何偏好,我们只想表明可以用更少的预算(便宜3.4倍)实现相同的效果。 更进一步:11分钟训练完AlexNet,48分钟训练完ResNet-50 继这项工作之后,很自然地,伯克利、TACC和UC戴维斯的这些研究人员希望弄清,LARS算法是否可以用来进一步扩大DNN训练中有效使用的处理器的数量,从而进一步缩短训练的总时间。 于是这一次,他们使用CPU(总共1024个Intel Skylake),11分钟训练完AlexNet(ImageNet,100-epoch),48分钟训练完ResNet-50(ImageNet,90-epoch)。512个KNL的结果,24分钟训练完AlexNet,60分钟训练完ResNet-50。 在报告中,研究人员表示,他们采用模型并行,使用LARS算法(You,Gitman和Ginsburg,2017)和预热方案(Goyal等,2017)来扩大批量大小。使用这两种方法,批量大的同步SDG可以达到与基准相同的精度。为了扩展到AlexNet模型的批量(例如扩大到32k),他们将LRN改变为批量规范化(BN,batch normalization),在每个卷积层之后添加BN。 下图是批量大小=32K的结果,将AlexNet模型中的LRN改变为RN。11分钟完成。精度与基准相当。 下图则是训练ResNet-50的结果,使用了数据增强,方法与Facebook(He等,2016年)一样。48分钟完成。精度与基准相当。 目标:朝5秒钟训练完ImageNet进发 对于深度学习应用,更大的数据集和更大的模型会让准确性有显着提高,但这样做的代价是需要花费更长的训练时间。 而诸如计算金融,自动驾驶,石油和天然气勘探和医学成像等许多应用,几乎肯定需要数十亿规模的训练元素和TB级的训练数据集。 因此,加速深度神经网络训练是非常有意义的研究课题。而在保持训练和泛化精度的同时,扩大批量大小,加速DNN训练,对分布式学习尤其有意义。再加上代码即将开源,其他研究人员和开发者也可以根据论文中列出的技术,享受类似的增益。 就像伯克利、TACC和UC戴维斯的研究人员在他们摘要中写的一样,目前世界上最快的超级计算机可以完成每秒2*10^17次单精度运算。如果能够充分利用超级计算机训练DNN,我们应该能够在5秒内训练完ResNet-50(ImageNet-1k,90-epoch)。 5秒内训练完ImageNet! 期待那一天的到来。 相关论文 ImageNet Training by CPU: AlexNet in 11 Minutes and ResNet-50 in 48 Minutes https://arxiv.org/pdf/1709.05011v4.pdf Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour https://arxiv.org/pdf/1706.02677.pdf ImageNet Training in 24 Minutes https://www.researchgate.net/publication/319875600_ImageNet_Training_in_24_Minutes 深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票! 【AI WORLD 2017世界人工智能大会倒计时 3 天】点击图片查看嘉宾与日程。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652007287&idx=1&sn=f7ca032ff2fcbf7a1b6893c141bb97d1&scene=0#wechat_redirect
http://47.93.113.146:6656/api/v1/image?url=http://mmbiz.qpic.cn/mmbiz_jpg/UicQ7HgWiaUb3ibJ4dTDsg0jEFaKkyVRREosZURK0CXSNMxQPqLBORhAc6yekok8C0BMQMrYriagGv6699KU7mKVrg/0?wx_fmt=jpeg



wx:   网页链接 2017-11-05 21:03
会议活动 深度学习 视觉 算法 资源 自然语言处理 Aurelio Ranzato Chris Rowen James VincentPDF 行业动态 华先胜 会议 活动 机器翻译 贾佳亚 论文 数据 孙剑
「Facebook最新对抗学习研究:无需平行语料库完成无监督机器翻译」 【AI WORLD 2017世界人工智能大会倒计时 3 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到阿里巴巴副总裁、iDST副院长华先胜,旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com新智元推荐来源:雷克世界作者:James Vincent    编译:马文【新智元导读】Facebook试图将机器翻译的成功扩展到低资源语言对,研究了在没有任何平行数据的情况下,实现无监督的机器翻译。他们提出的模型有效地学习了在不使用任何标记数据的情况下进行翻译。论文下载链接:https://arxiv.org/pdf/1711.00043.pdf 原文来源:arxiv作者:Guillaume Lample、Ludovic Denoyer、Marc’Aurelio Ranzato「雷克世界」编译:嗯~阿童木呀、多啦A亮相信大家都知道,最近在机器翻译领域取得了令人印象深刻的成果,而这主要归功于最近在深度学习方面所取得巨大进步,以及大规模平行语料库(large-scale parallel corpora)的可用性。我们已经进行过无数次尝试,试图将这些成功扩展到低资源语言对,但这需要数以万计的并行句子。在这项研究中,我们把这个研究方向做到了极致,并研究了在没有任何平行数据的情况下,是否有可能学习翻译?我们提出构建一种模型,它用两种不同的语言从单语语料库(monolingual corpora)中提取句子,然后将它们映射到相同的潜在空间中。通过学习从这个共享的特征空间中以两种语言进行重构,该模型有效地学习了在不使用任何标记数据的情况下进行翻译。我们在两个广泛使用的数据集和两个语言对上对模型进行演示,结果显示,BLEU分数高达32.8,而在在训练期间甚至没有使用一个平行句。得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。然而,这些模型只有在提供大量的并行数据,即大约数百万个并行句子的情况下,才能很好地运行。不幸的是,并行语料库的构建成本是非常高的,因为这需要专门的专业知识,而且通常对于低资源语言来说是不可能的。相反,单语数据更容易找得到,而且许多具有有限并行数据的语言仍然拥有大量的单语数据。在半监督环境中,我们已经进行了多次尝试,试图利用单语数据来提高机器翻译系统的质量。最值得注意的是,Sennrich 等人于2015年提出了一个非常高效的数据增强方案,我们称之为“回译(back-translation)”,即从目标语言到源语言的辅助翻译系统首先在可用的并行数据上进行训练,然后用于从大的目标端的单语语料库中生成翻译。然后将这些翻译的组成对以及与其相对应的参考目标(ground truth targets)用作原始翻译系统的附加训练数据。另一种在目标端使用单语数据的方式是用语言模型来增强解码器(Gulcehre等人于2015年提出)。最后,Cheng等人(于2016年)、He等人(于2016年)提出在单语数据上增加一个辅助自动编码任务,这样就可以保证翻译后的句子可以再次被回翻成原文。但是,所有这些研究依然依赖于数万个平行的句子。之前关于零资源(zero-resource)机器翻译的研究也依赖于标记信息,它们不是来自于那些有用的语言对,而是其他相关的语言对(Firat等人于2016年、Johnson等人于2016年、Chen等人于2017年提出)或其他形式的语言对(Nakayama 和 Nishida于2017年、Lee等人于2017年提出)。唯一的例外就是Ravi和Knight(于2011年)、 Pourdamghani和Knight(于2017年)所进行的研究,他们将机器翻译问题简化为解密问题。不幸的是,他们的方法局限性在于只适用于相当短的句子,而且它只是在一个非常简单的环境中得以证明的,包括那些最常见的短句子或者是非常接近的语言中。 图1:原理简笔图,用以指导我们设计目标函数。左(自动编码):模型被训练,以便基于其噪声版本重建一个句子。其中,x是目标,C(x)是噪声输入,x^是重建。右(翻译):模型被训练用以翻译另一个领域的句子。其中输入是在前一次迭代(t),y = M(t)(x)处由模型本身M产生的噪声翻译(在这种情况下,翻译顺序为从源到目标(from source-to-target))。该模型是对称的,我们在其他语言中将重复相同的过程。在本文中,我们研究是否可以训练一个通用的机器翻译系统,而不需要任何形式的监督。我们所做的唯一假设是每种语言都存在一个单语语料库。这个假设有两个有趣的原因。 首先,当我们遇到一个我们没有注释的新语言对,就可以使用它。其次,它对任何好的半监督方法预期会产生一个强大的下界表现。 关键点是在两种语言(或领域)之间建立一个共同的潜在空间,并根据两个原则通过在两个领域进行重构来学习翻译:(1)模型必须能够从噪声版本中以给定的语言重构句子,如在标准去噪自动编码器中。(2)该模型还学习了在目标域中对同一句子进行有噪的翻译时重构任何源语句,反之亦然。对于(2),翻译的句子通过使用回译程序获得,即通过使用学习模型将源句子翻译成目标域来获得翻译后的句子。除了这些重构目标之外,我们还使用对抗正则化术语将源句子和目标句子的潜在表示限制为相同的分布,由此模型试图欺骗鉴别器,该鉴别器被同时训练以识别给定的潜在句子表示的语言。然后迭代地重复这个过程,从而产生高质量的翻译模型。为了保持我们的方法完全无监督,我们初始化我们的算法,通过使用一个基于从同一单语数据衍生出双语词汇的句子逐字翻译的无监督翻译模型。 虽然无法与使用大量并行资源的有监督方法进行竞争,但我们在第4部分中展示了我们的模型能够实现卓越的性能。例如,在WMT数据集上,在对100000对句子进行完全监督的机器翻译系统中,我们可以达到同样的翻译质量。在Multi30K-Task1数据集中,我们在所有语言对上实现了22以上的BLEU值,英翻法BLEU值达到32.76。 接下来,在第2部分中,我们将描述模型和训练算法。然后我们在第四部分给出实验结果。最后,我们在第五部分进一步讨论相关工作,并在第六部分总结我们的发现。 我们提出了一种新的神经机器翻译方法,其中翻译模型仅使用单语言数据集学习,句子或文档之间没有任何对齐。这个方法的原理是从一个简单的无监督逐字翻译模型开始,并基于重构损失迭代地改进这个模型,并且使用鉴别器来对齐源语言和目标语言的潜在分布。我们的实验表明,我们的方法能够在没有任何监督的情况下学习有效的翻译模型。 本文经授权转载自雷克世界:ROBO_AI,特此感谢! 深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票!【AI WORLD 2017世界人工智能大会倒计时 3 天】点击图片查看嘉宾与日程。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652007287&idx=4&sn=3fecaabbd490e2895952f736e92097d5&scene=0#wechat_redirect
http://47.93.113.146:6656/api/v1/image?url=http://mmbiz.qpic.cn/mmbiz_jpg/UicQ7HgWiaUb3ibJ4dTDsg0jEFaKkyVRREoKtw5xW11EoLGp9Wghuf86O5bYwQlYDsc4FB0c25icYfaiafHN4AviaMLQ/0?wx_fmt=jpeg



http://tva3.sinaimg.cn/crop.0.0.227.227.50/005SiNxyjw8f6nd2g4erxj306g06c74g.jpg 稀土掘金   网页链接 2017-11-05 12:18
应用 推荐系统
Spotify 每周推荐功能:基于机器学习的音乐推荐[小黄人高兴]来掘金看原文→http://t.cn/RlMn8SG ​
http://wx1.sinaimg.cn/large/005SiNxygy1fl50xdgw9qj30a0ab9npd.jpg



最新动态
wx:   网页链接 2017-11-05 21:03
会议活动 深度学习 视觉 算法 应用 资源 Chris Rowen Geoffrey Hinton GPU ICLR KaggleNIPS PDF Python Yann Lecun 代码 广告系统 行业动态 华先胜 会议 活动 贾佳亚 可视化 论文 神经网络 孙剑
「【前沿】TensorFlow Pytorch Keras代码实现深度学习大神Hinton NIPS2017 Capsule论文」 【AI WORLD 2017世界人工智能大会倒计时 3 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到阿里巴巴副总裁、iDST副院长华先胜,旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com新智元推荐来源:专知 【新智元导读】10月26日,深度学习元老Hinton的NIPS2017 Capsule论文《Dynamic Routing Between Capsules》终于在arxiv上发表。今天相关关于这篇论文的TensorFlowPytorchKeras实现相继开源出来,让我们来看下。 论文地址:https://arxiv.org/pdf/1710.09829.pdf 摘要:Capsule 是一组神经元,其活动向量(activity vector)表示特定实体类型的实例化参数,如对象或对象部分。我们使用活动向量的长度表征实体存在的概率,向量方向表示实例化参数。同一水平的活跃 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测相同时,更高级别的 capsule 变得活跃。我们展示了判别式训练的多层 capsule 系统在 MNIST 数据集上达到了最好的性能效果,比识别高度重叠数字的卷积网络的性能优越很多。为了达到这些结果,我们使用迭代的路由协议机制:较低级别的 capsule 偏向于将输出发送至高级别的 capsule,有了来自低级别 capsule 的预测,高级别 capsule 的活动向量具备较大的标量积。 Python 3PyTorchTorchVisionTorchNetTQDMVisdom第一步 在capsule_network.py文件中设置训练epochs,batch size等Step 2 开始训练. 如果本地文件夹中没有MNIST数据集,将运行脚本自动下载到本地. 确保 PyTorch可视化工具Visdom正在运行。经过30个epoche的训练手写体数字的识别率达到99.48%. 从下图的训练进度和损失图的趋势来看,这一识别率可以被进一步的提高 。采用了PyTorch中默认的Adam梯度优化参数并没有用到动态学习率的调整。 batch size 使用100个样本的时候,在雷蛇GTX 1050 GPU上每个Epochs 用时3分钟。 扩展到除MNIST以外的其他数据集。 主要借鉴了以下两个 TensorFlow 和 Keras 的实现:Keras implementation by @XifengGuoTensorFlow implementation by @naturomicsMany thanks to @InnerPeace-Wu for a discussion on the dynamic routing procedure outlined in the paper. PythonNumPyTensorflow (I'm using 1.3.0, not yet tested for older version)tqdm (for displaying training progress info)scipy (for saving image)*第一步 * 用git命令下载代码到本地.第二步 下载MNIST数据集(http://yann.lecun.com/exdb/mnist/), 移动并解压到data/mnist 文件夹(当你用复制wget 命令到你的终端是注意渠道花括号里的反斜杠)第三步 开始训练:tqdm包并不是必须的,只是为了可视化训练过程。如果你不想要在train.py中将循环for in step ... 改成 ``for step in range(num_batch)就行了。错误的运行结果(Details in Issues #8):training losstest accResults after fixing Issues #8:关于capsule的一点见解一种新的神经单元(输入向量输出向量,而不是标量)常规算法类似于Attention机制总之是一项很有潜力的工作,有很多工作可以在之上开展 完成MNIST的实现Finish the MNIST version of capsNet (progress:90%)在其他数据集上验证capsNet调整模型结构一篇新的投稿在ICLR2018上的后续论文(https://openreview.net/pdf?id=HJWLfGWRb) about capsules(submitted to ICLR 2018)Kerasmatplotlib第一步 安装 Keras:$ pip install keras第二步 用 git命令下载代码到本地.第三步 训练:一次迭代训练(default 3).$ python capsulenet.py --num_routing 1其他参数包括想 batch_size, epochs, lam_recon, shift_fraction, save_dir 可以以同样的方式使用。 具体可以参考 capsulenet.py假设你已经有了用上面命令训练好的模型,训练模型将被保存在 result/trained_model.h5. 现在只需要使用下面的命令来得到测试结果。将会输出测试结果并显示出重构后的图片。测试数据使用的和验证集一样 ,同样也可以很方便的在新数据上验证,至于要按照你的需要修改下代码就行了。如果你的电脑没有GPU来训练模型,你可以从https://pan.baidu.com/s/1hsF2bvY下载预先训练好的训练模型主要结果运行 python capsulenet.py: epoch=1 代表训练一个epoch 后的结果 在保存的日志文件中,epoch从0开始。 损失和准确度:一次常规迭代后的结果运行 python CapsNet.py --num_routing 1每个 epoch 在单卡GTX 1070 GPU上大概需要110s 注释: 训练任然是欠拟合的,欢迎在你自己的机器上验证。学习率decay还没有经过调试, 我只是试了一次,你可以接续微调。测试结果运行 python capsulenet.py --is_training 0 --weights result/trained_model.h5模型结构: Kaggle (this version as self-contained notebook):MNIST Dataset running on the standard MNIST and predicting for test dataMNIST Fashion running on the more challenging Fashion images.TensorFlow:naturomics/CapsNet-TensorflowVery good implementation. I referred to this repository in my code.InnerPeace-Wu/CapsNet-tensorflowI referred to the use of tf.scan when optimizing my CapsuleLayer.LaoDar/tf_CapsNet_simplePyTorch:nishnik/CapsNet-PyTorchtimomernick/pytorch-capsulegram-ai/capsule-networksandreaazzini/capsnet.pytorchleftthomas/CapsNetMXNet:AaronLeong/CapsNet_MxnetLasagne (Theano):DeniskaMazur/CapsNet-LasagneChainer:soskek/dynamic_routing_between_capsuleshttps://github.com/gram-ai/capsule-networks https://github.com/naturomics/CapsNet-Tensorflowhttps://github.com/XifengGuo/CapsNet-Keras 本文经授权转载自专知:Quan_Zhuanzhi,特此感谢! 深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票!【AI WORLD 2017世界人工智能大会倒计时 3 天】点击图片查看嘉宾与日程。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:via: http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652007287&idx=3&sn=925104d96496ce0674da52a954f3fbb6&scene=0#wechat_redirect
http://47.93.113.146:6656/api/v1/image?url=http://mmbiz.qpic.cn/mmbiz_jpg/UicQ7HgWiaUb3ibJ4dTDsg0jEFaKkyVRREow5miaFIepeQSnsd8ySZpHe3QD89yCNbKkqBF6u2LIBiaicibRZhKMeWzjQ/0?wx_fmt=jpeg



http://tva3.sinaimg.cn/crop.3.3.196.196.50/683420e1jw8fd2d89d5urj205o05oq35.jpg IT技术头条   网页链接 2017-11-05 12:48
入门 资源 课程
【Andrew 机器学习课程笔记】Andrew 机器学习课程笔记 完成 Andrew 的课程结束至今已有一段时间,课程介绍深入浅出,很好的解释了模型的基本原理以及应用。在我看来这是个很好的入门视频,他老人家现在又出了一门 deep lea... 详戳→ http://t.cn/RlMgE62 作者→ (.....?) ​




http://tva2.sinaimg.cn/crop.10.34.646.646.50/5396ee05jw1ena6co8qiwj20sg0izjxd.jpg 爱可可-爱生活   网页链接 2017-11-05 11:00
深度学习 算法 应用 代码 分类 信息检索
'PyTorch-CTC - an implementation of CTC (Connectionist Temporal Classification) beam search decoding for PyTorch' by Parlance GitHub: https://github.com/parlance/pytorch-ctc ​
http://wx1.sinaimg.cn/large/5396ee05ly1fl70ytjeg2j20hq0dbgpe.jpg



http://tva3.sinaimg.cn/crop.3.3.196.196.50/683420e1jw8fd2d89d5urj205o05oq35.jpg IT技术头条   网页链接 2017-11-05 10:02
算法 应用 矩阵 推荐系统
【基于矩阵分解的推荐系统】简介 推荐系统产生推荐列表的方式通常有两种:协同过滤以及基于内容推荐,或者基于个性化推荐。协同过滤方法根据用户历史行为(例如其购买的、选择的、评价过的物品等)结合其他用户的相似决策建立模型。这种模型可用于... 详戳→ http://t.cn/RlMhYs8 作者→ (学会思考の...全文: http://m.weibo.cn/1748246753/4170664313365850 ​




http://tva2.sinaimg.cn/crop.10.34.646.646.50/5396ee05jw1ena6co8qiwj20sg0izjxd.jpg 爱可可-爱生活   网页链接 2017-11-05 07:43
算法 自然语言处理 代码 机器翻译 神经网络
【哈佛OpenNMT开源神经网络机器翻译TensorFlow版】’OpenNMT-tf - Open Source Neural Machine Translation in TensorFlow' GitHub: https://github.com/OpenNMT/OpenNMT-tf ​
http://wx1.sinaimg.cn/large/5396ee05ly1fl6v9jbxp4j21fo180tik.jpg



http://tva2.sinaimg.cn/crop.0.0.180.180.50/663aa05ajw1e8qgp5bmzyj2050050aa8.jpg 网路冷眼   网页链接 2017-11-05 07:00
深度学习
【Pyro: PyTorch-Based Deep Universal Probabilistic Programming】http://t.cn/Rl5vcBL Pyro:基于PyTorch的深度通用概率编程。 ​
http://wx1.sinaimg.cn/large/663aa05agy1fl673kgm0mj21gt0pugsy.jpg



http://tva2.sinaimg.cn/crop.10.34.646.646.50/5396ee05jw1ena6co8qiwj20sg0izjxd.jpg 爱可可-爱生活   网页链接 2017-11-05 06:48
深度学习 Neil Tan 代码
【uTensor:TensorFlow嵌入式极轻量深度学习推理框架(TensorFlow on 256K RAM microcontroller)】’uTensor - extreme light-weight Deep-Learning Inference framework built on mbed and Tensorflow' by Neil Tan GitHub: https://github.com/neil-tan/uTensor ​
http://wx1.sinaimg.cn/large/5396ee05ly1fl6tns5lfpj20lv0b1dhu.jpg




页: [1]
查看完整版本: AI100_机器学习日报 2017-11-05 聊天机器人Chatbot知识资料全集(入门/进阶/论文/软件/数据/专...