机器学习日报 2015-05-19 NLP路线图；开源机器翻译系统；VALSE2015 Slide；大数据综述

解应春BW · 发表于 2015-5-20 09:55:14

机器学习日报 2015-05-19

内容更丰富，链接可点击的加长版见 http://memect.co/ml-list-2015-05-19
(29条最新动态+焦点, 12条温故知新)

订阅：给 hao@memect.com 发封空信，标题: 订阅机器学习日报或点击

用日报搜索找到以前分享的内容： http://ml.memect.com/search/

the王晗网页版 2015-05-19 09:47
经验总结自然语言处理博客机器翻译李维
李维老师科学网博文:《自然语言处理领域中的语义路线及其代表人物》 "可以预见，将来某个时候，当机器翻译和自然语言理解的应用项目穷尽了浅层可用的低枝果实之后，知识系统将会被进一步发掘、利用和欣赏。"http://t.cn/R22VZMw

翻译驴网页版 2015-05-19 22:03
自然语言处理机器翻译
推荐一个代码可读性好一点的开源机器翻译系统cdec。http://t.cn/R2LxPyY 缺点是几乎没有文档。不过能读懂代码就行了，文档这事儿可以没有。

视觉机器人网页版 2015-05-19 17:14
视觉应用资源幻灯片机器人
VALSE2015（计算机视觉、图像处理、模式识别与机器学习）成都大会（5月8至10日）的特邀报告摘要信息：http://t.cn/RzzVtce 。报告slides下载地址：http://t.cn/R22D0M6 。都是知名学者啊。

hashjoin 网页版 2015-05-19 13:36
架构资源 Spark 幻灯片
上个月在Berkeley的数据库课讲了大数据综述，今天在Stanford的分布式数据系统课上讲了一下Spark。因为Spark可以讲的东西实在太多，而学生大多数对这个系统还不了解，从简介开始到fault-tolerance，再到上层的流计算，机器学习等库，最后讲到内部实现。幻灯片和大家分享一下。http://t.cn/R22j2Bb

hashjoin 网页版转发于2015-05-19 14:03
因为slideshare被墙了，把幻灯片上传到了github上： http://t.cn/R22T0OY 这里涵盖了近半年比较有价值的几个演讲，从程序界面设计到大数据演义到Spark未来趋势。 http://t.cn/R22T0OY

io-monad 网页版转发于2015-05-19 15:19 回复 @米勒云 “What is RDD abstraction?”
回复@米勒云: RDD stands for Resilient Distributed Datasets, operations on it are not directly applied to the underlying data, but the operations are recorded as a AST. So, it's essentially a free monad.

李沐M 网页版 2015-05-19 11:16
算法资源代码课程
#dmlc# 第二弹！借助dmlc的分布式数据读写、启动、和通讯模块，从无到有几天写了一个异步SGD。用5台AWS机器在Criteo CTR数据集（40亿样本，8亿特征）上训练稀疏LR，每秒可以处理一千万样本，整个数据集可以十分钟内训练完。手把手教程重复实验 http://t.cn/R22Xi5X 更多文档 http://t.cn/R22Xi5a

李沐M 网页版转发于2015-05-19 11:22
实现就几百行代码，非常简单 http://t.cn/R22Xdha 还有很多有意思的算法想实现，欢迎更多小伙伴加入[嘻嘻]

陈天奇怪网页版转发于2015-05-19 12:16 回复 @龙星镖局 “少帅，第一弹在哪里？”
这个是继xgboost之后dmlc第二个分布式机器学习程序，基于parameter server。复用了dmlc核心的库函数。可以直接在YARN, MPI等各个平台下运行

陈天奇怪网页版转发于2015-05-19 13:07
这个东西有几个隐藏技术亮点/难点：支持自动特征重映射，做特征工程不需要拿到映射到连续地址的特征，直接哈希到32位就好了。因为SGD带来的大量通信。内存瓶颈，要处理超过内存的数据。困难程度比起映射好特征的batch的分布式还多了很多