解应春BW 发表于 2015-11-3 13:29:33

机器学习日报 2015-11-02 学术搜索引擎Semantic Scholar;对Spark LDA算法的改进;相似性度量

机器学习日报 2015-11-02
[*]Spark GraphX在淘宝的实践 @刘凯HKBU
[*]专门针对科学家设计的学术搜索引擎Semantic Scholar @王威廉
[*]蒙特利尔深度学习夏令营视频 @王威廉
[*]大规模主题模型:对Spark LDA算法的改进 @网路冷眼
[*]机器学习中的相似性度量 @数据分析招聘

@好东西传送门 出品, 过往目录 见http://ml.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅机器学习日报

邮件版包括20条,本期的Web版有完整内容23条
用日报搜索找到以前分享的内容: http://ml.memect.com/search/今日焦点 (5)
http://tp1.sinaimg.cn/1871947984/50/40050979933/1 刘凯HKBU 网页链接 2015-11-02 10:01
架构 算 法 Spark
快刀初试:Spark GraphX在淘宝的实践 - 由于Spark GraphX性能良好,又有丰富的功能和运算符,能在海量数据上自如运行复杂的图算法,淘宝尝试将它作为分布式图计算平台,进行各种算法尝试和生产应用。本文结合GraphX的原理和特点,分享其在淘宝的应用实践。 http://t.cn/RPNX0rR
http://ww1.sinaimg.cn/large/6f93a8d0jw1exmefhr0gjj208q04xt8y.jpg



http://tp4.sinaimg.cn/1657470871/50/5676743531/1 王威廉 网页链接 2015-11-02 23:08
应用 信息检索
保罗艾伦人工智能实验室表示,Google Scholar是十年前的产物,他们现在想要做进一步的提高。于是推出了全新的,专门针对科学家设计的学术搜索引擎Semantic Scholar:http://t.cn/RUxC6lS 报道:http://t.cn/RUxC6lX
http://ww2.sinaimg.cn/large/62caff97gw1exn16vytz7j20wy0cwjuv.jpg



http://tp4.sinaimg.cn/1657470871/50/5676743531/1 王威廉 网页链接 2015-11-02 23:03
深度学习 视觉 资源 Adam Coates Christopher Manning Ian Goodfellow Leon Bottou Mark Schmidt Phil Blunsom Richard SocherRuslan Salakhutdinov Yoshua Bengio 视频
蒙特利尔深度学习夏令营视频全集在线观看。http://t.cn/RyImHId 包括Léon Bottou, Yoshua Bengio, Honglak Lee, Christopher Manning, Ruslan Salakhutdinov, Adam Coates, Phil Blunsom, Ian Goodfellow, Richer Socher, Mark Schmidt等。




http://tp3.sinaimg.cn/1715118170/50/5653230631/1 网路冷眼 网页链接 2015-11-02 11:58
架构 算 法 自然语言处理 S park 语言学 主题模型
【大规模主题模型:对Spark LDA算法的改进】为了关注分布式计算,该阅读哪些资讯文章呢?这些问题都能够被话题模型所解答。本文将要讨论Spark 1.4和1.5使用强大的隐含狄利克雷分布 (Latent Dirichlet Allocation,LDA)算法对话题模型的性能提升。 http://t.cn/RUM9scM
http://ww2.sinaimg.cn/large/663aa05ajw1exmht2efsjj20bo023dg3.jpg



http://tp2.sinaimg.cn/2354708773/50/5610762870/1 数据分析招聘 网页链接 2015-11-02 10:16
相似度量
机器学习中的相似性度量 | 一起大数据 分享交流统计、数据分析、数据挖掘、大数据相关的理论和案例,组织专题交流聚会。 @数思网 @数据小兵 @零售创新 http://t.cn/RUMOIc3
http://ww4.sinaimg.cn/large/8c5a0125jw1exmeuxkx4oj20b40auq3c.jpg



最新动态
http://tp1.sinaimg.cn/2536116592/50/5716095299/0 iB37 网页链接 2015-11-02 23:37
会议活动 资源 ICML PDF Vladimir Vapnik 会议 教育网站 课程 书籍
#免费电子书#1)<Semi-Supervised Learning,MIT06>Chapelle.篇篇都是经典,作者包括Vapnik,Bengio,Lafferty,Jordan http://t.cn/RUxponL 2)半监督学习教程ICML07,ACL08,Chicago09,<Introduction to Semi-Supervised Learning,MC09>Zhu http://t.cn/zWjKo55
http://ww4.sinaimg.cn/large/972a1170jw1exn1mg7bcfj20zx0kzwiq.jpg



http://tp1.sinaimg.cn/1651843872/50/40048616024/1 题叶 网页链接 2015-11-02 22:58
进化计算 算法 Ruby Twitter 神经网 络
Skynet for Beginners - Using a Neural Network to Train a Ruby Twitter bot http://t.cn/RUM9gbt 没看明白, 中间的神经网络, 反向冒泡的数据, 怎么计算的? 看上去好简单的样子, 像遗传算法似的.




http://tp3.sinaimg.cn/1914450674/50/5644229416/1 孙明明_SmarterChina 网页链接 2015-11-02 22:12
算法 自然语言处理 主题模型
攒机才显现真功夫。机器学习系统尤其如此。怎么把一堆性能很烂的方法「比如topic model,聚类」,和一些噪声很大的特征信号整合起来,做成一个可上线,可持续改进的系统,真正考验对问题领域的理解,对方法的把握。这不是几个开源软件,或买几个算法包能解决的。大飞机也是如此。集成考验真功夫。




http://tp3.sinaimg.cn/1025887594/50/5737201319/1 AixinSG 网页链接 2015-11-02 21:00
应用 信息检索
The IBM Watson™ Retrieve and Rank service combines two information retrieval components in a single service: the power of Apache Solr and a sophisticated machine learning capability. http://t.cn/RUxxOFj




http://tp2.sinaimg.cn/3306361973/50/22875318196/0 慕课网 网页链接 2015-11-02 16:20
#慕课网分享#【机器学习和数据挖掘推荐书单】本文分享了一些机器学习和数据挖掘推荐书单。对于机器学习和数据挖掘感兴趣的朋友们,一步步揭开它们的神秘面纱吧!全文:http://t.cn/RUMwKm5
http://ww3.sinaimg.cn/large/c5131475jw1exmhru00huj20900bcjrn.jpg



http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-11-02 15:59
知识工程 知识库
【(Microsoft)FB15K-237知识库补全数据集】"FB15K-237 Knowledge Base Completion Dataset - contains knowledge base relation triples and textual mentions of Freebase entity pairs" http://t.cn/RUMsRIe




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-11-02 15:46
深度学习 Clayton S. Bingham Ray Kurzweil
【人工智能、深度学习与Ray Kurzweil的奇点理论】《Artificial Intelligence, Deep Learning, And Ray Kurzweil’s Singularity》by Clayton S. Bingham http://t.cn/RUMFmOL
http://ww4.sinaimg.cn/large/5396ee05jw1exmodhcgpmj20hs0bvgnw.jpg



http://tp3.sinaimg.cn/5648620342/50/5731472374/1 闫安Jon 网页链接 2015-11-02 11:44
深度学习 算法 论文 强化学习
Generating Text with Deep Reinforcement Learning http://t.cn/RUMHRys 用DQN来改善普通的序列到序列学习,具体来说就是每次在当前输出句子中寻找需修改的单词,形成新的输出。相对于普通的从左到右解码,DQN在之前未出现过的句子上表现更好。很有创意的做法[赞]
http://ww4.sinaimg.cn/large/006ah2bIjw1exmhcviotsj30py0bo75k.jpg



http://tp1.sinaimg.cn/1642316384/50/5651361487/1 刘江总编 网页链接 2015-11-02 11:26
韩丁 行业动态
谷歌今天涂鸦是念布尔诞辰200周年。布尔代数是信息时代基础,Boole也是代码中最常见的人名。他5个女儿超牛:老大的儿女韩丁和寒春;老二儿子G.I. Taylor是20世纪最伟大的科学家之一;老三自己是四维几何重要贡献者;老四是英国第一位化学女教授;老五有个中国人更熟悉的名字伏尼契,《牛虻》的作者。
http://ww4.sinaimg.cn/large/61e3c260jw1exmgcxt8z5j20gr06pwf4.jpg

刘江总编 网页链接 转发于2015-11-02 13:36回复 @晓风_机器学习 “布尔还有一个牛逼的玄孙:Geoffr...”
哈哈,的确是的,我的原微博写不下了。所以布尔算起来是深度学习的五世爷爷了,布尔代数是深度学习的……



http://tp2.sinaimg.cn/1793164177/50/5607353696/1 邓亚峰-open 网页链接 2015-11-02 11:16
视觉 论文
关于我们的在人脸检测和人脸识别上面的工作,论文可以参考:http://t.cn/RUMYnfK(识别),http://t.cn/RyXkKpq(检测),这是目前LFW和FDDB上面公布的最好结果。
http://ww2.sinaimg.cn/large/6ae18391jw1exmgk4pob5j20j80eeacm.jpg



http://tp2.sinaimg.cn/5606830237/50/5728452057/1 智家创客联盟 网页链接 2015-11-02 10:46
算法 戴文渊 行业动态
【定位人工智能的 “第四范式”,主攻多维度数据处理】第四范式 CEO 戴文渊曾是百度凤巢系统的负责人,他将目前自己在做的事情归为人工智能,在他看来,人工智能的本质就是汇集到足够多的有效数据,再利用算法对这些数据进行处理,而做企业服务是让数据实现价值的一种渠道。
http://ww1.sinaimg.cn/large/0067rGFLjw1exmfqb06gvj30ki0akjw2.jpg



http://tp2.sinaimg.cn/2354708773/50/5610762870/1 数据分析招聘 网页链接 2015-11-02 10:12
算法 SVM
支持向量机实例讲解 | 一起大数据 分享交流统计、数据分析、数据挖掘、大数据相关的理论和案例,组织专题交流聚会。 @数思网 @数据小兵 @零售创新 http://t.cn/RUMOLud
http://ww4.sinaimg.cn/large/8c5a0125jw1exmerfv21ij20cs0653z7.jpg



http://tp1.sinaimg.cn/1646218964/50/1279883225/1 IT技术博客大学习 网页链接 2015-11-02 07:14
应用 推荐系统
【关键词推荐技术介绍】 本文通过行业对比等角度分析了关键词推荐技术及工具,关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助... 详见:http://t.cn/zQDygwC




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活 网页链接 2015-11-02 05:45
经验总结 算法 Manish Saraswat 博客 回归
【(R)Logistic回归简易指南】《Simple Guide to Logistic Regression in R》by Manish Saraswathttp://t.cn/RUMI4rn
http://ww2.sinaimg.cn/large/5396ee05gw1exm70zqsgij209v07iaa9.jpg



http://tp4.sinaimg.cn/1770891687/50/40086373345/1 phunter_lau 网页链接 2015-11-02 03:08
算法 资 源 回归 课程 数据科学
又给一个安全人员普及了机器学习和数据科学的知识。越来越多安全问题需要用数据来解决,而很多安全人员并不知道自己手上繁复的问题可以用机器快速辅助,同学们动起来吧,先学个机器学习的课,对机器自动辅助数据决策有个理解,写一个logistic regression www.coursera.org/learn/machine-learning


睡眼惺忪的小叶先森 网页链接 转发于2015-11-02 08:45
虽然只在本科时候做过简短的ANTI ROOTKIT折腾,不算研究,更不算安全研究。但是,听说,听说,安全领域「坦白说这个概念太大」并不怎么需要所谓的机器学习,用的最多的还是大量规则,以及撑死简单的LR。楼主这么鼓吹数据科学在安全里的重要性到底是何原因?

phunter_lau 网页链接 转发于2015-11-02 11:04回复 @睡眼惺忪的小叶先森 “以及撑死简单的LR。楼主这么鼓吹...”
越来越多规则是通过机器学习出来的,比如攻击者批量生成C&C随机域名,一次上来五千个,安全人员想挨个抓那就跪了,而机器可以更快速辅助判别,你看攻击者都用机器批量了,安全人员也得靴吸起来



页: [1]
查看完整版本: 机器学习日报 2015-11-02 学术搜索引擎Semantic Scholar;对Spark LDA算法的改进;相似性度量