解应春BW 发表于 2015-7-22 08:35:51

机器学习日报 2015-07-21 LDA算法漫游指南;深度学习对抗样本的八个误解与事实;Machine Learning...

机器学习日报 2015-07-21

[*]LDA算法漫游指南 @数急
[*]深度学习对抗样本的八个误解与事实 @格灵深瞳
[*]How to Generate a Good Word Embedding? @licstar
[*]《语音与语言处理》第三版(草稿) @爱可可-爱生活
[*]Machine Learning for Developers @星空下的巫师

@好东西传送门 出品, 过往目录 见http://ml.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅机器学习日报   或点击点我订阅


本期话题有:全部40 算法14 资源11 深度学习8 自然语言处理7 视觉7 应用6 会议活动5经验总结5 架构2
用日报搜索找到以前分享的内容: http://ml.memect.com/search/今日焦点 (5)


http://tp4.sinaimg.cn/1758081527/50/5720173426/1 数急   网页版 2015-07-20 12:29
算法 资源 书籍 主题模型
《LDA算法漫游指南》新书已经上架(最专业的算法分析,最具实用价值的算法应用):http://t.cn/RLMCKWM






http://tp1.sinaimg.cn/3769368692/50/5730530271/1 格灵深瞳   网页版 2015-07-21 23:21
深度学习 Ian Goodfellow Yoshua Bengio
【深度学习对抗样本的八个误解与事实】http://t.cn/RLJcpje 在kdnuggets此前发布的文章(Deep Learning’s Deep Flaws Deep Flaws)中,深度学习大神Yoshua Bengio和他的博士生、Google科学家Ian Goodfellow在评论中与作者就深度学习对抗样本展开了热烈的讨论。
http://ww2.sinaimg.cn/large/e0ac0074jw1euat3qjl00j20fh071abt.jpg






http://tp2.sinaimg.cn/1255740241/50/40026537497/1 licstar   网页版 2015-07-21 08:22
自然语言处理 论文
论文《How to Generate a Good Word Embedding?》已传arXiv。文章总结了主流词向量模型,并从模型、语料、参数三方面分析生成词向量的要点。论文地址:http://t.cn/RLxX1mZ 中文导读:http://t.cn/RLxX1mw
http://ww4.sinaimg.cn/large/4ad91351jw1eua33xeccrj20c809jq44.jpg




许家铭_CASIA 网页版 转发于2015-07-21 09:16
谢很贴心的附上中文导读,一口气拜读完。不能更赞同语料对词向量的影响。自向量化表示被广泛应用以来,横向评比就不再有公平性。之前在基于word2vec的paragraph2vec上做20类别的聚类任务,调参过程ACC可以10%变化到70%不得说调参也很可怕。


刘知远THU 网页版 转发于2015-07-21 10:41回复 @鲁东东胖
我感觉不是数据越小简单模型越好,而是数据越稀疏简单模型越好。一个大规模数据如果平均每个对象出现次数非常少,应该还是简单模型好。


Copper_PKU 网页版 转发于2015-07-21 21:31
Strategies for Training Large Scale Neural Network Language Models http://t.cn/RLJ4DY9




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 07:56
语音 资源 教育网站 书籍
【《语音与语言处理》第三版(草稿)】《Speech and Language Processing, 3rd edition draft》by Jurafsky and Martin http://t.cn/RLx6jyZ
http://ww4.sinaimg.cn/large/5396ee05jw1eua2cj0o3pj20fk09edgi.jpg






http://tp2.sinaimg.cn/1785748853/50/40004237873/1 星空下的巫师   网页版 2015-07-21 05:56
Mike De Waard
适合码农看的机器学习介绍,长文慎入:Machine Learning for Developers by Mike de Waardhttp://t.cn/RLxMd0q
http://ww2.sinaimg.cn/large/6a705d75jw1eu9yx9ebrkj20k00su771.jpg






最新动态
2015-07-21 (34)


http://tp3.sinaimg.cn/5648620342/50/5731472374/1 闫安Jon   网页版 2015-07-21 21:40
会议活动 深度学习 ICML 会议 期刊
Universal Value Function Approximators http://t.cn/RLJbJQ3 DeepMind出品。先对少量目标学习值函数,再推广到整个目标空间。在吃豆游戏上实验,学会若干次吃掉某一个豆后,可推广到吃掉另一个豆 [汗] 看来要吃完所有豆,DeepMind还有很长的路要走……
http://ww3.sinaimg.cn/large/006ah2bIjw1euaq7778nij30dd0gzmz8.jpg






http://tp3.sinaimg.cn/1715118170/50/5653230631/1 网路冷眼   网页版 2015-07-21 21:38
视觉 资源 Alex Smola 课程
【卡内基梅隆大学课程10-701《机器学习》视频大全】http://t.cn/RLJAMqD 主讲:Alex Smola
http://ww3.sinaimg.cn/large/663aa05ajw1euaju8hiixj216423d1fq.jpg






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 21:17
算法 资源 Kirk Baker PDF 教育网站 矩阵 课程
【SVD教程】《Singular Value Decomposition Tutorial》by Kirk Baker http://t.cn/RLJ4UkR云:http://t.cn/RLJ4UkQ






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 21:06
资源 自然语言处理 视频
【视频:NAACL2015最佳论文《Retrofitting Word Vectors to Semantic Lexicons》】《Retrofitting Word Vectors to Semantic Lexicons》 http://t.cn/RLJUNz8 更多NAACL2015视频请参阅http://weibo.com/1402400261/CsaQ6pTcY






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 20:49
算法 资源 Tamara Broderick 聚类 课程 统计
【教程+代码:非参数贝叶斯统计/狄利克雷过程/组合随机过程特征/聚类】”Nonparametric Bayesian Statistics(MLSS2015)”、”Clusters and features from combinatorial stochastic processes”、”Machine learning crash course part II: clustering” by Tamara Broderickhttp://t.cn/RLJyWly






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 20:41
Guy Lebanon
【新机器学习应用的意外后果和负面影响】《The Unintended Consequences and Negative Impact of New Machine Learning Applications》by Guy Lebanon http://t.cn/RLJy2JU






http://tp2.sinaimg.cn/1254062861/50/5720266459/1 尘绳聋   网页版 2015-07-21 20:32
Kaggle
Kaggle上面又放出了粒子物理的比赛:http://t.cn/RLJLYn1,@phunter_lau 大神来一发~




phunter_lau 网页版 转发于2015-07-21 22:53
不错啊,这次是LHCb给的数据,还是tau的衰变,实验结构和我们对装数据不太一样。LHCb发现重粒子还是很碉堡的,最近那个5夸克的就是他们搞出来的。这个起步价就得0.98,这最终争夺不得是小数点后8位啊




http://tp3.sinaimg.cn/2009557502/50/5615087248/1 HackerNewsDaily   网页版 2015-07-21 19:50
视觉
《Complete Course on Machine Learning》原文:http://t.cn/RLJAMqD HN评论:http://t.cn/RLJAMqk






http://tp4.sinaimg.cn/1688587043/50/5724339270/1 崔康总编   网页版 2015-07-21 19:05
算法 行业动态
随着数据采集技术发展及数据源的日益丰富,数据规模爆炸性增长。机器学习是公认的处理和学习这些数据的最有效手段之一。 面向大数据量的机器学习,通常需要做分布式的算法来容纳上亿特征和数据。百度机器学习专家分享大规模机器学习和数据挖掘方面的话题和研发成果:http://t.cn/RLMOngT
http://ww2.sinaimg.cn/large/64a5cb23gw1eu9mm3c6lbj209u03yjri.jpg






http://tp1.sinaimg.cn/1181564472/50/5714573383/1 ML_Yuens   网页版 2015-07-21 18:24
会议活动 NIPS 会议
NIPS往年(1987-2014)文章下载 | Neural Information Processing Systems Conferencehttp://t.cn/8sYrFqy






http://tp2.sinaimg.cn/3227020453/50/5656309782/1 自动化网官方微博   网页版 2015-07-21 17:46
会议活动 Jieping Ye 活动
#会议预告#【模式识别学术大讲堂学术讲座】于2015年7月23日(星期四)上午10:00在中国科学院自动化研究所智能化大厦三层第一会议室举行,Associate Prof. Jieping Ye (University of Michigan)将做题目为“Exact Data Reduction for Big Data ”的讲座。#模式识别#http://t.cn/RLJvHTL
http://ww2.sinaimg.cn/large/c0586ca5jw1euajf3i5jbj20go09p404.jpg






http://tp1.sinaimg.cn/1181564472/50/5714573383/1 ML_Yuens   网页版 2015-07-21 17:20
深度学习
深度学习和经验主义的胜利 http://t.cn/RLxsbZZ






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 15:41
经验总结 博客 数据科学
【针对大数据/数据挖掘/数据科学工具共同使用情况的调查(挖掘)】《Which Big Data, Data Mining, and Data Science Tools go together?》http://t.cn/RLxdcOq
http://ww3.sinaimg.cn/large/5396ee05jw1euaft9x90sj20f80bmmyg.jpg






http://tp1.sinaimg.cn/1640148444/50/5731831573/1 Huihoo   网页版 2015-07-21 15:02
经验总结 博客
基于云的机器学习工具带来了使用机器学习创造和提供新的功能的可能性。然而,当我们使用不当时,这些工具会输出不好的结果。想要在应用程序中成功地融入机器学习的开发者,一起来看看成功使用机器学习的十大诀窍。http://t.cn/RLx1TFt
http://ww4.sinaimg.cn/large/61c2addcgw1euaeo17dfvj208204umxe.jpg






http://tp1.sinaimg.cn/1450317544/50/40039397984/1 大铁d   网页版 2015-07-21 15:00
会议活动 经验总结 ICDM 博客 会议 迁移学习
Deadline Extended: ICDM 2015 Workshop on Practical Transfer Learning, final submissions by Aug. 3, 2015 (Click http://t.cn/RAsRdHr for more details)






http://tp1.sinaimg.cn/1746173800/50/40027977331/1 InfoQ   网页版 2015-07-21 12:00
应用 广告系统
【大规模机器学习技术】本报告将向大家分享了大规模机器学习和数据挖掘方面的话题和研发成果, 将以广告大数据上的点击率预估,介绍大规模机器学习与传统机器学习问题的区别,大规模机器学习面临的问题,大规模机器学习的过程,并介绍最新的大规模机器学习技术。http://t.cn/RLMOngT
http://ww2.sinaimg.cn/large/68147f68jw1eu9n2dxqw8j208a04p0sw.jpg






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 11:29
应用 推荐系统
【Spotify推深度个性化推荐服务Discover Weekly】《Spotify launches Discover Weekly personalised ‘mixtape’ playlist》“We’re just getting started when it comes to deep personalisation, lots more to come.” http://t.cn/RLxl7RQ
http://ww3.sinaimg.cn/large/5396ee05jw1eua8j27vulj208d0akgmh.jpg






http://tp1.sinaimg.cn/1640148444/50/5731831573/1 Huihoo   网页版 2015-07-21 11:09
架构 应用 Hadoop 推荐系统
我们正使用 Apache Ambari 搭建灰狐Hadoop集群管理系统,有很多的坑要踩,小伙伴说以后有可能维护一个自己的分支。这个集群主要用于灰狐大数据研究、电商推荐系统、机器学习等。Apache Ambari 官网:http://t.cn/Rv4k5vW #大数据# #hadoop#
http://ww4.sinaimg.cn/large/61c2addcgw1eua7vdadgfj21kw0vnn5d.jpg






http://tp1.sinaimg.cn/5501429448/50/5717596146/1 视觉机器人   网页版 2015-07-21 11:02
视觉
近日@西安电子科技大学 高新波教授团队异质人脸图像识别研究取得新突破,有望大大降低刑侦过程人力耗费并提高办案效率。其对香港中文大学人脸素描标准数据库(CUFS)的识别准确率达到了99.67% 。介绍和Paper下载:http://t.cn/RLxOqaC
http://ww2.sinaimg.cn/large/0060jr72gw1eua7p9eqzvj30h80bit9v.jpg






http://tp4.sinaimg.cn/1752825395/50/5728691534/1 光明网   网页版 2015-07-21 11:02
应用 自然语言处理 机器翻译 机器人
#新媒体一日#【[围观]机器人翻译可在1秒内实现中英和英中互译】在抢占诸多岗位后,机器人再次成为翻译行业竞争者。中国机器人翻译“飞飞”可在一秒内实现中英互译,还曾在国际口语机器翻译比赛中夺冠。网友兴奋不已:如此强大的翻译官,必须出国旅游带着,看美剧更得带着。http://t.cn/RLxKDtP
http://ww1.sinaimg.cn/large/6879fe33jw1eua7qp8jqrj20gz0b875i.jpg




自动化网官方微博 网页版 转发于2015-07-21 11:19
中国机器人翻译“飞飞”可在一秒内实现中英互译,还曾在国际口语机器翻译比赛中夺冠。网友兴奋不已:如此强大的翻译官,必须出国旅游带着,看美剧更得带着。#机器翻译#




http://tp2.sinaimg.cn/2000111245/50/5731743996/1 wb王传鹏   网页版 2015-07-21 10:29
算法 自然语言处理 主题模型
[原]4 步理解主题模型LDA (分享自 @推酷网) 接地气的讲解。 http://t.cn/RLxpv47
http://ww2.sinaimg.cn/large/7737468djw1eua6t18hwzj207s04vmx7.jpg




wb王传鹏 网页版 转发于2015-07-21 11:22
http://t.cn/RLxWpXE 原文在这里。[微笑]




http://tp1.sinaimg.cn/2536116592/50/5716095299/1 iB37   网页版 2015-07-21 09:34
应用 资源 自然语言处理 PDF 广告系统 教育网站
Tumblr定向广告用户建模: 性别和商业兴趣(标签,关键词;半监督神经语言模型Semi-supervised skip-gram) <Gender and Interest Targeting for Sponsored Post Advertising at Tumblr,Grbovic,KDD15> http://t.cn/RLxKlKu
http://ww1.sinaimg.cn/large/972a1170gw1eua5553xgdj21cj0pdkb7.jpg






http://tp4.sinaimg.cn/1650042843/50/22819528309/1 数思网   网页版 2015-07-21 09:32
算法 自然语言处理 KNN 聚类
K-means算法及文本聚类实践 | 一起大数据 无处不在的聚类 @零售创新 @数据小兵 @沈浩老师@数据分析招聘 @数据挖掘DW @数据挖掘工人 http://t.cn/RLxKozm
http://ww2.sinaimg.cn/large/6259a7dbjw1eua55pge47j20cs09lq4j.jpg






http://tp4.sinaimg.cn/1991303247/50/5662182521/1 老师木   网页版 2015-07-21 09:05
算法 主题模型
其实也是要改变“LDA只是发论文容易”的印象,有成千上万篇LDA的论文,但在用户口碑那里却是乏善可陈。




裴喜龙 网页版 转发于2015-07-21 09:15
搞LDA(以前有VLDB)的人有个特点,不敢接实际的活儿,不管多牛的,你给他说,我这里有某大型超市N年的交易数据;有某司法单位N年的卷宗、扫描件、视频都有;有某型号高铁N公里测试数据,这些都是多少PB的数据,你能不能帮我用大数据分析一下?他坚决不干。所以绝大多数论文都是瞎扯,是文献读后感。




http://tp1.sinaimg.cn/3812841100/50/40035651667/1 cvnote计算机视觉笔记   网页版 2015-07-21 08:57
深度学习 Python
NVIDIA Deep Learning Course | http://t.cn/RLxaMtO免费的,有人想注册看看不。将介绍Caffe、Theano和Torch三大主流DL框架。
http://ww1.sinaimg.cn/large/e343568cjw1eua3ngh6l2j20jd02v0tf.jpg






http://tp1.sinaimg.cn/2319864160/50/40009084795/1 浙江工业大学王万良   网页版 2015-07-21 08:48
经验总结 算法 博客
发表了博文《机器学习常见算法分类汇总》机器学习常见算法分类汇总原文出处:IT经理网机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见http://t.cn/RLxSZZw




自动化网官方微博 网页版 转发于2015-07-21 08:52
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。本文为您总结一下常见的机器学习算法,以供您在工作和学习中参考。#机器学习#




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 08:23
会议活动 算法 ICML 会议 期刊
【论文:核插值可扩展结构化高斯过程 (KISS-GP)】《Kernel Interpolation for Scalable Structured Gaussian Processes (KISS-GP)》A Wilson, H Nickisch (ICML2015)http://t.cn/RLxXgWG
http://ww1.sinaimg.cn/large/5396ee05jw1eua35ekp1cj207v0ef40d.jpg




爱可可-爱生活 网页版 转发于2015-07-21 08:27
相关介绍文章《Kernel Interpolation for Scalable Structured Gaussian Processes》http://t.cn/RLxaZqa




http://tp4.sinaimg.cn/1991303247/50/5662182521/1 老师木   网页版 2015-07-21 07:50
算法 矩阵
本来觉得lda已经没有什么意思了,最近发现实际场景用好也非常重要且有趣。以前太慢,工业级成功案例并不多,现在速度不再是约束,希望lda在大规模应用中发挥出它的优势,特别是无监督学习独特的优势,直到它成为最有用的十个机器学习算法之一,取代svd在协同推荐中角色。适合推动这个发展的人不多。。




陈天奇怪 网页版 转发于2015-07-21 08:34
在CF中的主要角色已经从传统的MF转化到基于特征的分解模型(svdfeature, fm)和匹配模型,通过特征获得更简单的定制,在这点上是LDA的短板。不过反过来说,因为定制不容易,所以容易发论文




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 07:30
算法 Python 神经网络
【基于表达式构建的神经网络框架penne】”Python Easy Neural Network Extruder”http://t.cn/R2glWJ0
http://ww3.sinaimg.cn/large/5396ee05jw1eua1ln8obmj20a50jbaak.jpg






http://tp1.sinaimg.cn/5220650532/50/5701668539/1 好东西传送门   网页版 2015-07-21 07:15
深度学习 算法 资源 自然语言处理 神经网络 主题模型
NLP日报 2015-07-20 1) 用Hierarchical RNN架构对历史搜索序列建模 2) 论文: 面向LDA的增量变分推断 3) Recurrent Neural Network的资源汇总 4) 面向自然语言处理的深度学习 完整版8条http://t.cn/RLxihLc
http://ww2.sinaimg.cn/large/005HjjGQgw1eua16hv1ndj30nk0bzdhk.jpg






http://tp1.sinaimg.cn/5220650532/50/5701668539/1 好东西传送门   网页版 2015-07-21 07:14
入门 视觉 算法 资源 分类 聚类
计算机视觉日报 2015-07-20 1) 论文: 计算机视觉系统的图灵测试 2) 论文: 基于GNG/层次聚类的无监督图像分割/分类 3) Awesome Deep Vision系列 完整版5条 http://t.cn/RLxJF8I
http://ww3.sinaimg.cn/large/005HjjGQgw1eua15acd7uj30bk0emgno.jpg




视觉机器人 网页版 转发于2015-07-21 08:59
短地址解析出的原地址不对,在你们论坛里有这个地址:http://t.cn/RLxJ1gn




http://tp1.sinaimg.cn/5220650532/50/5701668539/1 好东西传送门   网页版 2015-07-21 07:12
架构 深度学习 视觉 资源 Geoffrey Hinton Spark 简报 课程
机器学习日报 2015-07-20 http://t.cn/RLxJD7j 1) Hinton机器学习课程 2) PowerGraph 分布式并行图计算 3) auto-sklearn 自动机器学习 4) 计算机视觉系统的图灵测试 5) 用Spark实现Logistic回归 完整版21条 http://t.cn/RLxJD7l
http://ww3.sinaimg.cn/large/005HjjGQgw1eua13vuaxyj30qs0e8wjy.jpg






http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 06:42
深度学习 视觉 应用 机器人 论文
【论文+代码:CNN用于图像识别/目标检测的深入分析(比较)】《Return of the Devil in the Details: Delving Deep into Convolutional Nets》K Chatfield, K Simonyan, A Vedaldi, A Zisserman (BMVC2014) http://t.cn/RvhhVeh 项目主页(代码+模型数据):http://t.cn/RLxJvdk
http://ww2.sinaimg.cn/large/5396ee05jw1eua07p5pq5j20hb0i1tgn.jpg




爱可可-爱生活 网页版 转发于2015-07-21 06:43
Lasagne下应用该文数据的实例:http://t.cn/RLxJ71F 云(转换后的训练模型数据):http://t.cn/RLxJ71k




http://tp2.sinaimg.cn/1402400261/50/5713579194/1 爱可可-爱生活   网页版 2015-07-21 06:26
经验总结 深度学习 视觉 Python 博客 代码
【开源:基于Numpy/Scipy/Theano/Matplotlib的sklearn-theano】http://t.cn/RLxxlwUGitHub:http://t.cn/RhOfLCy 相关文章《使用sklearn-theano来做object detection目标检测 (OverFeat)》http://t.cn/RLyleb1
http://ww3.sinaimg.cn/large/5396ee05jw1eu9zr6oqpqj20b407sgmb.jpg








页: [1]
查看完整版本: 机器学习日报 2015-07-21 LDA算法漫游指南;深度学习对抗样本的八个误解与事实;Machine Learning...