VALSE

查看: 6696|回复: 0

AI100_机器学习日报 2017-10-30 论文推荐:NVIDIA Research 发布可生长GANs模型,效果令人赞叹

[复制链接]

829

主题

837

帖子

7万

积分

版主

Rank: 7Rank: 7Rank: 7

积分
78976
QQ
发表于 2017-11-1 16:17:28 | 显示全部楼层 |阅读模式
AI100_机器学习日报 2017-10-30
@好东西传送门 出品,由@AI100运营, 过往目录http://ai100.com.cn


订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

邮件版包括19条,本期的Web版有完整内容24条

用日报搜索找到以前分享的内容: http://ml.memect.com/search/
今日焦点 (5)
新智元   网页链接 2017-10-30 14:49
视觉 资源 数据
【新智元导读】昨天 NVIDIA Research 网站发布了一篇颇为震撼的GAN论文:Progressive Growing of GANs for Improved Quality, Stability, and Variation,通过使用逐渐增大的GAN网络和精心处理的CelebA-HQ数据集,实现了效果令人惊叹的生成图像。论文、数据集、代码都已经开放可获取,一起来看。...全文: http://m.weibo.cn/5703921756/4168562287084743




[img=20,20][/img] wx:专知内容组   网页链接 2017-10-31 06:36
会议活动 深度学习 视觉 算法 应用 知识工程 资源 自然语言处理 Andrew Mccallum Gan Adversarial Gan Generalization ICLR Lung Cancer Numbers Complex-Valued PDF Yann Lecun Yoshua Bengio行业动态 会议 机器人 矩阵 迁移学习 强化学习 神经网络 统计 问答系统 信息检索 预测 知识库
「【重磅】深度学习顶会 ICLR 2018 匿名提交论文列表(附pdf下载链接)」【导读】ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年才刚刚成立了第一届。这个一年一度的会议虽然今年2017年办到第六届,已经被学术研究者们广泛认可,被认为「深度学习的顶级会议」。这个会议由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。Yoshua Bengio 是蒙特利尔大学教授,深度学习三巨头之一,他领导蒙特利尔大学的人工智能实验室(MILA)进行 AI 技术的学术研究。MILA 是世界上最大的人工智能研究中心之一,与谷歌也有着密切的合作。 Yann LeCun 就自不用提,同为深度学习三巨头之一的他现任 Facebook 人工智能研究院(FAIR)院长、纽约大学教授。作为卷积神经网络之父,他为深度学习的发展和创新作出了重要贡献。ICLR 采用Open Review 评审制度。Open Review 则非常不同,根据规定,所有提交的论文都会公开姓名等信息,并且接受所有同行的评价及提问(open peer review),任何学者都可或匿名或实名地评价论文。而在公开评审结束后,论文作者也能够对论文进行调整和修改。目前 ICLR 的历届所有论文及评审讨论的内容,都完整地保存在 OpenReview.net 上,它也是 ICLR 的官方投稿入口。OpenReview.net 是马萨诸塞大学阿默斯特学院 Andrew McCallum 为 ICLR 2013 牵头创办的一个公开评审系统,秉承公开同行评审、公开发表、公开来源、公开讨论、公开引导、公开推荐、公开 API 及开源等八大原则,得到了 Facebook、Google、NSF 和马萨诸塞大学阿默斯特中心等机构的支持。以下为论文列表:来源:https://openreview.net/group?id=ICLR.cc/2018/Conference专知进行关键词统计信息如下:可以看出 深度学习 神经网络 生成式对抗网络、强化学习、循环神经网络等等是投稿论文热点。论文列表:下载地址:https://openreview.net/pdf/b9ca5 ... 1d0bff48f2949c2.pdf下载地址:https://openreview.net/pdf/a3ee1 ... f563ea632fbe23d.pdf关键词:complex numbers complex-valued neural network multi-layer perceptron architecture下载地址:https://openreview.net/pdf/4127a ... 450550a33b69acd.pdf关键词:Knowledge base embedding下载地址:https://openreview.net/pdf/4e9e3 ... e0ed3988c5300fa.pdf下载地址:https://openreview.net/pdf/95582 ... b52474a09da0be1.pdf下载地址:https://openreview.net/pdf/c9476 ... 25b4ec0258406e8.pdf关键词:hypergraph representation learning tensors下载地址:https://openreview.net/pdf/53c02 ... ce5132f5d5861bf.pdf关键词:deep learning complex-valued neural networks下载地址:https://openreview.net/pdf/21bc6 ... 7f626306b316875.pdf关键词:Deep Learning Neural Networks Information Theory Generative models下载地址:https://openreview.net/pdf/0d736 ... 7d9f95a22d9c54c.pdf关键词:generative models one-shot learning metalearning pixelcnn hierarchical bayesian omniglot下载地址:https://openreview.net/pdf/36668 ... 93774d2f0908266.pdf关键词:action segmentation video labeling temporal networks下载地址:https://openreview.net/pdf/9cb1d ... e730f3743542a24.pdf关键词:Tensor Decomposition Tensor Networks Stochastic Gradient Descent下载地址:https://openreview.net/pdf/a2f56 ... 29bfff2946df00d.pdf关键词:variational autoencoder noise modelling representation learning generative model disentanglement下载地址:https://openreview.net/pdf/62a90 ... c06ee828574d98b.pdf关键词:uncertainty estimation deep learning Bayesian learning batch normalization下载地址:https://openreview.net/pdf/ac74f ... 1b7b711ee064038.pdf关键词:conversation model seq2seq self-play reinforcement learning下载地址:https://openreview.net/pdf/40fc8 ... d9e5ddf2523ad35.pdf关键词:Reinforcement Learning Multi-task Learning Curriculum Learning下载地址:https://openreview.net/pdf/7efb4 ... b8b5a5d8af797cf.pdf关键词:SVD Latent Dimensions Dimension Reductions Machine Learning下载地址:https://openreview.net/pdf/5a5d9 ... 3426873a38b3e8b.pdf关键词:reinforcement learning transfer learning下载地址:https://openreview.net/pdf/d18b6 ... ae6e4de9b45658d.pdf关键词:graph neural networks message passing label propagation equivariant representation下载地址:https://openreview.net/pdf/7673e ... 05e205759f686e9.pdf关键词:somatic mutation variant calling cancer liquid biopsy early detection convolution deep learning machine learning lung cancer error suppression mutect下载地址:https://openreview.net/pdf/3da2a ... c100ceb17694e76.pdf关键词:unsupervised learning representation learning deep learning下载地址:https://openreview.net/pdf/82eae ... 066982e93ef60d2.pdf下载地址:https://openreview.net/pdf/f5434 ... 5b5a34dce8e600b.pdf下载地址:https://openreview.net/pdf/bd3b0 ... 7eeae4c2b1bbafd.pdf关键词:VAE Generative Model Vision Natural Language下载地址:https://openreview.net/pdf/3cf45 ... ed8c83937f59c27.pdf关键词:Deep learning model compression下载地址:https://openreview.net/pdf/53e7e ... caf988215ad2083.pdf关键词:Reinforcement Learning TD Learning DQN下载地址:https://openreview.net/pdf/424ef ... 93095fb81db7ecb.pdf关键词:GAN WGAN下载地址:https://openreview.net/pdf/98bba ... 00c7ce9615e175e.pdf下载地址:https://openreview.net/pdf/efa84 ... 8a6a3c1031e1cfa.pdf关键词:fraternal dropout activity regularization recurrent neural networks RNN LSTM faster convergence下载地址:https://openreview.net/pdf/e58a6 ... b8762df63757b73.pdf关键词:image captioning representation learning interpretability rnn multimodal vision to language下载地址:https://openreview.net/pdf/0e647 ... bf1934d6c901237.pdf关键词:reinforcement learning pretrained deep learning perception algorithmic下载地址:https://openreview.net/pdf/3aaba ... c3f071ba9fb96b9.pdf关键词:Adversarial Examples Detection Saliency Model Interpretation下载地址:https://openreview.net/pdf/b7aaf ... f4a58ec39e9513b.pdf关键词:reinforcement learning hierarchy options inference下载地址:https://openreview.net/pdf/7ff2f ... ac7d2a46c59007e.pdf关键词:VAE Vision Natural Language下载地址:https://openreview.net/pdf/bfd58 ... a8c2ad9d965cc3e.pdf关键词:Applications Security in Machine Learning Fairness and Security Model Compression下载地址:https://openreview.net/pdf/69170 ... 453add292d356cb.pdf关键词:neural network reinforcement learning natural language processing machine translation alpha-divergence下载地址:https://openreview.net/pdf/4122d ... dc1cf00e2259f51.pdf下载地址:https://openreview.net/pdf/554e4 ... a31bebad2354fe6.pdf关键词:Information Bottleneck Deep Neural Networks下载地址:https://openreview.net/pdf/db367 ... 70e6a13fa0e508d.pdf关键词:generative adversarial networks Wasserstein GAN generalization theory下载地址:https://openreview.net/pdf/c8e24 ... c8192c356fd3068.pdf关键词:Deep Learning Robotics Artificial Intelligence Computer Vision下载地址:https://openreview.net/pdf/00e5c ... 2d27e0bccb43079.pdf下载地址:https://openreview.net/pdf/4324f ... b21bab92f264995.pdf关键词:Deep Reinforcement Learning Variational Inference Control Robotics下载地址:https://openreview.net/pdf/91cf2 ... 07240032056772d.pdf关键词:embeddings下载地址:https://openreview.net/pdf/a09f1 ... c9cf7afcdeaaca5.pdf下载地址:https://openreview.net/pdf/21016 ... b18ad70b9641847.pdf关键词:question answering knowledge graph compositional model semantics下载地址:https://openreview.net/pdf/576e3 ... 2cf7d1f7e0a7424.pdf下载地址:https://openreview.net/pdf/6a770 ... 8abb92a01749769.pdf关键词:Neural Network acceleration Low Precision neural networks.下载地址:https://openreview.net/pdf/8c461 ... 6877fd072e2445e.pdf关键词:Security in Machine Learning Information Security Fairness and Privacy下载地址:https://openreview.net/pdf/6b168 ... 4dc000920a179b3.pdf关键词:GANs transport下载地址:https://openreview.net/pdf/b7c56 ... 2aa145c07b24d94.pdf下载地址:https://openreview.net/pdf/6c1f3 ... 2b086a6595aea5a.pdf关键词:Reinforcement Learning Variational Inference Control下载地址:https://openreview.net/pdf/84a89 ... 0b1a21a077f4f8d.pdf关键词:Deep learning GAN下载地址:https://openreview.net/pdf/0f1cc ... 3c473b6b44b5948.pdf关键词:interpreting convolutional neural networks nearest neighbors generative adversarial networks下载地址:https://openreview.net/pdf/a2fc6 ... 98a70c1046fd8a9.pdf下载地址:https://openreview.net/pdf/37257 ... d11ee647fcb9743.pdf下载地址:https://openreview.net/pdf/37eda ... 06c26b4595eb965.pdf下载地址:https://openreview.net/pdf/0f2af ... 77b0a0b34922fe1.pdf关键词:Deep Reinforcement Learning mult-agent systems下载地址:https://openreview.net/pdf/c7c88 ... 594fc6adcc1686c.pdf关键词:optimization K-FAC natural gradient recurrent neural networks下载地址:https://openreview.net/pdf/4067d ... 49fb5ad062a9820.pdf关键词:speech generation accent gan adversarial reinforcement memory lstm policy gradients human下载地址:https://openreview.net/pdf/cf54a ... 8e8810789404941.pdf关键词:privacy differential privacy machine learning deep learning下载地址:https://openreview.net/pdf/85d21 ... 1d82854c163e077.pdf关键词:asynchronous neural network deep learning graph tree rnn下载地址:https://openreview.net/pdf/19a99 ... 335e6cb2e53236f.pdf关键词:connectivity learning multi-branch networks image categorization下载地址:https://openreview.net/pdf/8d9ca ... 6a466f8593c6168.pdf关键词:fast weights RNN associative retrieval time-varying variables下载地址:https://openreview.net/pdf/d184c ... c0adc3e99c00d9a.pdf关键词:adversarial examples generative adversarial network black-box attack下载地址:https://openreview.net/pdf/e074c ... 664e257da48c396.pdf下载地址:https://openreview.net/pdf/99866 ... 7ba2bbbc7825f79.pdf关键词:Common-sense Physical Reasoning Intuitive Physics Representation Learning Model building下载地址:https://openreview.net/pdf/02266 ... 1888b4efedfb0e0.pdf关键词:Awareness Prediction Seq2seq Robots下载地址:https://openreview.net/pdf/65f82 ... 9700fd3c3c6aa8f.pdf关键词:Deep Reinforcement Learning Multi-Agent Reinforcement Learning StarCraft Micromanagement Tasks下载地址:https://openreview.net/pdf/9546b ... fcee2ae6e9759b3.pdf关键词:structured attention sentence matching下载地址:https://openreview.net/pdf/7cc67 ... fb89b10e20932d2.pdf下载地址:https://openreview.net/pdf/5322d ... ac8f9784b494363.pdf 转自:专知 完整内容请点击“阅读原文” via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect




ChatbotsChina   网页链接 2017-10-30 11:15
深度学习 行业动态
keras中最常用深度学习的API By 阿里云云栖社区 http://t.cn/RW1952d




爱可可-爱生活   网页链接 2017-10-30 08:30
算法 资源 分类 幻灯片 回归 迁移学习
【音乐分类/回归任务迁移学习】《Transfer learning for music classification and regression tasks》by Keunwoo Choi http://t.cn/RW3lxc4 ref:http://weibo.com/1402400261/EBYwEkQ3L




爱可可-爱生活   网页链接 2017-10-30 06:05
深度学习 可视化
【Subgraphs:Web界面可视化深度网络(计算图)开发平台】“Subgraphs - A Deep Learning IDE”http://t.cn/RW3abUE




最新动态
[img=20,20][/img] wx:   网页链接 2017-10-30 21:57
会议活动 视觉 资源 Chris Rowen Felipe Hoffa Java Python 行业动态 华先胜 会议 活动 贾佳亚 书籍孙剑
「微软成为GitHub2017年度最大贡献者 阿里巴巴排名第九为中国最高」【AI WORLD 2017世界人工智能大会倒计时 9 天】在2017年11月8日在北京国家会议中心举办的AI World 2017世界人工智能大会上,我们邀请到阿里巴巴副总裁、iDST副院长华先胜,旷视科技Face++首席科学家、旷视研究院院长孙剑博士,腾讯优图实验室杰出科学家贾佳亚教授,以及硅谷知名企业家、IEEE Fellow Chris Rowen,共论人脸识别等前沿计算机视觉技术。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026大会官网:http://www.aiworld2017.com  新智元编译  来源:medium作者:Felipe Hoffa编译:Cecilia 【新智元导读】微软成为GitHub 2017年度最大贡献者,谷歌第二,亚马逊第八,阿里巴巴第九(中国最高),腾讯、百度排名分别为14、15。 谁是开源社区的最大贡献者?本文作者Felipe Hoffa查看2017年期间GitHub发布的所有PushEvent,以及今年至少收到20颗星的仓库。 以下是作者得到的结果。 通过查看GitHub2017,可以看到: 微软大约有1300名员工积极地将GitHub上的825个顶级仓库。Google约有900名员工活跃在GitHub上,他们正在将代码推送到约1100个顶级仓库。亚马逊只有134名员工活跃在GitHub上,将代码推送到158个顶级仓库。并不是所有的项目都一样:尽管Google员工给库提供的的代码比Microsoft只多了25%,但是这些库收到了更多的星(530000 vs 260000)。亚马逊仓库收到的星总数:27000个。  微软名列第一,谷歌紧随其后,而亚马逊仅排第八。 RedHat, IBM, Pivotal, Intel, 以及Facebook 亚马逊看起来远远落后于微软和谷歌,那这中间的公司有哪些?根据排名,可以看到,RedHat、Pivotal和Intel为GitHub做出了很多贡献。 RedHat排名第三。IBM与Pivotal并列第四。Intel排名第五。Facebook排名第六。 Facebook和IBM(美国)的GitHub用户数量与亚马逊相似,但是他们贡献项目收到的星比亚马逊多(尤其是Facebook): Facebook排名第六;IBM(美国)排名第七;亚马逊排名第八。 BAT贡献排名 阿里巴巴、Uber、Wix分别排第九、第十、第十一。阿里巴巴是对GitHub贡献最多、排名最靠前的中国公司。 GitHub、Aphche和腾讯分别排第十二、第十三、第十四。 百度、苹果、Mozilla分别排第15、第16、第17。 GitHub 2017年度报告 2017年,有670万名开发者新加入GitHub。其中,超过100万新加入的开发者来自美国,近70万来自中国。 GitHub上的开源项目共使用337种编程语言——JavaScript是使用最多的语言。 2017年,Python取代Java成为GitHub上第二流行的语言,今年的pull requests比去年增加了40%。  排在第4 的是Ruby,PHP和C++则分别第五和第六。Typescript的数量也在增加,几乎是去年的4倍。 今年1月,GitHub发布了主题分布引擎:仓库的tag能让你通过技术类型、行业等来探索不同主题的项目。 自这个功能发布以来,GitHub上最热门主题(不包括框架和语言项目)是机器学习。 原文地址:https://medium.freecodecamp.org/ ... b-2017-be98ab854e87 深入了解AI 技术进展和产业情况,参加新智元世界人工智能大会,马上抢票! 【AI WORLD 2017世界人工智能大会倒计时 9 天】点击图片查看嘉宾与日程。抢票链接:http://www.huodongxing.com/event/2405852054900?td=4231978320026AI WORLD 2017 世界人工智能大会购票二维码:  via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect




ChatbotsChina   网页链接 2017-10-30 18:32
算法
入门 | 从概念到案例:初学者须知的十大机器学习算法 http://t.cn/RWnyQVx




机器之心Synced   网页链接 2017-10-30 18:00
会议活动 深度学习 Geoffrey Hinton NIPS 会议
【终于,Geoffrey Hinton那篇备受关注的Capsule论文公开了】Geoffrey Hinton 等人备受关注的 NIPS 2017 论文《Dynamic Routing Between Capsules》已于数小时前公开。http://t.cn/RWr8GJm




网路冷眼   网页链接 2017-10-30 18:00
自然语言处理
【Language Models, Word2Vec, and Efficient Softmax Approximations】http://t.cn/RWr8AE1 语言模型、Word2Vec和高效的Softmax近似。 ​




[img=20,20][/img] wx:文冠、拳石、田富   网页链接 2017-10-30 16:41
会议活动 经验总结 深度学习 视觉 算法 应用 资源 自然语言处理 CRF CVPR David MarrICCV ICLR Miles Brundage 安全 博客 傅京生 华刚 会议 集成学习 吕洋 神经科学 神经网络 视频 书籍 数据科学 统计 屠卓文 吴田富 语言学 周少华 朱珑 朱松纯
「概率语法图模型发力,小样本学习的突破 | 焦点评论」2017年10月26日,科学期刊《Science》上刊发了知名人工智能创业公司Vicarious的一项最新研究[1] --- “A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs”。CAPTCHA是Completely Automated Public Turing Test To Tell Computers and Humans Apart的缩写,指基于网络文本验证创建的全自动区分计算机和人类的图灵测试。该项研究通过提出一种新型生成式组成模型(generative compositional model):Recursive Cortical Network (RCN),使用小样本学习,在CAPTCHA上获得突破性的成果。RCN的成功表明,在推动人工智能发展的道路上,生成式组成模型,特别是上下文相关概率语法图模型和自底向上(bottom-up)/自顶向下(top-down)联合推理算法,取得了一个重要的阶段性成果。为什么这么认为?我们从以下几个方面作个简要的介绍和分析。  在CAPTCHA中(图1),对英文字母进行遮挡、变形等处理之后,人类往往仍然能够准确地识别,但这个任务却对当今流行的机器学习算法带来了巨大挑战。在CAPTCHA中,机器的识别正确率超过1%即被认为突破。而RCN在多个CAPTCHA数据库中,获得了极佳的成绩(reCAPTCHA:66.6%, BotDetect 64.4%, Yahoo: 57.4%, PayPal: 57.1%),整体上以300倍的数据有效性(data efficiency)击败了深度学习的卷积网络模型。其中,在reCAPTCHA上,对于每个字母,RCN仅使用5个训练样本,而深度学习卷积网络模型达到相似的成绩使用了二百三十万个训练样本。此外,RCN在多个任务(如单样本和小样本识别、手写数字生成等)中,均取得了优异的结果。 对于与深度学习模型比较,Vicarious的博客[2]提到:“deep learning has demonstrated many narrow super-human abilities on recognizing photos and playing games. It is important not to conflate the success of deep learning in creating a diversity of narrow intelligences as progress on the path toward general intelligences.” 深度学习在识别图像和游戏AI上显示了过人却狭隘的能力。但重要的是,不要把深度学习在狭隘智能上的成功,和通往通用智能之路上的进展混为一体。     图1.人类在字母形式上感知的灵活性。(A)人类擅长解析不熟悉的字体。(B) 相同的字母可以有很多的表现形式,人类可以从上图中识别出“A”。(C) 常识和上下文信息会影响人类对字体的感知:(i)“m”还是“u”或“n”; (ii) 同样的线条中,不同位置上的遮挡会影响对其理解为“N”还是“S”; (iii) 对形状的感知会帮助识别图中的“b,i,s,o,n”和“b,i,k,e”。(摘自[1]) RCN工作的意义之一: 组成模型与小数据学习         图2. RCN模型示意图。(a)物体边缘和表面分离建模。层级结构生成对象轮廓,条件随机场(Conditional Random Field, CRF)生成表观模型。(b)与节点AND node(实心)表示视觉概念的组成成分,或节点OR node(虚心)表示同一语义的不同变化。(c)使用3层RCN对矩形轮廓建模。第二层的AND node用来表示矩形的角,每个角表示为第一层中线条的交汇。(d)使用4层RCN表示字母“A”。(摘自[1])         图3. AOT模型示意图。利用与或图 (And-Or Graph) 模型对物体进行层次化建模。(摘自[4]) 人类智能的一个重要特性是,人类具有从小样本中进行学习的能力,并且具有极强的泛化性,即所谓举一反三,融会贯通。RCN的实验结果显示了较强的基于小样本的学习和泛化的能力。基于小样本学习的能力通常需要显式的多层次组成模型(Hierarchical and Compositional Models)的支持。RCN模型实质上属于上下文相关概率语法图模型(Context-Sensitive Probabilistic Grammar Models),更具体是属于概率与或图模型(Probabilistic And-Or Graph Models)[3,4,5],并且RCN进一步融合了系统神经科学(systems neuroscience)研究的启发,特别是视皮层中的侧连接(lateral connections in the visual cortex)。RCN文章中也具体说明了这点:“The seminal work on AND-OR templates and tree-structured compositional models has the advantage of simplified inference, but is lacking in selectivity owing to the absence of lateral constraints.” 如图2所示,RCN利用hierarchical  graph把物体表示为边缘和面的组合。在RCN中有两种节点,即Feature node(即与节点AND node)和Pool node(即或节点OR node)。这里,与节点And node表示某个视觉概念的组成成分,比如可以用线段的组合去表示角,用四个角的组合去表示一个矩形;可以用多个小面去组合表示一个大面。这样我们就得到了一个层次化的语义结构(线段、角、形状等等)。或节点OR node表示同一语义的不同变化,比如一个边缘形状的内部形变和视角变换,一个面语义在不同纹理和尺度下的变换等等。同时,RCN还通过侧向连接来让不同高层语义之间去分享中低层的语义表达,比如“角”作为一个基本概念单元,可以被不同的物体边缘轮廓所共有。作为比较,图3给出一个通过小样本弱监督学习的AOT(And-Or Template)与或模板在物体检查中应用的示例图。 实际上,如图4所示,概率上下文相关语法模型[3]同样强调对侧连接进行建模和计算,只是在AOT工作[3]中使用条件独立的假设,从而可以使用动态规划进行推理。RCN层次化、产生式的建模方式使模型获得了在小样本上的学习能力,通过对物体边缘和平面的分离建模,以及对物体纹理、尺度等复杂变化的层次化建模,使得整个模型获得了极强的泛化能力和对表观特征变化的鲁棒性。基于小样本学习的研究方向上,另一个重量级的工作是2015年发表在科学期刊的Bayesian program learner[10],其模型原理上也可以认为属于上下文相关的概率语法图模型。另外两个相关工作包括(1)compositional boosting用于多层次图像结构的检测[6];(2)基于与或图(And-Or Graph)的在线物体跟踪[7],其中后者在实验中性能也超过两种基于深度学习的算法。         图4. 基于与或图的推理算法示例图。自顶向下产生式模型和自底向上判别式模型统一示意图,两者结合计算产生解译图。自底向上判别式模型主要进行两种测试,一是对分层结构中的每层中的节点本身进行测试,如图中Particles  on nodes,二是多测试所得的节点之间的关系进行测试,如图中Ratios on edges,两种测试都是在多层上同时进行。测试所得结果作为“提议(Proposal)”驱动自顶向下的马尔可夫链跳转或扩散,或在一些简化的假设下,直接进行(近似)动态规划推理。(摘自[9])  显式的多层次组成模型,特别是与或图 (And-Or Graph) 模型,使得自底向上/自顶向下联合推理算法得以鲁棒的实现,从而能在最大化贝叶斯后验的框架下(MAP)统一基于判别式模型的数据驱动和基于高层语义的任务驱动,并且很容易通过局部上下文无关和条件独立假设来根据需要简化推理过程,比如使用动态规划。图5所示为RCN的基于Message-Passing的推理算法示意图,与图4所示算法原理相通。         图5. RCN的推理算法。(A) (i) 通过前向传递,包括侧连接传递,生成字符假设。这里PreProc是一类Gabor算子,生成像素上的边界概率。(ii) 反向传递和侧连接传递从之前的假设中选取了“A”。(iii)“A”和“K”之间产生了一个错误的假设“K”,可以通过上下文解析消除错误假设。(iv)多个假设联合解释了图中的字母,包括对分离、遮挡的推理。(B)第二层上的特征学习。着色圆圈代表激活的特征,虚线圆圈代表最终选取的特征。(C)从边缘的相邻结构中学习侧连接。(摘自[1])      上下文相关概率图语法模型和自底向上/自顶向下联合推理算法一个比较直接的优势是模型本身和算法推理过程都是可解释的。特别是,根据任务,图语法模型中的每个节点不仅有语法结构功能,也同时具备语义解释功能;由于结构上显示多层次和组成,推理算法计算过程中非常清楚每一步,自底向上数据驱动的贡献和自顶向下结构以及空间和语义关系的贡献各是多少;并且,如果模型预测和推理结果出错时,能相对容易找出哪些中间步骤有错。在建立通用人工智能框架的方向上,DARPA对概率上下文相关语法模型框架也表示了重视[8],如图6所示。     图6. DARPA 在可解释人工智能(eXplainable AI, XAI)项目中,极为重视概率上下文相关语法模型。图中猫的模型示例是基于AOT工作[4]。(视频截屏自[8])  RCN的成功是得益于概率上下文相关语法模型和自底向上/自顶向下联合推理算法。从更广的角度来看,RCN的成功或许能促使我们继续在概率上下文相关语法模型和自底向上/自顶向下联合推理算法的框架下,来思考视觉知识的统一表达模型和学习算法,包括场景上下文语义建模、复杂物体层次化构造(Hierarchical Composition)法和基于人类感知和认知机理的小样本机器学习理论,从而能进一步实现小数据大任务(small-data-big-tasks)。这与当前流行的深度学习模型所擅长大数据小任务(big-data-small-tasks)截然不同。而在通往通用人工智能的方向上,这一点尤其重要。为此,我们下面对RCN背后学术流派与历史作一些简要回顾;笔者试图提供一个总体的解读,因此部分表述不完全拘泥于严谨的理论。 整体上,概率语法图和组成模型的演变和发展主要包括,著名华人人工智能专家傅京生(K.S. Fu)在上个世纪70年代提出的句法模式识别(Syntactic pattern recognition)、U. Grenander的模式理论(Pattern theory)、S. Geman提出的视觉中compositionality和reusable parts的概念和模型。这些学派思想在UCLA得到进一步拓广和长足的发展,主要包括朱松纯(S.-C. Zhu)和D. Mumford在2006年提出的与或图(And-Or Graph)模型,以及他们的长期合作者A. Yuille在与或图模型发展方向上的一系列工作,包括朱珑在UCLA期间的工作,以及后来与深度学习结合的相关工作。 视觉知识通常可以分为两类,一类是表达性知识(Representational Knowledge),包括各个层次上的视觉字典和各种关系;另一类是计算性知识(Computational Knowledge),包括各种特征的计算和自底向上与自顶向下的排序(Ordering) 。在上个世纪80年代后期和90年代初,研究人员逐渐认识到视觉问题在本质上是一个病态问题(ill-posed problem),必须在贝叶斯框架下通过融入关于客观世界的先验知识进行推理计算来求解问题,通过显式的建立各类视觉模式的模型来表达各种视觉知识。Grenander(1976)、Cooper(1979)和傅京生(1982)最早提出对各类视觉模式建立统计模型。S. Geman进一步提出了组成性(compositionality)和可重用部件(reusable parts)的概念和模型。在早期的模型中,通常只是作一些简单的假设,如物体表面和图像区域的平滑性(Smoothness)等。这些模型包括:各类物理模型(Physically-based Model)、正则化理论(RegularizationTheory)和能量函数模型(Energy Functional)等等。在随后的研究中,这些早期模型都被统一到统计建模的范畴内,但这种建模方法的计算量很大,为此研究者开始通过引入隐含变量(HiddenV ariables)来解释图像中的各种相关性(Dependency)从而进行降维,建立视觉模型中的产生式模型(Generative Model),减少计算量。产生式模型必须要建立一些视觉字典作为隐含变量。隐含变量的引入一方面进行降维,同时进行解相关(Decoupling),如稀疏编码(Sparse Coding)以及后来的Active basis模型,通过从自然图像中学习到一个超完备(Over-complete)基来建立图像的加性模型(Additive Model),只需要使用少量的基(基的数量远小于象素点的个数,即稀疏性)就可以表示图像。 视觉模式,特别是类间结构变化大的物体,如钟、椅子和衣服等,需要用构造(Composition)式方法来建模,对其语法(Grammar)进行描述。从构造方式上来说,这类物体的结构分解是有规则的,如钟可分解为:外框、表盘、指针、表示时间的数字,但是其中的每一个子部件(Part)都有千变万换的表现形式,如外框可以是方形、圆形或椭圆形等,表示时间的数字可以是罗马数字或阿拉伯数字等。对其建模,一方面要能对这种构造方式进行表示,同时对子部件之间的关系进行描述,而子部件本身也可能进一步通过构造式模型来描述。通过这种构造式方法对大量视觉模式建模,最终处于分解最低层的一些子部件就可以抽象形成视觉字典(Visual Vocabulary),它们反过来逐级向上构造出大量的视觉模式及其各种表现形式,从而可以处理类间结构的变化。 对语法建模的思想一开始出现在对自然语言建模的研究中,研究者通过随机上下文无关语法(Stochastic Context Free Grammar,SCFG)来对自然语言的词法、句法等建模。在图像中,对语法建模更为重要,是建模的一个核心问题。自然语言中字与字之间,词与词之间等存在显式的左右顺序(Left-to-Right)关系,但在图像中不存在,这给图像语法建模带来了很大的困难:SCFG并不直接适用,传统的研究中还没有合适的模型。 描述式模型适合对高熵模式进行建模,如各种纹理, 数学形式上属于隐式函数,即这类高熵模式通常处于图像空间种的隐式流形(Implicit Manifold)上;产生式模型适合对低熵模式进行建模,如各种卡通画,通过建立一组超完备基,图像就表示为在这组基下的坐标系数,数学形式上属于显式函数,即这类低熵模式处于图像空间中的显式流形(Explicit Manifold)上。但在实际自然场景中,由于尺度的原因,一幅图像中通常都是既有低熵模式也有高熵模式。为此必须将描述式和产生式模型进行统一,进一步这种统一必须表现在视觉的各个层次上,同时对不同层次之间的构造(Composition)关系进行描述 。    朱松纯(S.-C. Zhu)等人在研究概率上下文相关语法模型过程中,指出描述式和产生式模型是在图像空间不同熵区的表现,将其统一其实就是David Marr(计算机视觉的奠基人)在七十年代末提出原始简约图模型(Primal Sketch)的理论模型。进一步,基于原始简约图模型,通过感知尺度空间理论(Perceptual Scale Space Theory)来研究视觉模式的统计描述和模型随着尺度变化而变化的规律,为描述式和产生式模型转化提供了理论基础。随之,与或图(And-Or Graph) 表示在2006年由朱松纯(S.-C.Zhu)团队首次提出,并进一步与D. Mumford合作进行了框架的完善,融入随机上下文相关语法(Stochastic Context Sensitive Grammar),能对复杂物体的多层次构造特性(Hierarchical Compositionality)建模,完全表示图像语法(Image Grammar)。与或图表示突破了传统单一模板(Template)的表示方法,对每类物体用多个图结构表示,该结构可以通过语法(Grammar)、产生规则(Production Rule)进行动态调制,从而可以用相对小的视觉字典(Visual Vocabulary),表达大量类间结构变化很大的物体的图像表现形式(Configuration)。建立小样本学习理论的一个关键问题是要研究产生式模型如何指导判别式模型,这点在RCN模型中得到了非常好的体现。 视觉推理计算的目的是在贝叶斯框架下,给定输入图像,求客观世界表达的最优后验概率分布。主要两类计算模型,一类是自底向上的判别式模型,另一类是自顶向下的产生式模型。判别式模型通过计算图像的局部特征来逼近后验概率 (Posterior Probability)或后验概率比(Ratios of Posterior Probability),产生式模型通过使用马尔可夫链蒙特卡罗方法(Markov Chain Monte Carlo, MCMC)或基于简化模型的(近似)动态规划按贝叶斯规则来自顶向下推理后验概率。视觉计算的任务根据所求的客观世界表达的不同而不同,解译(Parsing)图像是其最主要的目标。 图像解译通常可分为两个子部分:一是所谓的“什么跟什么在一起(What goes with what)?”问题,即图划分(Graph Partition)问题,其解空间为图划分空间(Graph Partition Space);二是所谓的“什么是什么(What is what)?”问题,即给定一个划分状态,为其每个子图选择模型,并匹配模型的参数。其解空间为模型空间(Model Space)。图像解译必须在两者的联合空间中求最优解,而传统的视觉计算通常只在其中一个空间上求解。在图划分空间上求解的算法包括:图的谱分析(Graph Spectral Analysis)方法,Minimum-cut和Graph-cut,和 基于图的通用信任传递(Generalized Belief Propagation on Graph) 。这类算法由于只集中在图划分空间上进行,而且能处理的能量函数类型也有限,所以不能作通用的视觉计算。在模型空间上求解的有如均值漂移(Mean-shift)算法等。传统的MCMC方法,如Gibbs采样,通过每次调整一个点的状态进行计算,所以它们的计算量特别大,不适合大型系统。后来Swendsen-Wang(SW)算法通过每次调整一组点的状态来进行计算,大大的加速了Gibbs采样,但是SW算法只能处理Potts模型,所以也无法进行通用的视觉计算。进行通用而高效的视觉计算的关键是在贝叶斯框架下,算法不依赖于初始状态,在图划分和模型的联合空间达到最优,要将自底向上的判别式模型与自顶向下的产生式模型进行统一,并有效调度,这点在相对小的任务上有很好的表现[9],但有待进一步研究能推广到small-data-big-tasks。     我们也邀请了《视觉求索》的部分编辑们对这篇文章作了评论。     “CAPTCHA是认证用户是真人而不是机器程序的一个有效手段。基于文本的CAPTCHA系统通常会对字符串进行各种图像后处理,使得机器(计算机视觉)程序不易读取。在此类系统中,文本形态的多样性决定了系统的安全性,而这个多样性是直接由图像后处理的方法决定的。在以往的试图攻击CAPTACHA的程序中,通常设计者(骇客)会通过自己观察若干图片后,估测系统使用的可能的图像后处理方式,然后做反向工程。这样再反过来,设计者可以编程序自动生成大量的训练样本。这篇Science的论文展现了这样的反向工程实际上可以通过概率语法图模型,通过少量的样本,就可以自动的将生成程序自动学出来。概率语法图模型之所以能做到小样本学习,还在于显示的构成式(compositional)模型设计能够大大减少隐参数的数量。或者从另外一个角度来讲,能够灵活的让参数的个数或者是模型的大小,随训练数据量作动态的调整。现有的深度学习生成模型缺乏这样的显性设计和灵活性,通常不具备小数据学习的能力。在预训练的模型上做微调是一种方式,但实质上这种方式隐性的利用了更多的训练数据。这篇论文好的一个方面是再次提示我们计算机视觉以及人工智能的研究人员领域知识的重要性。这个领域知识,在计算机视觉里面,就是图像数据的结构。盲目的不加思考的试图使用深度学习解决所有AI问题,是不可取的。”--- by 华刚 “如今大数据时代的人工智能是‘高大上’的代表,但背后却藏着个‘暴力美学’。大量的数据样本用来描述数据间的匹配关系,深度学习以此训练深度神经网络的海量参数。以最通俗的语言来说,深度神经网络其实是以无与伦比的暴力记忆能力、以海量参数生硬地记住了数据间的匹配关系,再以无可匹敌的计算能力重现了此关系。最近甚至有ICLR文章记载,深度神经网络可以被训练成记住一大堆随机生成的噪声信号!所以,这样的智能其实是靠人工标注的数据堆砌出来的。正所谓,‘有多少人工,就有多少智能。’ 《科学》杂志的这篇文章正是要突破‘大数据’的瓶颈,把人工智能真正建立在小数据的基础。从小数据中萃取的智能才可能是真正的大智能!”--- by 周少华      我们非常高兴的看到RCN的成功,但同时更希望看到,也相信很快能看到,更多的对其模型背后框架的思考和进一步研究。这里,我们引用Vicarious的博客文章的结束语来共勉之:“Miles Brundage said it well: Progress so farhas largely been toward demonstrating general approaches for building narrow systems rather than general approaches for building general systems. Progress toward the former does not entail substantial progress toward the latter. General systems are hard to evaluate and harder to build than their narrow counterparts, but we must confront this difficulty directly if we ever hope to achieve human level intelligence with qualities like common sense.”  [1] D. George, W. Lehrach, K. Kansky, M. Lázaro-Gredilla, C. Laan, B. Marthi, X.Lou, Z. Meng, Y. Liu, H. Wang, A. Lavin, and D. S. Phoenix, “A generative vision model that trains with high data efficiency and breaks text-based CAPTCHAs”, Science, 2017.[2] https://www.vicarious.com/2017/1 ... cortex-and-captcha/[3] S.-C. Zhu(朱松纯), D. Mumford, “Astochastic grammar of images,” Foundations and Trends in Computer Graphics and Vision, 2007.[4] Z. Si(司长长), S.-C. Zhu(朱松纯), “Learning AND-OR templates for object recognition anddetection,” PAMI, 2013.[5] A. L. Yuille, “Towards a theory of compositional learning and encoding ofobjects,” ICCV Workshops, 2011.[6] T. F. Wu(吴田富), G.-S. Xia, S.- C. Zhu(朱松纯),“Compositional Boosting for Computing Hierarchical Image Structures,” CVPR,2007. https://v.qq.com/x/page/s0566jrzxbe.html[7] T. F. Wu(吴田富), Y. Lu(吕洋),S.-C. Zhu(朱松纯), “Online ObjectTracking, Learning and Parsing with And-Or Graphs,” TPAMI, 2016. https://v.qq.com/x/page/c0566u9xcel.html[8] A DARPA Perspective on AI, https://www.youtube.com/watch?v=-O01G3tSYpU&t=3s or https://v.qq.com/x/page/b0378w9dkgk.html[9] Z. Tu(屠卓文),X. Chen, A. L. Yuille, S.-C. Zhu(朱松纯), “Image parsing:Unifying segmentation, detection, and recognition,” IJCV, 2005.[10] B. M. Lake, R. Salakhutdinov, J. B. Tenenbaum, “Human-level concept learningthrough probabilistic program induction,” Science, 2015. 版权声明:本原创文章版权属于《视觉求索》公众号。任何单位或个人未经本公众号的授权,不得擅自转载。联系授权转载请通过订阅公众号后发消息或电邮visionseekereditors@gmail.com。 via: http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect




PaperWeekly   网页链接 2017-10-30 16:38
深度学习 视觉 算法 强化学习
【8份最新“Paper + 开源代码”推荐】 本期论文推荐关键词:#Semantic Parsing# #Sequence Labeling# #QA# #GAN# #Data Augmentation# #Image Denoising# #Deep Reinforcement Learning# #RNN# 查看完整论文:http://t.cn/RWBWce1




ChatbotsChina   网页链接 2017-10-30 15:07
深度学习 算法 神经网络
【综述论文:当前深度神经网络模型压缩和加速方法速览】 By 机器之心 本文全面概述了深度神经网络的压缩方法,主要可分为参数修剪与共享、低秩分解、迁移/压缩卷积滤波器和知识精炼,本论文对每一类方法的性能、相关应用、优势和缺陷等进行独到的分析。 http://t.cn/RWEjDd1




网路冷眼   网页链接 2017-10-30 15:00
深度学习 算法 资源 PDF 论文 神经网络
【Learning Depth-Three Neural Networks in Polynomial Time】http://t.cn/RWBE6Pf 论文《学习深度:以多项式时间构建的3层神经网络》,PDF 格式,点击链接下载:http://t.cn/RWBE6PM




爱可可-爱生活   网页链接 2017-10-30 12:47
深度学习 算法 资源 Erwin Coumans 强化学习 视频
【PyBullet gym环境共生运动强化学习】《Deep Reinforcement Learning of Symbiotic Locomotion - YouTube》by Erwin Coumans http://t.cn/RW1sAZg http://t.cn/RW1s74O




IT技术博客大学习   网页链接 2017-10-30 10:05
算法 神经网络
【新颖训练方法——用迭代投影算法训练神经网络】 详见:http://t.cn/RW1A3Ao 分享自@云栖精选




蚁工厂   网页链接 2017-10-30 08:46
应用 代码 机器人
#开源项目推荐# foolqq:一个基于图片识别的QQ机器人。原理是定时截取屏幕,并识别图片关键点像素,确定群会话窗口的位置,并通过剪贴板实现JVM消息和屏幕消息的交换。通过Robot类操作鼠标和键盘。 避免走协议不稳定的情况~ http://t.cn/RW3T9Qn




数据分析研究者   网页链接 2017-10-30 08:11
【人口老龄化、失业、人工智能的一些看法】直觉上说,老龄人口占比上升会导致适龄劳动力供给下降,供求缺口将导致失业率的下降,更容易实现充分就业。然而美、欧、日经验表明,失业率与人口老龄化不存在明显负相关关系,老龄化长期中并不一定能够帮助失业率持续下降...延伸观点:http://t.cn/ROFVpmh


数据分析研究者 网页链接 转发于2017-10-30 11:35
【科学家:人工智能远未达自主意识】随着无人驾驶、刷脸支付等“黑科技”逐渐投入使用,人工智能技术突飞猛进,再次迎来发展高潮。但科学家指出,人工智能离拥有自主意识还遥遥无期,要担心人类被机器人统治的科幻情节成真,或是被机器人抢走工作,都还为时过早。http://t.cn/RW36xzv ​​​



爱可可-爱生活   网页链接 2017-10-30 05:50
自然语言处理 Jason Brownlee 情感分析
【用词嵌入模型预测电影评论情感倾向】《How to Develop a Word Embedding Model for Predicting Movie Review Sentiment | Machine Learning Mastery》by Jason Brownlee http://t.cn/RW3XTRn




爱可可-爱生活   网页链接 2017-10-30 05:28
代码 论文
《VPGNet: Vanishing Point Guided Network for Lane and Road Marking Detection and Recognition》S Lee, J Kim... [KAIST & Samsung Electronics DMC R&D Center] (2017) http://t.cn/RW3X7Qq GitHub: https://github.com/SeokjuLee/VPGNet




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-4-26 10:47 , Processed in 0.023900 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表