20190424-10 Connecting Vision and Language to Action

2019-4-19 10:31| 发布者: 程一-计算所| 查看: 4630| 评论: 0

摘要: VALSE Webinar改版说明：自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30 ...

VALSE Webinar改版说明：

自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：

1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。

2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

报告时间：2019年4月24日（星期三）晚上20:00（北京时间）

主题：Connecting Vision and Language to Action

主持人：谭明奎（华南理工大学）

报告嘉宾：吴琦（阿德莱德大学）

报告题目：V3A-Visual-based Asking, Answering and Acting

报告嘉宾：虞立成（UNC-Chapel Hill）

报告题目：Locate, Tell, Answer and Act: Connecting Vision, Language and Beyond

Panel议题：

在Vision和language任务中，vision信息和language信息相互补充，两部分信息对任务的贡献分别有多大？
Vision和Language相结合具有哪些潜在的应用？未来发展趋势如何？
Visual信息一般比较客观，但是language信息则包含了大量主观信息，如何在主观和客观之间取得平衡？
在vision和language任务中，往往在有限标注数据上进行训练。但是现实场景中，可能会出现大量不在训练集的新数据，其分布与训练数据有很大不同。如何有效解决vision和language任务中的out of sample问题？
神经网络并不能真正的理解视觉问答任务中的图片和问题，我们如何提高神经网络在视觉问答和视觉推理上的可解释性？
目前，Visual Reasoning得到了广泛关注。那么，Visual Reasoning和传统的Reasoning有什么明显区别？二者的划分界线在哪里？
目前已有大量基于图片数据的VQA和Visual Reasoning工作。由于图片数据是静态的，缺乏上下文信息，会不会出现“眼见不为实”的情况而影响结果？
Modular Network因在Reasoning任务中提供较为清晰的逻辑链而具有强大的发展前景。但Modular Network与NAS方法非常相似性，两者是否可以结合？
目前有言论认为某个领域获得图灵奖意味这个领域很难再有新的突破。事实上最近视觉产业界的热度确实有所下降，对此大家有什么看法？

Panel嘉宾：

吴琦（阿德莱德大学）、虞立成（UNC Chapel Hill）、苏航（清华大学）、蔡毅（华南理工大学）

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：吴琦（阿德莱德大学）

报告时间：2019年4月24日（星期三）晚上20:00（北京时间）

报告题目：V3A-Visual-based Asking, Answering and Acting

报告人简介：

吴琦，博士，澳大利亚阿德莱德大学讲师（助理教授），澳大利亚国家杰出青年基金项目获得者 (Australian Research Council DECRA Fellow)，澳大利亚科学院罗素奖（JG Russell Award）获得者，澳大利亚机器人视觉研究中心（ACRV）课题组副组长（Associate Investigator）。吴琦博士于2015年在英国巴斯大学获得博士学位，致力于计算机视觉领域研究，尤其关注于Vision-Language相关领域的研究。吴琦博士在CVPR, ICCV, ECCV, AAAI, IJCAI, TPAMI等多个顶级国际会议和期刊发表论文三十余篇，曾获得 NVIDIA Pioneering Research Award （2018）。吴琦博士亦担任TPAMI, IJCV, TIP, TCSVT, TOMMCAP, CVPR等顶级学术期刊会议审稿人。

个人主页：

http://www.qi-wu.me/publication.html

报告摘要：

The combined interpretation of vision and language has enabled the development of a range of applications that have made interesting steps towards Artificial Intelligence, including Image Captioning, Visual Question Answering (VQA), Visual Dialog (VisDial) and so on. However, towards a human-level intelligent agent, learning to perform actions with the visual and textual guidance is a significant step. In this talk, I will first present a V3A model that combines Asking, Answering and Act into a circle with Vision as the centre. I will then discuss some of our most recent works centre around this topic, including VQA, VisDial, Visual Question Generation, Referring Expression and Language-guided Navigation. Finally, I will discuss the potential that combines all of them together into a single platform.

参考文献：

[1] Peng Wang, Qi Wu, Jiewei Cao, Chunhua Shen, Lianli Gao, Anton van den Hengel. Neighbourhood Watch: Referring Expression Comprehension via Language-guided Graph Attention Networks. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019), 2019.

[2] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko Sunderhauf, Ian Reid, Stephen Gould, Anton van den Hengel. Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018), 2018.

报告嘉宾：虞立成（UNC-Chapel Hill）

报告时间：2019年4月24日（星期三）晚上20:30（北京时间）

报告题目：Locate, Tell, Answer and Act: Connecting Vision, Language and Beyond

报告人简介：

Licheng Yu is now a 5-th year PhD student from University of North Carolina at Chapel Hill. His advisor is Tamara L. Berg. He received his B.S degree from Shanghai Jiaotong University, and M.S degree from Georgia Tech. His research interest lies in the intersection between vision and language. He has been working on referring expression generation and comprehension, visual question answering, album summarization and embodied AI. He did his summer internships at eBay Research, Adobe Research and Facebook AI Research in 2016, 2017 and 2018 respectively.

个人主页：

http://cs.unc.edu/~licheng/

报告摘要：

Work in computer vision and natural language processing involving images and text has been experiencing explosive growth in recent years, with a particular boost from neural network revolution. Our intelligent agents are now able to do language grounding (locate), image captioning (tell), visual question answering (answer) and embodied AI task (act). These skills together make human-robot interaction achievable, e.g., robot could now accurately comprehend human’s spoken command and make desired actions. This talk will cover several of my PhD work, including referring expression generation and comprehension, and embodied question answering, as well as some thought on the future work connecting vision, language and beyond.

参考文献：

[1] Licheng Yu, Xinlei Chen, Georgia Gkioxari, Mohit Bansal, Tamara L. Berg, Dhruv Batra, “Multi-Target Embodied Question Answering”, in CVPR 2019.

[2] Hao Tan, Licheng Yu, Mohit Bansal, “Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”, in NAACL 2019.

[3] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Mohit Bansal, Tamara L. Berg, “MAttNet: Modular Attention Network for Referring Expression Comprehension”, in CVPR 2018.

[4] Licheng Yu, Hao Tan, Mohit Bansal, Tamara L. Berg, “A Joint Speaker-Listener-Reinforcer Model for referring expressions.”, in CVPR 2017.

[5] Licheng Yu, Patrick Poirson, Shan Yang, Alexander C. Berg, Tamara L. Berg, “Modeling Context in Referring Expressions”, in ECCV, 2016.

Panel嘉宾：苏航（清华大学）

嘉宾简介：

苏航，清华大学计算机系助理研究员。主要关注可理解人工智能理论、计算机视觉和强化学习等相关领域，先后CVPR、IJCAI、ECCV和TMI等人工智能顶级国际会议和期刊发表论文60余篇，并荣获ICME2018“白金最佳论文”,AVSS2012“最佳论文奖”和MICCAI2012的“青年学者奖”，VALSE2018 年度杰出学生论文奖，作为主要技术负责人，获得 ViZDoom 2018国际FPS赛事历史上首个中国区冠军。

个人主页：

http://www.suhangss.me

Panel嘉宾：蔡毅（华南理工大学）

嘉宾简介：

蔡毅，华南理工大学教授，博士生导师，教育部大数据与机器人智能粤港澳联合实验室主任，华工-金山办公软件联合实验室主任，华南理工大学计算智能与知识工程实验室主任；获2018中国计算机学会科学技术奖技术发明二等奖（第一完成人），2019日内瓦世界发明展银奖；博士毕业于香港中文大学，香港城市大学博士后，帝国理工大学访问学者，香港裘搓基金访问学者；中国计算机学会数据库专委会委员、中文信息专业委员会委员；中国中文信息学会语言与知识计算、社会媒体处理专委会委员；广东省大数据专委会副主任委员、数据库专家委员会理事，广东省“千百十工程”培养对象，广东省特支计划青年拔尖人才，广东省优秀青年创新人才人选;发表论文100多篇，其中 20多篇 SCI 期刊论文如TKDE、Neural Networks、KBS等；80多篇 EI 论文如COLING、CIKM等顶级国际学术会议。获国家科学技术学术著作出版基金，由高等教育出版社和Springer出版社出版全英文学术专著2本。获2018 Fuzzy Set and Data Mining Conference Best Oral Presentation Award， 2017中国高校计算机大赛大数据挑战赛亚军、2017中国计算机学会大数据与计算智能大赛一等奖等多个奖项，多个大数据与人工智能大赛指导委员会成员。主持2个国家级项目，7个省部级项目，参与国家级项目3个、省部级项目3个，4个海外研究项目，担任多个国际知名顶级期刊审稿人（如TKDE,TOIT,IEEE IS，DKE等），APWeb-WAIM 2018国际学术会议程序委员会主席；SCI检索的国际学术期刊World Wide Web Journal客座主编。

个人主页：

http://www2.scut.edu.cn/sse/2018/0615/c16788a270751/page.htm

主持人：谭明奎（华南理工大学）

主持人简介：

谭明奎，男，博士，华南理工大学教授、博士生导师。2006年和2009年于湖南大学获得环境科学与工程学士学位与控制科学与工程硕士学位。2014年获得新加坡南洋理工大学计算机科学博士学位。随后在澳大利亚阿德莱德大学计算机科学学院担任计算机视觉高级研究员。谭明奎教授于于2018年入选广东省“珠江人才团队”。自2016年9月全职回国以来，主持了国家自然科学基金青年项目、广东省新一代人工智能重点研发项目等多个重点项目。谭明奎教授一直从事机器学习和深度学习方面的研究工作，在深度神经网络结构优化及理论分析方面具有一定的研究基础。近年来以一作或者通讯作者完成的相关成果发表于人工智能顶级国际会议如NIPS、ICML、ACML、AAAI、CVPR、IJCAI和人工智能权威期刊如IEEE TNNLS、IEEE TIP、IEEE TSP、IEEE TKDE、JMLR等。

个人主页：

https://tanmingkui.github.io/

19-10期VALSE在线学术报告参与方式：

长按或扫描下方二维码，关注“VALSE”微信公众号（valse_wechat），后台回复“10期”，获取直播地址。