20201125-28 耳聪目明：多模态认知计算的未来

2020-11-19 18:52| 发布者: 程一-计算所| 查看: 6026| 评论: 0

摘要: 报告时间2020年11月25日 (星期三)上午09:00 (北京时间)主题耳聪目明：多模态认知计算的未来主持人李学龙 (西北工业大学)报告嘉宾：胡迪 (中国人民大学)报告题目：听声识物与辨物知声报告嘉宾：淦创 (IBM美国研究院) ...

报告时间	2020年11月25日 (星期三) 上午09:00 (北京时间)
主题	耳聪目明：多模态认知计算的未来
主持人	李学龙 (西北工业大学)

报告嘉宾：胡迪 (中国人民大学)

报告题目：听声识物与辨物知声

报告嘉宾：淦创 (IBM美国研究院)

报告题目：多模态视频分析

Panel嘉宾：

胡迪 (中国人民大学)、淦创 (IBM美国研究院)、田亚鹏 (University of Rochester)、高若涵 (UT Austin)、周航 (CUHK)、李丁泽宇 (Adobe Research)

Panel议题：

1. 声音视觉协同学习 (audio-visual learning)作为新兴的研究方向，很多老师和同学对这个领域还比较陌生。大家可不可以先简单介绍下自己在这个方向上研究的问题？

2. 声音中有哪些信息是视觉里没有的，声音这个模态相对于其他“supplementary”模态 (e.g., text, depth, etc.)的优点?

3. 目前声音视觉协同学习中的很多问题比如声音分离，声音到人脸合成甚至自监督特征学习等使用的数据主要是语音/人脸和乐器/音乐，大家如何看待这种现象，为什么这类数据在声音视觉协同学习中受到关注？以及这些语音和乐器分离到真实世界的应用还有多远？还有哪些挑战？

4. 声音视觉协同学习在使用包含更多声音视觉事件的真实场景数据中面临什么样的问题？

5. 声音视觉在哪些领域能有还未完全开发的潜力？

a). 一个很有潜力的领域是用在accessibility，给视障或者听障人士提供更加准确全面的信息，目前有哪些挑战呢？

b). VR/AR 领域近些年发展迅速，声音视觉在这方面有哪些前景？

c). 在教育领域，对视觉和声音的联合智能识别与反馈是否可以优化教育模式，例如音乐教学中对错音与动作的纠正。

6. 我们人是如何处理声音视觉信号来感知这个世界，从中我们能得到什么启示？

7. 声音视觉协同学习有哪些待解决的问题或潜在方向？未来的主要研究挑战是什么？有哪些新的benchmark problems能够促进在这个领域将来的研究？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：胡迪 (中国人民大学)

报告时间：2020年11月25日(星期三)上午09:00(北京时间)

报告题目：听声识物与辨物知声

报告人简介：

中国人民大学准聘助理教授，于2019年获得西北工业大学博士学位。曾任百度研究院人工智能研究员。主要研究方向为机器多模态感知与学习，以主要作者身份在领域顶级国际会议及期刊上发表论文10余篇，如 NeurIPS、CVPR、ICCV、ECCV、AAAI等。攻博期间曾入选 CVPR Doctoral Consortium；荣获2019 ACM XI’AN 优博奖，2020中国人工智能学会优博奖；入选百度全球顶尖人工智能人才计划。受邀为CVPR、ICCV、ECCV、NeurIPS等多个国际高水平会议及期刊审稿。部分研究成果正同产业应用相结合以发挥其社会价值，如利用机器辅助手段提升视障人士的感知能力等。

个人主页：

http://dtaoo.github.io/

报告摘要：

视、听是大脑接收外界信息的主要方式，它们通过相互协作，帮助我们在环境感知、理解、决策等任务上具备更加精准或高效的表现。反观当前机器智能的发展，我们已分别在计算机视觉、声音信号处理等领域取得了长足进步，但在多种模态信息的协同感知上仍处于研究的早期阶段。在本次报告中，他将聚焦典型的视音多模态场景，针对视音数据，介绍它们在环境感知、场景分析与跨模态理解等方面的协同学习机制和相关应用。

参考文献：

[1] Di Hu, Feiping Nie, and Xuelong Li. “Deep Multimodal Learning for Unsupervised Audiovisual Learning,” Proc. CVPR, 2019.

[2] Di Hu, Dong Wang, Xuelong Li, Feiping Nie, and Qi Wang. “Listen to the Image,” Proc. CVPR, 2019.

[3] Di Hu, Xuhong Li, Lichao Mou, et al. “Cross-Task Transfer for Geotagged Audiovisual Aerial Scene Recognition,” Proc. ECCV, 2020.

[4] Rui Qian, Di Hu, Heinrich Dinkel, et al. “Multiple Sound Sources Localization from Coarse to Fine,” Proc. ECCV, 2020.

[5] Di Hu, Rui Qian, Minyue Jiang, et al. “Discriminative Sounding Objects Localization via Self-supervised Audiovisual Matching,” NeurIPS, 2020.

报告嘉宾：淦创 (IBM 美国研究院)

报告时间：2020年11月25日(星期三)上午09:30(北京时间)

报告题目：多模态视频分析

报告人简介：

淦创博士是IBM 美国研究院的主任研究员(Principal Research Staff Member)，主要从事多模态视频分析相关的研究及产品落地。他在计算机视觉及人工智能国际顶级期刊和会议（如TPMAI, IJCV, CVPR, ICCV, ECCV, NeuIPS, ICLR）上发表论文60多篇，并有多项研究成果也得到了国际主流媒体 (CNN, BBC, WIRED, MIT Tech Review, Forbes, ZDNet )的关注与报道。他在ICLR, IJCAI. AAAI, ACM Multimedia, BMVC 等多个计算机视觉和人工智能国际顶级会议担任领域主席. 并多次在计算机视觉顶级会议CVPR 和ECCV 的研讨会上做主题报告。他同时还担任IEEE Transactions on Image Processing 和 ACM Transactions on Multimedia 的副主编。在清华读博期间，他是清华大学研究生特等奖学金，微软学者奖学金，百度学者奖学金的获得者。

个人主页：

http://people.csail.mit.edu/ganchuang/

报告摘要：

目前关于视频理解的研究主要集中在视频的视觉模态上，而视频数据本身就多模态的，包括视频，声音，文本等。人类本身也是通过多模态融合来感知周围的环境。心理学家也在多项实验中发现，早期婴儿也是通过图像，声音和语言的多模式来感知和理解物理世界。在本次报告中，他将首先介绍结合视觉和音频信号在视频分析上的应用，包括声音分离，声源定位和音乐生成的应用。最后，他将讲介绍其团队最近发布的名为 ThreeDWorld的多模态交互的虚拟物理场景模拟器。

Panel嘉宾：田亚鹏 (University of Rochester)

嘉宾简介：

田亚鹏，本科和硕士分别毕业于西安电子科技大学和清华大学，目前是罗彻斯特大学四年级博士生，研究方向为计算机视觉和计算机听觉，主要从事多模态视频场景理解和图像/视频复原方面的研究。在CVPR, ECCV, ICCV, T-PAMI, TIP, TMM等国际期刊会议上发表多篇论文。是CVPR, ECCV, ICCV, AAAI, NeurIPS, ICLR, CVIU, IEEE TCSVT, IEEE TMM, Computer Graphics Forum 等多个知名国际会议期刊的审稿人。

个人主页：

http://yapengtian.org/

Panel嘉宾：高若涵 (UT Austin)

嘉宾简介：

Ruohan Gao is currently a final-year Ph.D. candidate at UT Austin working with Prof. Kristen Grauman and a visiting researcher at Facebook AI Research. His research interests are in computer vision and machine learning. Particularly, he is interested in audio-visual learning from videos and embodied visual learning with multiple modalities. During his PhD, he has received the Google PhD Fellowship, the Adobe Research Fellowship, the Graduate Dean's Prestigious Fellowship Supplement Award, and a Best Paper Finalist at CVPR 2019 for his work on 2.5D visual sound. Before graduate school, Ruohan received his B.Eng. degree from the Department of Information Engineering at The Chinese University of Hong Kong in 2015 with First Class Honours.

个人主页：

https://www.cs.utexas.edu/~rhgao/

Panel嘉宾：周航 (CUHK)

嘉宾简介：

周航，香港中文大学多媒体实验室四年级博士生，师从王晓刚教授。本科毕业于南京大学声学系。目前主要研究方向是音频-视觉的联合学习与人脸生成，在ICCV/CVPR/ECCV/AAAI等会议发表多篇论文。CVPR 2020优秀审稿人，NeurIPS 2020 top 10%审稿人，致力于推动视听结合的多模态领域发展。

个人主页：

https://hangz-nju-cuhk.github.io/

Panel嘉宾：李丁泽宇 (Adobe Research)

嘉宾简介：

Dingzeyu Li is a Research Scientist at Adobe Research. He got his PhD in Computer Science from Columbia University and BEng from HKUST. He is interested in audiovisual cross-modal media synthesis using tools from computer vision, graphics, deep learning, and HCI. More broadly, he is interested in novel creative authoring/editing applications for everyone. My past research and engineering has been recognized by an Emmy Award for Technology and Engineering (2020), two Adobe MAX Sneaks Demos(2019 , 2020), an ACM UIST Best Paper Award (2017), an Adobe Research Fellowship (2017), a NVIDIA PhD Fellowship Finalist (2017), a Shapeways Educational Grant (2016), and an HKUST academic achievement medal (2013). I have served as international program committee members for Eurographics 2020 and 2021, Graphics Interface 2020, and ACM Multimedia 2019, and as reviewers for various academic conferences including SIGGRAPH, CVPR, ICCV, UIST, CHI, etc.

个人主页：

https://dingzeyu.li/