VALSE Webinar 20230329-06期总第306期多模态预训练的研究进展与未来 ... ...

2023-3-23 17:29| 发布者: 程一-计算所| 查看: 2546| 评论: 0

摘要: 报告时间2023年03月29日 (星期三)晚上20:00 (北京时间)主题多模态预训练的研究进展与未来主持人刘洋 (北京大学)直播地址https://live.bilibili.com/22300737报告嘉宾：宋睿华 (中国人民大学)报告题目：多模态预训练 ...

报告时间	2023年03月29日 (星期三) 晚上20:00 (北京时间)
主题	多模态预训练的研究进展与未来
主持人	刘洋 (北京大学)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：宋睿华 (中国人民大学)

报告题目：多模态预训练模型及在智能创作领域的应用

报告嘉宾：朱霖潮 (浙江大学)

报告题目：多模态分析中的迁移与对齐技术

Panel嘉宾：

宋睿华 (中国人民大学)、朱霖潮 (浙江大学)、段楠 (微软亚洲研究院)、刘洋 (北京大学)

Panel议题：

1. ChatGPT在自然语言处理领域表现出卓越的性能，它的设计理念对于多模态预训练领域有哪些启示和影响？

2. 多模态预训练技术的研究趋势和重点方向是什么？多模态预训练模型是否是通向通用人工智能的可行途径？

3. 多模态预训练模型如何从大量数据中学习知识？如何提高模型的可解释性？知识是如何存储和访问的？如何动态修正错误的知识？

4. 如何全面评估多模态预训练模型的性能和价值？下游任务与多模态预训练模型之间的关系是什么？如何设计下游任务数据集以评估多模态预训练模型？是否可以构建数字仿真世界来验证和评估多模态预训练模型？

5. 多模态预训练模型需要大量数据支持，学术界和工业界如何平衡数据共享和数据隐私之间的关系？如何建立资源共享和合作机制以减少重复投入和资源浪费，提高研究效率和质量？学术界如何应对“大模型不开源”的挑战？

6. 大规模多模态预训练模型给人工智能创作带来了哪些新机遇和挑战？目前的瓶颈问题是什么？未来的发展路径是什么？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：宋睿华 (中国人民大学)

报告时间：2023年03月29日 (星期三)晚上20:00 (北京时间)

报告题目：Multimodal Pre-training Models and their Applications in AI Creation (多模态预训练模型及在智能创作领域的应用)

报告人简介：

宋睿华博士，中国人民大学高瓴人工智能学院长聘副教授，曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她也是文澜多模态预训练项目的学术带头人，已发布6.5亿图文数据上预训练的文澜2.0和1千万视频文本数据上预训练的文澜3.0，并成功落地多个产品 (如OPPO手机中的为视障人士读图功能)。宋睿华博士是具有国际影响力的人工智能科学家，发表学术论文90余篇，申请国际专利25项。最近的研究兴趣包括多模态理解、创作和交互。她是SIGIR 2023讲席班的主席，ACL和SIGIR的Area Chair和Senior PC，和Information Retrieval Journal的主编。

个人主页：

https://dblp.org/pid/s/RuihuaSong.html

报告摘要：

认知科学的具身革命带来从语言理解意义的新观点：思考以及使用语言的能力是视觉、听觉、嗅觉、触觉和运动神经等多种模态与头脑合作的成果。人类的孩子是在多模态环境下学习语言，这给AI的发展带来有益的启示。在这次讲座中，我将介绍我们在视觉和语言的关系上的探索与进展，以及超大规模预训练模型给人工智能创作带来的新机会。

参考文献：

[1] Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu: Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning. NeurIPS 2022

[2] Qian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao: Multi-Modal Experience Inspired AI Creation. ACM Multimedia 2022: 1445-1454

[3] Chuhao Jin, Hongteng Xu, Ruihua Song, Zhiwu Lu: Text2Poster: Laying Out Stylized Texts on Retrieved Images. ICASSP 2022: 4823-4827

[4] Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo: CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment. Accepted by ICLR 2023

报告嘉宾：朱霖潮 (浙江大学)

报告时间：2023年03月29日 (星期三)晚上20:30 (北京时间)

报告题目：多模态分析中的迁移与对齐技术

报告人简介：

朱霖潮，浙江大学百人计划研究员、博士生导师。主要研究方向为时序建模、多模态分析及其应用、人工智能交叉领域研究。曾获得THUMOS动作识别竞赛冠军 (2015)、EPIC-KITCHENS第一视角动作识别竞赛冠军 (2019，2020)、CVPR MABe多智能体行为建模竞赛冠军 (2022)等竞赛冠军。

个人主页：

https://person.zju.edu.cn/linchao

报告摘要：

多模态分析是一个复杂的任务，涉及到视觉、语音、文本等多个模态。在多模态分析中，迁移与对齐技术能够将不同模态的信息对齐并进行多模态的迁移，提高任务的效果和性能。本次报告将介绍多模态分析中的迁移与对齐技术，包括基于提示词的迁移、多任务学习、零样本学习等。报告还将结合实验和应用案例，深入探讨迁移与对齐技术在多模态分析中的应用。最后，报告将讨论当前迁移与对齐技术面临的挑战和未来的发展方向。

Panel嘉宾：段楠 (微软亚洲研究院)

嘉宾简介：

段楠博士，微软亚洲研究院首席研究员，自然语言计算团队研究经理，中国科学技术大学兼职博导，天津大学兼职教授，中国计算机协会杰出会员，主要从事自然语言处理、代码智能、多模态智能、机器推理等研究，多次担任NLP/AI学术会议程序主席、评测主席、资深领域主席和领域主席，发表学术论文100余篇，持有专利20余项。

个人主页：

https://nanduan.github.io/

主持人：刘洋 (北京大学)

主持人简介：

刘洋，北京大学王选计算机研究所助理教授、研究员，博士生导师。在此之前，其博士毕业于英国剑桥大学计算机科学专业，而后曾任英国牛津大学VGG小组博士后研究员。研究方向是跨媒体智能，即运用人工智能算法处理跨模态信息分析与智能融合的相关问题，具体围绕多模态信息表征，跨模态对齐与智能融合，面向开放动态环境的跨模态分析三个方面展开。研究成果发表在计算机视觉、机器学习顶级会议上 (CVPR, ICCV, AAAI等)30余篇，获国际专利授权，五项国际竞赛获奖，部分创新性研究成果及其关键技术已在学术及产业界得到了应用。

个人主页：

http://www.csyangliu.com/

特别鸣谢本次Webinar主要组织者：

主办AC：刘洋 (北京大学)

协办AC：朱霖潮 (浙江大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；