VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 20230329-06期 总第306期 多模态预训练的研究进展与未来 ... ...

2023-3-23 17:29| 发布者: 程一-计算所| 查看: 1301| 评论: 0

摘要: 报告时间2023年03月29日 (星期三)晚上20:00 (北京时间)主 题多模态预训练的研究进展与未来主持人刘洋 (北京大学)直播地址https://live.bilibili.com/22300737报告嘉宾:宋睿华 (中国人民大学)报告题目:多模态预训练 ...

报告时间

2023年03月29日 (星期三)

晚上20:00 (北京时间)

主  题

多模态预训练的研究进展与未来

主持人

刘洋 (北京大学)

直播地址

https://live.bilibili.com/22300737


报告嘉宾:宋睿华 (中国人民大学)

报告题目:多模态预训练模型及在智能创作领域的应用


报告嘉宾:朱霖潮 (浙江大学)

报告题目:多模态分析中的迁移与对齐技术




Panel嘉宾:

宋睿华 (中国人民大学)、朱霖潮 (浙江大学)、段楠 (微软亚洲研究院)、刘洋 (北京大学)


Panel议题:

1. ChatGPT在自然语言处理领域表现出卓越的性能,它的设计理念对于多模态预训练领域有哪些启示和影响?

2. 多模态预训练技术的研究趋势和重点方向是什么?多模态预训练模型是否是通向通用人工智能的可行途径?

3. 多模态预训练模型如何从大量数据中学习知识?如何提高模型的可解释性?知识是如何存储和访问的?如何动态修正错误的知识?

4. 如何全面评估多模态预训练模型的性能和价值?下游任务与多模态预训练模型之间的关系是什么?如何设计下游任务数据集以评估多模态预训练模型?是否可以构建数字仿真世界来验证和评估多模态预训练模型?

5. 多模态预训练模型需要大量数据支持,学术界和工业界如何平衡数据共享和数据隐私之间的关系?如何建立资源共享和合作机制以减少重复投入和资源浪费,提高研究效率和质量?学术界如何应对“大模型不开源”的挑战?

6. 大规模多模态预训练模型给人工智能创作带来了哪些新机遇和挑战?目前的瓶颈问题是什么?未来的发展路径是什么?


*欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题!


报告嘉宾:宋睿华 (中国人民大学)

报告时间:2023年03月29日 (星期三)晚上20:00 (北京时间)

报告题目:Multimodal Pre-training Models and their Applications in AI Creation (多模态预训练模型及在智能创作领域的应用)


报告人简介:

宋睿华博士,中国人民大学高瓴人工智能学院长聘副教授,曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她也是文澜多模态预训练项目的学术带头人,已发布6.5亿图文数据上预训练的文澜2.0和1千万视频文本数据上预训练的文澜3.0,并成功落地多个产品 (如OPPO手机中的为视障人士读图功能)。宋睿华博士是具有国际影响力的人工智能科学家,发表学术论文90余篇,申请国际专利25项。最近的研究兴趣包括多模态理解、创作和交互。她是SIGIR 2023讲席班的主席,ACL和SIGIR的Area Chair和Senior PC,和Information Retrieval Journal的主编。


个人主页:

https://dblp.org/pid/s/RuihuaSong.html


报告摘要:

认知科学的具身革命带来从语言理解意义的新观点:思考以及使用语言的能力是视觉、听觉、嗅觉、触觉和运动神经等多种模态与头脑合作的成果。人类的孩子是在多模态环境下学习语言,这给AI的发展带来有益的启示。在这次讲座中,我将介绍我们在视觉和语言的关系上的探索与进展,以及超大规模预训练模型给人工智能创作带来的新机会。


参考文献:

[1] Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu: Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning. NeurIPS 2022

[2] Qian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao: Multi-Modal Experience Inspired AI Creation. ACM Multimedia 2022: 1445-1454

[3] Chuhao Jin, Hongteng Xu, Ruihua Song, Zhiwu Lu: Text2Poster: Laying Out Stylized Texts on Retrieved Images. ICASSP 2022: 4823-4827

[4] Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo: CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment. Accepted by ICLR 2023


报告嘉宾:朱霖潮 (浙江大学)

报告时间:2023年03月29日 (星期三)晚上20:30 (北京时间)

报告题目:多模态分析中的迁移与对齐技术


报告人简介:

朱霖潮,浙江大学百人计划研究员、博士生导师。主要研究方向为时序建模、多模态分析及其应用、人工智能交叉领域研究。曾获得THUMOS动作识别竞赛冠军 (2015)、EPIC-KITCHENS第一视角动作识别竞赛冠军 (2019,2020)、CVPR MABe多智能体行为建模竞赛冠军 (2022)等竞赛冠军。


个人主页:

https://person.zju.edu.cn/linchao

 

报告摘要:

多模态分析是一个复杂的任务,涉及到视觉、语音、文本等多个模态。在多模态分析中,迁移与对齐技术能够将不同模态的信息对齐并进行多模态的迁移,提高任务的效果和性能。本次报告将介绍多模态分析中的迁移与对齐技术,包括基于提示词的迁移、多任务学习、零样本学习等。报告还将结合实验和应用案例,深入探讨迁移与对齐技术在多模态分析中的应用。最后,报告将讨论当前迁移与对齐技术面临的挑战和未来的发展方向。


Panel嘉宾段楠 (微软亚洲研究院)


嘉宾简介:

段楠博士,微软亚洲研究院首席研究员,自然语言计算团队研究经理,中国科学技术大学兼职博导,天津大学兼职教授,中国计算机协会杰出会员,主要从事自然语言处理、代码智能、多模态智能、机器推理等研究,多次担任NLP/AI学术会议程序主席、评测主席、资深领域主席和领域主席,发表学术论文100余篇,持有专利20余项。


个人主页:

https://nanduan.github.io/


主持人:刘洋 (北京大学)


主持人简介:

刘洋,北京大学王选计算机研究所助理教授、研究员,博士生导师。在此之前,其博士毕业于英国剑桥大学计算机科学专业,而后曾任英国牛津大学VGG小组博士后研究员。研究方向是跨媒体智能,即运用人工智能算法处理跨模态信息分析与智能融合的相关问题,具体围绕多模态信息表征,跨模态对齐与智能融合,面向开放动态环境的跨模态分析三个方面展开。研究成果发表在计算机视觉、机器学习顶级会议上 (CVPR, ICCV, AAAI等)30余篇,获国际专利授权,五项国际竞赛获奖,部分创新性研究成果及其关键技术已在学术及产业界得到了应用。


个人主页:

http://www.csyangliu.com/



特别鸣谢本次Webinar主要组织者:

主办AC:刘洋 (北京大学)

协办AC:朱霖潮 (浙江大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ S群,群号:317920537);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。


宋睿华 【slide】

朱霖潮 【slide】


小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-5-27 01:13 , Processed in 0.013188 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部