报告嘉宾:宋睿华 (中国人民大学) 报告题目:多模态预训练模型及在智能创作领域的应用 报告嘉宾:朱霖潮 (浙江大学) 报告题目:多模态分析中的迁移与对齐技术 Panel嘉宾: 宋睿华 (中国人民大学)、朱霖潮 (浙江大学)、段楠 (微软亚洲研究院)、刘洋 (北京大学) Panel议题: 1. ChatGPT在自然语言处理领域表现出卓越的性能,它的设计理念对于多模态预训练领域有哪些启示和影响? 2. 多模态预训练技术的研究趋势和重点方向是什么?多模态预训练模型是否是通向通用人工智能的可行途径? 3. 多模态预训练模型如何从大量数据中学习知识?如何提高模型的可解释性?知识是如何存储和访问的?如何动态修正错误的知识? 4. 如何全面评估多模态预训练模型的性能和价值?下游任务与多模态预训练模型之间的关系是什么?如何设计下游任务数据集以评估多模态预训练模型?是否可以构建数字仿真世界来验证和评估多模态预训练模型? 5. 多模态预训练模型需要大量数据支持,学术界和工业界如何平衡数据共享和数据隐私之间的关系?如何建立资源共享和合作机制以减少重复投入和资源浪费,提高研究效率和质量?学术界如何应对“大模型不开源”的挑战? 6. 大规模多模态预训练模型给人工智能创作带来了哪些新机遇和挑战?目前的瓶颈问题是什么?未来的发展路径是什么? *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:宋睿华 (中国人民大学) 报告时间:2023年03月29日 (星期三)晚上20:00 (北京时间) 报告题目:Multimodal Pre-training Models and their Applications in AI Creation (多模态预训练模型及在智能创作领域的应用) 报告人简介: 宋睿华博士,中国人民大学高瓴人工智能学院长聘副教授,曾任微软亚洲研究院主管研究员和微软小冰首席科学家。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她也是文澜多模态预训练项目的学术带头人,已发布6.5亿图文数据上预训练的文澜2.0和1千万视频文本数据上预训练的文澜3.0,并成功落地多个产品 (如OPPO手机中的为视障人士读图功能)。宋睿华博士是具有国际影响力的人工智能科学家,发表学术论文90余篇,申请国际专利25项。最近的研究兴趣包括多模态理解、创作和交互。她是SIGIR 2023讲席班的主席,ACL和SIGIR的Area Chair和Senior PC,和Information Retrieval Journal的主编。 个人主页: https://dblp.org/pid/s/RuihuaSong.html 报告摘要: 认知科学的具身革命带来从语言理解意义的新观点:思考以及使用语言的能力是视觉、听觉、嗅觉、触觉和运动神经等多种模态与头脑合作的成果。人类的孩子是在多模态环境下学习语言,这给AI的发展带来有益的启示。在这次讲座中,我将介绍我们在视觉和语言的关系上的探索与进展,以及超大规模预训练模型给人工智能创作带来的新机会。 参考文献: [1] Yuchong Sun, Hongwei Xue, Ruihua Song, Bei Liu, Huan Yang, Jianlong Fu: Long-Form Video-Language Pre-Training with Multimodal Temporal Contrastive Learning. NeurIPS 2022 [2] Qian Cao, Xu Chen, Ruihua Song, Hao Jiang, Guang Yang, Zhao Cao: Multi-Modal Experience Inspired AI Creation. ACM Multimedia 2022: 1445-1454 [3] Chuhao Jin, Hongteng Xu, Ruihua Song, Zhiwu Lu: Text2Poster: Laying Out Stylized Texts on Retrieved Images. ICASSP 2022: 4823-4827 [4] Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, Jiebo Luo: CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment. Accepted by ICLR 2023 报告嘉宾:朱霖潮 (浙江大学) 报告时间:2023年03月29日 (星期三)晚上20:30 (北京时间) 报告题目:多模态分析中的迁移与对齐技术 报告人简介: 朱霖潮,浙江大学百人计划研究员、博士生导师。主要研究方向为时序建模、多模态分析及其应用、人工智能交叉领域研究。曾获得THUMOS动作识别竞赛冠军 (2015)、EPIC-KITCHENS第一视角动作识别竞赛冠军 (2019,2020)、CVPR MABe多智能体行为建模竞赛冠军 (2022)等竞赛冠军。 个人主页: https://person.zju.edu.cn/linchao
报告摘要: 多模态分析是一个复杂的任务,涉及到视觉、语音、文本等多个模态。在多模态分析中,迁移与对齐技术能够将不同模态的信息对齐并进行多模态的迁移,提高任务的效果和性能。本次报告将介绍多模态分析中的迁移与对齐技术,包括基于提示词的迁移、多任务学习、零样本学习等。报告还将结合实验和应用案例,深入探讨迁移与对齐技术在多模态分析中的应用。最后,报告将讨论当前迁移与对齐技术面临的挑战和未来的发展方向。 Panel嘉宾:段楠 (微软亚洲研究院) 嘉宾简介: 段楠博士,微软亚洲研究院首席研究员,自然语言计算团队研究经理,中国科学技术大学兼职博导,天津大学兼职教授,中国计算机协会杰出会员,主要从事自然语言处理、代码智能、多模态智能、机器推理等研究,多次担任NLP/AI学术会议程序主席、评测主席、资深领域主席和领域主席,发表学术论文100余篇,持有专利20余项。 个人主页: https://nanduan.github.io/ 主持人:刘洋 (北京大学) 主持人简介: 刘洋,北京大学王选计算机研究所助理教授、研究员,博士生导师。在此之前,其博士毕业于英国剑桥大学计算机科学专业,而后曾任英国牛津大学VGG小组博士后研究员。研究方向是跨媒体智能,即运用人工智能算法处理跨模态信息分析与智能融合的相关问题,具体围绕多模态信息表征,跨模态对齐与智能融合,面向开放动态环境的跨模态分析三个方面展开。研究成果发表在计算机视觉、机器学习顶级会议上 (CVPR, ICCV, AAAI等)30余篇,获国际专利授权,五项国际竞赛获奖,部分创新性研究成果及其关键技术已在学术及产业界得到了应用。 个人主页: http://www.csyangliu.com/ 特别鸣谢本次Webinar主要组织者: 主办AC:刘洋 (北京大学) 协办AC:朱霖潮 (浙江大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ S群,群号:317920537); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 宋睿华 【slide】 朱霖潮 【slide】 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-11-21 23:29 , Processed in 0.013075 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.