VALSE Webinar 20240327-08期总第342期多模态大模型的前身与今世

2024-3-21 12:58| 发布者: 程一-计算所| 查看: 946| 评论: 0

摘要: 报告嘉宾：叶翰嘉 (南京大学)报告题目：基于大语言模型的CLIP零样本分类报告嘉宾：徐海洋 (阿里巴巴-通义实验室)报告题目：通义mPLUG多模态大模型技术体系报告嘉宾：叶翰嘉 (南京大学)报告时间：2024年3月27日 (星期 ...

报告嘉宾：叶翰嘉 (南京大学)

报告题目：基于大语言模型的CLIP零样本分类

报告嘉宾：徐海洋 (阿里巴巴-通义实验室)

报告题目：通义mPLUG多模态大模型技术体系

报告嘉宾：叶翰嘉 (南京大学)

报告时间：2024年3月27日 (星期三)晚上20:00 (北京时间)

报告题目：基于大语言模型的CLIP零样本分类

报告人简介：

叶翰嘉现任南京大学人工智能学院副教授，在南京大学机器学习与数据挖掘研究所 (LAMDA)从事学术研究工作，研究方向包括表示学习、预训练模型复用等领域。叶翰嘉在人工智能领域发表《IEEE Trans. PAMI》等学术论文50余篇，受邀担任国际重要会议ICML/ CVPR/ IJCAI领域主席/高级程序委员会成员、国际重要会议SDM Tutorial/ Doctoral Forum主席、中国计算机学会高级会员；作为核心成员参与“新一代人工智能”重大项目，主持国家自然科学基金面上项目，获中国计算机学会优秀博士学位论文奖、江苏省计算机学会青年科技奖。

个人主页：

https://www.lamda.nju.edu.cn/yehj/

报告摘要：

近年来，以CLIP为代表的视觉-语言多模态预训练模型广受关注，并在图像分类等任务上展现出强大的零样本泛化性能，仅通过类别的文本描述，即可对图像进行准确分类。本报告探讨CLIP这类多模态模型中，视觉和语言模态特征表示的差异对模型能力的影响，以及如何利用大语言模型进一步提升CLIP的零样本分类能力并降低开销。首先，利用大语言模型作为领域专家提供对类别语义的描述，构建样本在模态之间的相对表示，无需进一步训练即可增强CLIP的零样本、小样本分类能力；面向多个存在领域差异的CLIP模型，大语言模型可辅助构建模型库中CLIP模型的表示，给定新任务的文本描述，即可轻量化选择出在当前任务上具有最优零样本分类能力的模型，从而充分利用模型库中模型的多样化知识。

参考文献：

[1] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-8763.

[2] Weixin Liang, Yuhui Zhang, Yongchan Kwon, Serena Yeung, James Y. Zou. Mind the Gap: Understanding the Modality Gap in Multi-modal Contrastive Representation Learning. NeurIPS 2022.

[3] Renrui Zhang, Wei Zhang, Rongyao Fang, Peng Gao, Kunchang Li, Jifeng Dai, Yu Qiao, Hongsheng Li. Tip-Adapter: Training-Free Adaption of CLIP for Few-Shot Classification. ECCV (35) 2022: 493-510.

[4] Sachit Menon, Carl Vondrick. Visual Classification via Description from Large Language Models. ICLR 2023.

[5] Yi-Kai Zhang, Ting-Ji Huang, Yao-Xiang Ding, De-Chuan Zhan, Han-Jia Ye. Model Spider: Learning to Rank Pre-Trained Models Efficiently. NeurIPS 2023.

[6] Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung. LOVM: Language-Only Vision Model Selection. NeurIPS 2023.

[7] Chao Yi, Lu Ren, De-Chuan Zhan, Han-Jia Ye. Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification. CVPR, 2024.

[8] Chao Yi, De-Chuan Zhan, Han-Jia Ye. Bridge the Modality and Capacity Gaps in Vision-Language Model Selection. CoRR, 2024.

报告嘉宾：徐海洋 (阿里巴巴-通义实验室)

报告时间：2024年3月27日 (星期三)晚上20:40 (北京时间)

报告题目：通义mPLUG多模态大模型技术体系

报告人简介：

徐海洋，阿里高级算法专家，负责通义多模态大模型mPLUG体系，在国际顶级期刊和会议ICML/ CVPR/ ICCV/ ACL/ EMNLP/ MM/ TOIS/ IJCAI/ AAAI等发表论文30多篇，并担任多个顶级和会议AC/ PC/ Reviewer，mPLUG VQA Leaderboard首超人类水平，获得多个多模态榜单第一和Best Paper。主导参与开源项目mPLUG，X-PLUG，AliceMind，DELTA。

个人主页：

https://github.com/orgs/X-PLUG/repositories

报告摘要：

OpenAI GPT4V和Google Gemini都展现了非常强的多模态理解能力，推动了多模态大模型 (MLLM)快速发展，MLLM成为了现在业界最热的研究方向。多模态大模型mPLUG通过模块化方式将视觉表征与大语言模型结合，提升大语言模型的多模态能力，其技术体系包括多模态基础模型mPLUG/ mPLUG-2，多模态对话大模型mPLUG-Owl/ Owl2，多模态文档大模型mPLUG-DocOwl/ PaperOwl，多模态智能体Mobile-Agent，多模态视频模型Youku-mPLUG/ HiTeA。mPLUG VQA Leaderboard首超人类水平，获得多个多模态榜单第一和Best Paper。

Github (https://github.com/X-PLUG)。

参考文献：

[1] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections. EMNLP2022.

[2] mPLUG-2: A modularized multi-modal foundation model across text, image and video. ICML2023.

[3] mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality.

[4] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration. CVPR2024.

[5] mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding.

[6] mPLUG-PaperOwl: Scientific Diagram Analysis with the Multimodal Large Language Model.

[7] Mobile-Agent: Autonomous multi-modal mobile device agent with visual perception.

主持人：杨旭 (东南大学)

主持人简介：

杨旭，东南大学计算机系副教授，任新一代人工智能交叉与应用教育部重点实验室副主任。主要研究视觉文本多模态任务，最近尤其关注多模态大模型上下文学习。在过去的5年内，以第一作者身份发表顶级会议期刊论文多篇，包括TPAMI，CVPR，ICCV，ECCV，以及ACMMM。同时担任多项会议期刊审稿人工作，包括CVPR，ICCV，ECCV，TIP，TMM等，并且担任VALSE (视觉与学习青年学者研讨会)的EAAC。

个人主页：

https://yangxuntu.github.io/

特别鸣谢本次Webinar主要组织者：

主办AC：杨旭 (东南大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE Webinar 20240320-07期总第341期鲁棒开放世界感知下一篇：VALSE Webinar 20240403-09期总第343期以人为中心的生成、感知与决策 ...

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-8-5 10:02 , Processed in 0.013592 second(s), 14 queries .

返回顶部

VALSE Webinar 20240327-08期 总第342期 多模态大模型的前身与今世

相关分类

下级分类

VALSE Webinar 20240327-08期总第342期多模态大模型的前身与今世