报告嘉宾:程明明 (南开大学) 报告题目:从个性化生成到视觉统一模型 报告嘉宾:王兴刚 (华中科技大学) 报告题目:基于线性架构的轻量化多模态大模型 Panel嘉宾: 张平平 (大连理工大学)、李国齐 (中科院自动化所)、张铭津 (西安电子科技大学) Panel议题: 1. 基于Transformer的多模态大模型已经取得了巨大的成功,目前的大模型技术还有哪些不足或难点?哪些方向需要继续深挖和提升? 2. 目前已经涌现出一些新型神经网络,如Mamba、KAN、RWKV等,然而它们仍在诸多方面无法撼动Transformer的地位,未来的新型神经网络应具有什么特点?应如何设计超越Transformer的新型神经网络? 3. 大模型的推理能力在Scaling Law的加持下逐步变得更强 (如GPT4/5、Deep Seek),CV和NLP任务是否会变得更容易解决,甚至不需要研发新的神经网络模型?如何保证大模型的便捷化应用? 报告嘉宾:程明明 (南开大学) 报告时间:2025年9月10日 (星期三)晚上19:00 (北京时间) 报告题目:从个性化生成到视觉统一模型 报告人简介: 程明明,南开大学二级教授,卓越工程师学院执行院长,媒体计算团队学术带头人。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。主要研究方向是人工智能、计算机视觉和计算机图形学,在SCI一区/CCF A类刊物上发表学术论文100余篇 (含IEEE TPAMI论文40余篇),h-index为100,谷歌学术引用6万余次,单篇最高引用5千余次,多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的4名博士生获得省部级优秀博士论文奖。现担任天津市视觉计算与智能感知重点实验室主任、中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI, IEEE TIP和《中国科学:信息科学》编委。
个人主页: https://mmcheng.net/cmm/
报告摘要: 自ChatGPT出现后,自然语言任务向生成模式的统一处理,为通用人工智能的发展提供了新思路。在视觉领域,如何统一多样化的感知与生成任务,并充分利用视觉数据中的通用知识,成为关键挑战。由于视觉任务形式复杂且不统一、信息密度低,且缺乏结构化标注,现有统一模型通常仅能处理十余种任务。本报告汇报一种通用任务表示方法,将图像与文本在时空维度进行关联,并基于五种元任务构建了覆盖130多种视觉任务的大规模预训练数据集,从而显著提升了任务的密集性与任务间的相关性。通过该数据集对文生图模型进行微调,我们开发出视觉统一模型VisualCloze。该模型不仅能够统一处理多种图像理解与生成任务,还展现出对未见任务的Few-Shot乃至Zero-Shot泛化能力,为构建通用视觉模型迈出重要一步。
参考文献: [1] Li Z, Cao M, Wang X, et al. Photomaker: Customizing realistic human photos via stacked id embedding[C]. CVPR2024: 8640-8650. [2] Zhou Y, Zhou D, Cheng M M, et al. Storydiffusion: Consistent self-attention for long-range image and video generation[J]. NeurIPS2024, 37: 110315-110340. [3] Li Z Y, Du R, Yan J, et al. VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning[J]. arXiv preprint arXiv:2504.07960, 2025. 报告嘉宾:王兴刚 (华中科技大学) 报告时间:2025年9月10日 (星期三)晚上19:40 (北京时间) 报告题目:基于线性架构的轻量化多模态大模型 报告人简介: 王兴刚,华中科技大学电信学院教授,博导。主要从事视觉表征学习、多模态基础模型、自动驾驶等领域研究,谷歌学术引用4.3万次,一作/通讯引用1000+论文7篇。入选了国家级青年人才、中国科协青托,获湖北青年五四奖章、CSIG青年科学家奖、 CAAI吴文俊优秀青年奖、CVM期刊年度最佳论文奖、MIR期刊年度最高引用论文奖、微软学者奖等。现任Image and Vision Computing期刊共同主编、IEEE TPAMI编委、CVPR/ICCV/AAAI/NeurIPS领域主席等。 个人主页: http://faculty.hust.edu.cn/xwang 报告摘要: 如何打造轻量化高效率的多模态大模型是当前人工智能领域的一个关键问题。近期,状态空间模型 (SSM)、门控线性注意力 (GLA)等线性模型为打造轻量化多模态大模型提供了新的可行路径。本次报告将介绍线性模型的发展脉络,并探讨如何基于线性模型来构建性能领先的视觉理解基础模型 (Vision Mamba, ICML 2024、Vision GLA, AAAI 2025)、轻量化视觉语言模型 (MaTVLM,ICCV 2025)、视觉生成模型 (Diffusion GLA, CVPR 2025)、理解与生成一体化模型 (OmniMamba)和原生多模态模型 (mmMamba)等。
参考文献: [1] Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang*. Vision mamba: Efficient visual representation learning with bidirectional state space model. ICML 2024 [2] Bencheng Liao, Xinggang Wang, Lianghui Zhu, Qian Zhang, Chang Huang. ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention. AAAI Conference on Artificial Intelligence (AAAI) 2025 [3] Yingyue Li, Bencheng Liao, Wenyu Liu, Xinggang Wang. MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling. International Conference on Computer Vision (ICCV) 2025 [4] Jialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang. OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models. arXiv:2503.08686 [5] Bencheng Liao, Hongyuan Tao, Qian Zhang,Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang. Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation. arXiv:2502.13145 Panel嘉宾:李国齐 (中科院自动化所) 嘉宾简介: 李国齐,中国科学院自动化所研究员,脑认知与类脑智能全国重点实验室副主任,通用类脑智能大模型北京市重点实验室主任,国家杰出青年基金获得者;在Nature、Nature子刊、Science子刊等期刊和AI顶会上发表论文200余篇,论文被引用1.7万余次;主持国家自然科学基金重点项目、联合重点项目、科技部重点研发项目等30余项;担任IEEE TNNLS,IEEE TCDS和清华大学学报-自然科学版编委;曾获得中国自动化学会自然科学一等奖,ECCV最佳论文奖提名,中国算力大会最佳论文奖,曾入选北京市杰青,中国科学院百人计划,DeepTech中国智能计算科技创新人物,中国算力青年先锋人物。 个人主页: http://www.ia.cas.cn/rcdw/jcqn/202404/t20240422_7130910.html Panel嘉宾:张铭津 (西安电子科技大学) 嘉宾简介: 张铭津,西安电子科技大学通信工程学院教授,博士生导师,国家级青年人才。2015至2016年赴澳大利亚悉尼科技大学访问研究。长期围绕计算机视觉、人工智能、跨域图像处理开展研究,成果应用于高分辨对地观测、深空探测等领域。曾入选中国科协青年人才托举工程、中国图象图形学会石青云女科学家、获吴文俊中国人工智能优秀青年奖、中国图象图形学会优秀博士学位论文,指导学生获中国“互联网+”大学生创新创业大赛冠军等。迄今为止,作为第一作者/通讯作者在领域内国际重要期刊及会议发表学术论文40余篇,其中包含IEEE TIP、TCYB、TNNLS、CVPR、ICCV等,担任TVCJ、Applied Sciences等SCI期刊编委,担任CVPR等国际会议高级程序委员会委员。
个人主页: https://scholar.google.com/citations?user=oYdxAkcAAAAJ&hl=zh-CN 主持人:张平平 (大连理工大学) 主持人简介: 张平平,大连理工大学未来技术学院/人工智能学院副教授,研究方向为计算机视觉与深度学习。在领域内的国际顶级会议和期刊 (如CVPR/ICCV/ECCV/TPAMI/TIP/TOG等)上发表论文60余篇,目前谷歌学术引用6700余次。主持或参与国家重点研发、国家自然科学基金、省部级基金/开放课题等多项科研项目。目前为CSIG机器视觉专委会/多媒体专委会、CCF视觉专委会委员,担任多个国际顶级学术期刊和会议编委或领域主席,国内盛会VALSE第6-8届执行领域主席。曾获得辽宁省自然科学二等奖,2020年度中国图象图形学会优秀博士论文、辽宁省优秀博士论文等。
个人主页: http://faculty.dlut.edu.cn/zhangpingping/zh_CN/index.htm 特别鸣谢本次Webinar主要组织者: 主办AC:张平平 (大连理工大学) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-10-14 13:36 , Processed in 0.014637 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.