报告嘉宾:刘希慧 (香港大学) 报告题目:Towards Unified Multimodal Generative Models with Autoregressive Modeling 报告嘉宾:杨宗鑫 (Harvard University) 报告题目:Cross-modal Controllable Generation by Post-training 报告嘉宾:刘希慧 (香港大学) 报告时间:2025年6月18日 (星期三)晚上20:00 (北京时间) 报告题目:Towards Unified Multimodal Generative Models with Autoregressive Modeling 报告人简介: 刘希慧是香港大学的助理教授,她此前于清华大学获得学士学位,于香港中文大学获得博士学位,并在加州大学伯克利分校进行博士后研究。她的研究方向包括计算机视觉,深度学习,人工智能,主要研究兴趣是视觉生成模型和多模态。她曾获得2020年Adobe Research Fellowship, 2021年EECS Rising Stars, 和2022年世界人工智能大会云帆奖明日之星。她担任CVPR, ACM MM, ICLR, 和NeurIPS等会议的领域主席。 个人主页: https://xh-liu.github.io
报告摘要: 多模态统一的生成模型在近期受到广泛关注。我们认为自回归模型在原生的多模态统一建模方面具有巨大潜力,但目前也面临生成质量、生成效率等多方面的问题亟待解决。本报告将围绕自回归模型的的三个角度介绍: (1) 如何解决next-token-prediction的局限性,通过并行预测多个token,提升视觉自回归生成模型的推理效率; (2) 如何打破自回归视觉生成模型中,离散tokenizer带来的重建和生成质量上限,让离散的自回归模型能逼近连续token的建模效果; (3) 如何通过强化学习提升多模态自回归模型视觉生成过程中的推理能力。 报告嘉宾:杨宗鑫 (Harvard University) 报告时间:2025年6月18日 (星期三)晚上20:30 (北京时间) 报告题目:Cross-modal Controllable Generation by Post-training 报告人简介: 杨宗鑫,哈佛大学医学院博士后研究员。曾于浙江大学计算机学院从事博士后研究员工作。2021年于悉尼科技大学获博士学位。2018年于中国科学技术大学获学士学位。研究方向为视觉内容生成、多模态学习以及其在生物医学领域的应用等。已在NeurIPS、ICML、CVPR、ICCV、ACM MM等会议 (CCF-A类)和TPAMI、TIP等期刊 (CCF-A类、SCI一区)上发表40余篇高水平论文,获多模态领域顶会ACM MM 2023唯一最佳论文奖 (1/3072)。带队在视觉和多模态理解等领域国际高水平学术竞赛中获世界冠军8次。 个人主页: https://z-x-yang.github.io/ 报告摘要: 当前跨模态视觉内容生成虽已在文本到图像、视频与三维场景等任务中取得长足进展,但仅凭文本提示往往难以精准表达用户对布局、结构与属性控制的需求,导致生成结果易偏离意图;对此,本报告聚焦于两条 Post-training 技术路线:一是基于额外控制模块的后训练,在冻结主体网络参数的前提下引入轻量级控制分支,实现布局输入下多实例可控的图像生成或任意骨架输入下的可控3D生成,显著增强跨模态生成的可控性与泛化性;二是基于 in-context learning 的后训练,通过少量上下文示例激发预训练扩散模型的潜在指令理解能力,实现图像指令编辑、参考图像插入等精细操作。 参考文献: [1] Xu Y, Yang Z, Yang Y. SKDream: Controllable Multi-view and 3D Generation with Arbitrary Skeletons. InProceedings of the Computer Vision and Pattern Recognition Conference 2025 (pp. 314-325). [2] Zhou D, Li Y, Ma F, Yang Z, Yang Y. Migc++: Advanced multi-instance generation controller for image synthesis. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2024 Dec 11. [3] Zhang Z, Xie J, Lu Y, Yang Z, Yang Y. In-context edit: Enabling instructional image editing with in-context generation in large scale diffusion transformer. arXiv preprint arXiv:2504.20690. 2025 Apr 29. [4] Song W, Jiang H, Yang Z, Quan R, Yang Y. Insert anything: Image insertion via in-context editing in dit. arXiv preprint arXiv:2504.15009. 2025 Apr 21. 主持人:武宇 (武汉大学) 主持人简介: 武宇,武汉大学人工智能学院副院长,国家高层次青年人才。2015年在上海交通大学获得学士学位,2021年在悉尼科技大学获得博士学位,2021-2022年在普林斯顿大学从事博士后研究。主持国家科技创新2030重大项目课题,国自然面上等国家级项目,主要从事跨媒体机器学习、视觉-语言协同建模相关的研究,近5年,在TPAMI、CVPR、NeurIPS等CCF A类期刊会议上发表论文50余篇,谷歌引用6000余次。曾获2020年谷歌博士奖研金 (Google PhD Fellowship)、2024年AAAI学术新星奖 (New Faculty Award)。长期担任CVPR、NeurIPS、ICML等人工智能顶会的领域主席,并受邀担任CVPR 2023大会主席、主要组织者。 个人主页: http://jszy.whu.edu.cn/wuyu7/zh_CN/index.htm 特别鸣谢本次Webinar主要组织者: 主办AC:武宇 (武汉大学) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2025-10-13 08:00 , Processed in 0.014997 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.