VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 25-01期 总第372期 AAAI 2025论文解读:深度生成模型的进展与应用 ...

2025-1-3 19:03| 发布者: 程一-计算所| 查看: 180| 评论: 0

摘要: 报告嘉宾:王伟 (北京交通大学)报告题目:Unsupervised Region-Based Image Editing of Denoising Diffusion Models报告嘉宾:钟准 (合肥工业大学)报告题目:ChangeDiff: A Multi-Temporal Change Detection Data Ge ...

报告嘉宾:王伟 (北京交通大学)

报告题目:Unsupervised Region-Based Image Editing of Denoising Diffusion Models


报告嘉宾:钟准 (合肥工业大学)

报告题目:ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model


报告嘉宾:于茜 (北京航空航天大学)

报告题目:TrackGo: A Flexible and Efficient Method for Controllable Video Generation


报告嘉宾:尤伟涛 (浙江大学)

报告题目:Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning


报告嘉宾:王元植 (南京理工大学)

报告题目:Re-Attentional Controllable Video Diffusion Editing


报告嘉宾:王福运 (南京理工大学)

报告题目:Scene Graph-Grounded Image Generation


报告嘉宾:王伟 (北京交通大学)

报告时间:2025年1月8日 (星期三)晚上20:00 (北京时间)

报告题目:Unsupervised Region-Based Image Editing of Denoising Diffusion Models


报告人简介:

王伟,北京交通大学计算机科学与技术学院教授,信息所副所长,国家海外高层次青年人才基金获得者。主要研究方向为人脸图像视频的生成与编辑,以及序列模型架构研究。在 IEEE Trans.和 CCF A 类会议和期刊上发表论文40余篇,担任 ICIP、ICMR等国际会议的Area Chiar,曾获ACM MultiMeida最佳论文提名奖,ICCV 优博奖,和意大利计算机视觉模式识别和机器学习协会优博奖等。


个人主页:

https://faculty.bjtu.edu.cn/9882/

 

报告摘要:

尽管扩散模型在图像生成领域取得了显著成功,其隐空间仍未被充分探索。当前识别隐空间中语义的方法通常依赖外部监督,例如文本信息和分割掩码。在本文中,我们提出了一种方法,可在无需进一步训练的情况下识别预训练扩散模型隐空间中的语义属性。通过将目标语义区域的雅可比矩阵投影到与非掩码区域正交的低维子空间,我们的方法能够精确发现语义并控制局部掩码区域,从而无需依赖注释。我们在多个数据集和各种扩散模型架构上进行了广泛实验,取得了当前最先进的性能。尤其是对于某些特定的面部属性,我们的方法在性能上甚至超越了监督方法,展现了其在编辑局部图像属性方面的卓越能力。


论文链接:

https://openreview.net/pdf?id=fnAIox0lkN


报告嘉宾:钟准 (合肥工业大学)

报告时间:2025年1月8日 (星期三)晚上20:10 (北京时间)

报告题目:ChangeDiff: A Multi-Temporal Change Detection Data Generator with Flexible Text Prompts via Diffusion Model


报告人简介:

钟准,合肥工业大学教授,博士生导师,国家级青年人才。他于2019年在厦门大学获得工学博士学位。先后在意大利特伦托大学和英国诺丁汉大学从事博士后和助理教授工作。主要研究方向为可信计算机视觉,在相关领域发表多篇高水平论文,包括T-PAMI, CVPR, NeurIPS, ICLR等,谷歌学术引用超过10,000次。一作代表论文随机擦除 (4000+引用)和K-近邻重排序 (1500+引用)被图像识别领域广泛采用,其中一篇被PaperDigest评为2020年最具影响力AAAI论文 (排名第一)。(曾经)担任国际会议CVPR, ECCV, ICML, NeurIPS, ICLR领域主席以及国际期刊IJCV、CVIU、Neural Networks、IVC (客座)编委。


个人主页:

https://zhunzhong.site

 

报告摘要:

深度学习极大地推动了变化检测 (Change Detection, CD)的发展,但这严重依赖于耗时耗力、需要丰富专业知识的像素级标注。近年来,图像生成方法在CD数据合成方面展现出了一定的潜力,但仍面临以下挑战:1) 难以灵活控制变化事件,2) 依赖额外数据来训练数据生成器,3) 大多面向特定的变化检测任务。为解决这些问题,本文聚焦于语义变化检测 (Semantic Change Detection, SCD)任务,提出了一种基于扩散模型的多时态SCD数据生成器 ChangeDiff。该方法通过以下两步生成新数据:1) 利用文本提示和文本到布局 (Text-to-Layout, T2L)模型生成连续的布局;2) 通过布局到图像 (Layout-to-Image, L2I)模型将生成的布局转化为图像。具体来说,我们提出了多类别分布引导文本提示 (MCDG-TP),使得布局生成可以通过可控的类别及其比例实现灵活调整。为进一步优化T2L模型适配MCDG-TP,我们设计了一种类别分布优化损失作为训练监督。实验证明,生成的数据在时序性、空间多样性和质量真实性方面取得了显著提升,能够有效提升变化检测器的准确性和迁移能力。


论文代码:

https://github.com/DZhaoXd/ChangeDiff

论文链接:

https://arxiv.org/pdf/2412.15541


报告嘉宾:于茜 (北京航空航天大学)

报告时间:2025年1月8日 (星期三)晚上20:20 (北京时间)

报告题目:TrackGo: A Flexible and Efficient Method for Controllable Video Generation


报告人简介:

于茜,北京航空航天大学软件学院“卓越百人”副研究员,博导,入选第九届中国科协青年人才托举工程。博士毕业于Queen Mary University of London,曾在UC Berkeley从事博士后研究。研究方向是计算机视觉和深度学习,聚焦草图理解与应用,草图驱动的AIGC,和医学影像分析。主持国家自然基金青年项目、CCF-百度松果科研基金项目和北航-华为关键软件项目,作为课题骨干参与国家科技创新-“新一代人工智能”重大项目两项。目前发表学术论文30余篇,Google Scholar引用2300余次。曾荣获2015年英国机器视觉大会 (BMVC)的最佳论文奖,相关成果受到海内外媒体的关注和报道。担任2024年ACM MM社交媒体主席和2024/2025年CVPR领域主席;担任中国计算机学会计算机视觉专委会 (CCF-CV)委员、中国图象图形学学会视觉大数据专委会 (CSIG-BVD)委员,以及Valse执行委员。


个人主页:

https://scholar.google.com/citations?view_op=list_works&hl=en&hl=en&user=mmm90qgAAAAJ&sortby=pubdate

 

报告摘要:

近年来,基于扩散模型的可控视频生成任务取得了显著进展。然而,在复杂场景中 (如细粒度物体、复杂的运动轨迹以及背景连贯性等)实现精确控制仍然是一个挑战。本文介绍了一种名为 TrackGo 的新方法,该方法利用自由形状的遮罩和箭头作为控制条件进行视频生成。该方法为用户提供了一个灵活而精确的视频内容操控机制。此外,本文还提出了一个高效且轻量的适配器TrackAdapter,它可以无缝集成到预训练视频生成模型的时间自注意力层中。此设计是基于研究人员的观察结果,即这些层的注意力图可以准确激活视频中对应的物体运动区域。本工作提出的新方法TrackGo在关键指标上如 FVD、FID 和 ObjMC 分数上实现了最先进的性能。


论文链接:

https://arxiv.org/pdf/2408.11475


报告嘉宾:尤伟涛 (浙江大学)

报告时间:2025年1月8日 (星期三)晚上20:30 (北京时间)

报告题目:Personalized Dynamic Music Emotion Recognition with Dual-Scale Attention-Based Meta-Learning


报告人简介:

尤伟涛,浙江大学计算机科学与技术学院特聘研究员,博士生导师。中国人工智能学会智能创意与数字艺术专业委员会秘书长。专注于审美、情感、设计的多模态感知与计算研究,利用人工智能技术赋能设计、艺术、教育等行业,在数字内容的智能生成模型、多模态信息的感知关联方法、人与智能体的协同交互技术等方面取得突破。承担国家重点研发计划 (青年科学家项目)、国家自然科学基金青年基金等项目。获世界人工智能大会最高荣誉 SAIL 奖,获教育部科学技术进步二等奖,获好设计、中国智造等大奖10余项。在UIST、AAAI、TMM、《机械工程学报》等重要期刊和会议发表论文30余篇,获发明专利10余项。


个人主页:

https://person.zju.edu.cn/ywt

 

报告摘要:

本文提出个性化动态音乐情感识别(Personalized Dynamic Music Emotion Recognition,PDMER)问题,旨在预测符合个体情感感知的音乐情感,并设计了双尺度注意力元学习方法(Dual-Scale Attention-Based Meta-Learning ,DSAML)。通过创新的任务构建策略按标注者分组结合元学习,DSAML能够利用单个个性化标注样本有效预测个性化情感感知,实验结果表明其在PDMER任务中达到先进性能。


论文链接:

https://littleor.github.io/PDMER/


报告嘉宾:王元植 (南京理工大学)

报告时间:2025年1月8日 (星期三)晚上20:40 (北京时间)

报告题目:Re-Attentional Controllable Video Diffusion Editing


报告人简介:

王元植,博士研究生三年级在读,现就读于南京理工大学高维信息智能感知与系统教育部重点实验室,师从崔振教授。主要研究领域涉及多模态机器学习、生成式建模与应用,图像/视频处理和分析等。目前主要聚焦于多模态内容生成及其感知和理解、多模态/跨模态生成式模型、文本引导的视频生成/编辑等方面的研究,在计算机领域国际顶级会议 (NeurIPS /ICCV /CVPR 等)和国际权威期刊 (IEEE TNNLS /TMM /TCSVT等)上发表学术论文二十余篇。


个人主页:

https://mdswyz.github.io/

 

报告摘要:

最近,大规模的文生图/视频扩散模型已经被广泛地用于文本引导的视频编辑任务,实现了令人印象深刻的视频编辑能力。然而,由于缺乏对视频内容的空间位置感知,生成的目标视频往往存在目标错位、目标数量不正确等问题。为了缓和上述问题,本论文从跨注意力的角度,提出Re-Attentional Controllable Video Diffusion Editing方法,建立Re-Attentional Diffusion机制,重新聚焦去噪阶段目标文本提示和目标视频之间的跨注意激活响应,生成空间位置一致和语义高保真的目标视频。进一步设计Invariant Region-guided Joint Sampling策略,减少每个去噪时间步中不变区域的内在采样误差,并约束生成的内容与不变区域的内容相协调。实验结果证明了该方法能够有效地提升现有视频编辑方法的空间位置可控性。


论文链接:

https://arxiv.org/abs/2412.11710


报告嘉宾:王福运 (南京理工大学)

报告时间:2025年1月8日 (星期三)晚上20:50 (北京时间)

报告题目:Scene Graph-Grounded Image Generation


报告人简介:

王福运,博士研究生二年级在读,现就读于南京理工大学高维信息智能感知与系统教育部重点实验室,师从崔振教授。主要研究领域涉及生成式建模与应用,图神经网络在会话推荐中的应用等。目前主要聚焦于生成模型在图像可控生成、异常检测等方面的研究,在计算机领域国际顶级会议 (AAAI /NeurIPS)和国际权威期刊 (IEEE TMM /Knowledge-Based Systems)上发表多篇学术论文。


个人主页:

https://fuyunwang.github.io/

 

报告摘要:

With the benefit of explicit object-oriented reasoning capabilities  of scene graphs, scene graph-to-image generation has  made remarkable advancements in comprehending object coherence  and interactive relations. Recent state-of-the-arts typically  predict the scene layouts as an intermediate representation  of a scene graph before synthesizing the image. Nevertheless,  transforming a scene graph into an exact layout may  restrict its representation capabilities, leading to discrepancies  in interactive relationships (such as standing on, wearing, or  covering) between the generated image and the input scene  graph. In this paper, we propose a Scene Graph-Grounded Image Generation (SGG-IG) method to mitigate the above  issues. Specifically, to enhance the scene graph representation,  we design a masked auto-encoder module and a relation  embedding learning module to integrate structural knowledge  and contextual information of the scene graph with a mask  self-supervised manner. Subsequently, to bridge the scene  graph with visual content, we introduce a spatial constraint and  image-scene alignment constraint to capture the fine-grained  visual correlation between the scene graph symbol representation  and the corresponding image representation, thereby  generating semantically consistent and high-quality images. Extensive experiments demonstrate the effectiveness of the  method both quantitatively and qualitatively.


主持人:朱霖潮 (浙江大学)


主持人简介:

朱霖潮,浙江大学计算机科学与技术学院百人计划研究员、博士生导师,入选国家级青年人才项目,获首届谷歌学术研究奖 (2021)等荣誉。主要研究方向为通用基础模型、智能仿真、科学智能等。曾获得多智能体行为建模竞赛冠军等8项国际竞赛冠军。曾担任NeurIPS、CVPR、ECCV、ICIP、PRCV等会议领域主席,并多次在国际会议上组织专题研讨会。



特别鸣谢本次Webinar主要组织者:

主办AC:朱霖潮 (浙江大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。



小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-1-31 05:18 , Processed in 0.014078 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部