为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自武汉大学文本引导的时尚图像编辑 (Text-Driven Fashion Image Editing)工作。该工作由叶茫教授指导,论文一作王同鑫同学录制。 论文题目: TexFit: Text-Driven Fashion Image Editing with Diffusion Models 作者列表: 王同鑫 (武汉大学),叶茫 (武汉大学) B站观看网址: 论文摘要: 时尚图像编辑旨在对输入的时尚图像进行编辑,以获得更丰富或鲜明的视觉服装搭配效果。现有的全局时尚图像编辑方法难以实现丰富的服装搭配效果,而局部时尚图像编辑则更符合多样化和个性化的服装搭配需求。局部编辑技术通常依赖于文本和其他辅助模态(如人体姿势、人体关键点、服装草图等)进行图像处理,其中辅助模态主要帮助定位编辑区域。由于这些辅助模态在实际应用场景中通常需要付出额外的代价,仅使用文本驱动的时尚图像编辑具有广阔的应用前景。因此,我们提出了一种基于扩散模型的文本驱动的时尚图像编辑方法TexFit,可以仅利用易于获取的文本进行局部图像编辑。该方法使用基于文本的编辑区域定位模块来精确预测时尚图像中的编辑区域,然后将预测区域作为扩散模型的生成条件,并结合文本提示信息,在保持其余部分完整的情况下实现时尚图像的精确局部编辑。此外,以往的时尚数据集通常侧重于全局描述,缺乏能够指导精确局部编辑的局部描述信息。因此,我们利用区域提取方法和属性组合策略构建了一个新的DFMM-Spotlight数据集,主要专注于局部服装和配饰的文本描述。DFMM-Spotlight数据集上的实验结果验证了我们提出方法的有效性。 参考文献: [1] Tongxin Wang, Mang Ye, “TexFit: Text-Driven Fashion Image Editing with Diffusion Models,” in Proceeding of the AAAI Conference on Artificial Intelligence (AAAI 2024), Vancouver, Canada, February 2024. 论文链接: [https://ojs.aaai.org/index.php/AAAI/article/view/28885]
代码链接: [https://texfit.github.io/]
视频讲者简介: 王同鑫,武汉大学在读硕士,研究方向为图像编辑与生成,导师是叶茫教授。 特别鸣谢本次论文速览主要组织者: 月度轮值AC:于茜 (北京航空航天大学) |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-10-31 14:19 , Processed in 0.013165 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.