VALSE

VALSE 首页 活动通知 查看内容

VALSE 论文速览 第162期:StylerDALLE: 基于预训练图像生成模型的语言引导风格迁移 ...

2024-1-24 19:37| 发布者: 程一-计算所| 查看: 1028| 评论: 0

摘要: 为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速 ...

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自特伦托大学的语言引导的风格迁移 (Language-Guided Style Transfer)的工作。该工作由Enver SanginetoNicu Sebe教授指导,论文一作徐子彭同学录制。


论文题目:

StylerDALLE: 基于预训练图像生成模型的语言引导风格迁移 (StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model)

作者列表:

徐子彭 (特伦托大学)、Enver Sangineto (摩德纳大学)、Nicu Sebe (特伦托大学)


B站观看网址:

https://www.bilibili.com/video/BV1xb4y1A7Eb/



论文摘要:

尽管风格迁移任务取得了许多进展,但大多数先前的工作只关注于迁移相对简单的特征,如颜色或纹理,而忽略了更抽象的概念,如整体艺术表达或画家特定的特征。然而,这些抽象语义可以通过 DALL-E 或 CLIP 等模型来捕获,这些模型已经使用大量图像和文本数据集进行了训练。在本文中,我们提出了 StylerDALLE,一种利用这两种模型并使用自然语言来描述抽象艺术风格的风格迁移方法。具体来说,我们将语言引导的风格转移任务形式化为非自回归的序列翻译,即,在大规模预训练向量量化标记器 (Vector-Quantized Tokenizer,如 DALL-E 的dVAE)的离散潜在空间中,从输入内容图像的序列表示到输出风格化图像的序列表示。为了引入风格信息,我们提出了一种基于 CLIP 的语言监督的强化学习策略,可同时确保风格化和内容保存。实验结果证明了我们方法的优越性,它可以使用不同粒度的语言指令有效地传递艺术风格。



参考文献:

[1] Zipeng Xu, Enver Sangineto, Nicu Sebe, “StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized Tokenizer of a Large-Scale Generative Model,” in Proceedings of IEEE / CVF International Conference on Computer Vision (ICCV 2023), Paris, France, October 2023.


论文链接:

[https://openaccess.thecvf.com/content/ICCV2023/papers/Xu_StylerDALLE_Language-Guided_Style_Transfer_Using_a_Vector-Quantized_Tokenizer_of_a_ICCV_2023_paper.pdf]


代码链接:

[https://github.com/zipengxuc/StylerDALLE]


视频讲者简介:

徐子彭是特伦托大学多媒体与人类理解小组的博士生,她的研究课题为视觉与语言的内容理解与生成,博士导师为Prof. Nicu Sebe。她目前在NAVER LABS Europe实习,使用视觉语言基础模型帮助计算机视觉应用在现实世界中的主动学习。


个人主页:

https://zipengxuc.github.io/



特别鸣谢本次论文速览主要组织者:

月度轮值AC:陆昊 (华中科技大学)

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-12-10 22:24 , Processed in 0.012396 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部