为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自中国科学技术大学在视频补全 (video inpainting)方向的工作,该工作由微软亚洲研究院伏晶晶研究员和中国科学技术大学教授刘东共同指导,论文一作张凯栋同学录制。 论文题目:Flow-Guided Transformer for Video Inpainting 作者列表:张凯栋 (中国科学技术大学),伏晶晶 (微软亚洲研究院),刘东 (中国科学技术大学) B站观看网址: 论文摘要: 我们提出了一种基于光流引导的自注意力模型,它创新地利用光流暴露的运动差异来指导自注意力模型中的注意力检索以进行高保真视频修复。更具体地说,我们设计了一种新颖的光流补全网络,通过利用局部时间窗口中的相关光流特征来补全损坏的光流。有了完整的光流,我们将视频内容进行跨视频帧传播,并采用光流引导自注意力模型来合成其余破损的区域。我们在时间和空间维度上解耦自注意力模型,这样我们就可以轻松地整合局部相关的已补全的光流,以使其仅引导空间注意力的自注意力检索过程。此外,我们设计了一个光流重加权模块来精确控制已补全的光流对每个空间自注意力模型的影响。为了提高效率,我们将窗口分区策略引入到空间和时间自注意力模型中。特别是在空间自注意力模型中,我们设计了一个双视角空间多头自注意力机制,它将全局标记集成到基于窗口的自注意力检索中。大量的定性和定量的实验证明了所提出方法的有效性。 We propose a flow-guided transformer, which innovatively leverage the motion discrepancy exposed by optical flows to instruct the attention retrieval in transformer for high fidelity video inpainting. More specially, we design a novel flow completion network to complete the corrupted flows by exploiting the relevant flow features in a local temporal window. With the completed flows, we propagate the content across video frames, and adopt the flow-guided transformer to synthesize the rest corrupted regions. We decouple transformers along temporal and spatial dimension, so that we can easily integrate the locally relevant completed flows to instruct spatial attention only. Furthermore, we design a flow-reweight module to precisely control the impact of completed flows on each spatial transformer. For the sake of efficiency, we introduce window partition strategy to both spatial and temporal transformers. Especially in spatial transformer, we design a dual perspective spatial MHSA, which integrates the global tokens to the window-based attention. Extensive experiments demonstrate the effectiveness of the proposed method qualitatively and quantitatively. 论文信息: [1] Kaidong Zhang, Jingjing Fu, Dong Liu, “Flow-Guided Transformer for Video Inpainting,” In the proceedings of European Conference on Computer Vision (ECCV), 2022. 论文链接: [https://www.ecva.net/papers/eccv_2022/papers_ECCV/html/1456_ECCV_2022_paper.php] 代码链接: [https://github.com/hitachinsk/FGT] 视频讲者简介: 张凯栋是中国科学技术大学博士生,师从刘东教授,研究兴趣为底层视觉、计算机图形学以及医学图像处理。曾获首届全国人工智能大赛4K+HDR赛道亚军,在CVPR和ECCV等国际会议上发表多篇文章,并担任CVPR等国际学术会议审稿人。 特别鸣谢本次论文速览主要组织者: 月度轮值AC:林迪 (天津大学)、郑乾 (浙江大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ S群,群号:317920537); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-12-27 06:31 , Processed in 0.013921 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.