VALSE 论文速览第30期：基于并行解码的端到端密集视频描述

2021-12-1 15:50| 发布者: 程一-计算所| 查看: 1028| 评论: 0

摘要: 为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速 ...

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自南方科技大学等机构的密集视频描述方面的工作。该工作由郑锋教授指导，王腾同学录制。

论文题目：基于并行解码的端到端密集视频描述

作者列表：王腾 (南方科技大学、香港大学)，张瑞茂 (香港中文大学(深圳))，陆智超 (南方科技大学)，郑锋 (南方科技大学)，程然 (南方科技大学)，罗平 (香港大学)

B站观看网址：

https://www.bilibili.com/video/BV1Xq4y1B7p7/

论文摘要：

密集视频描述任务的目标是对未修剪视频中的多个事件进行时间位置检测与自然语言描述。以往方法遵循一个复杂的“先定位再描述”的两阶段串行方案，严重依赖于手工设计的组件。本文提出了一个简单有效的端到端密集视频字幕框架PDVC，将密集视频描述定义为一个集合预测任务。与现有技术相比，PDVC有以下优势：1) 与两阶段方案相比，PDVC将Transformer输出的事件query并行输入定位头和描述头，使这两个子任务通过优化相互关联和相互促进; 2) 不依赖启发式的NMS或者事件选择网络来消除冗余，PDVC直接生成具有适当大小的事件集合; 3) 在ActivityNet Captions和YouCuok2数据集上进行的大量实验表明，PDVC在描述语句的质量上和效率上都有显著提升。

论文信息：

[1]Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng, Ran Cheng, and Ping Luo. "End-to-End Dense Video Captioning with Parallel Decoding." In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV’21), pp. 6847-6857, 2021.

论文链接：

[https://openaccess.thecvf.com/content/ICCV2021/papers/Wang_End-to-End_Dense_Video_Captioning_With_Parallel_Decoding_ICCV_2021_paper.pdf]

代码链接：

[https://github.com/ttengwang/PDVC]

视频讲者简介：

王腾，南方科技大学与香港大学联培博士生，研究方向为计算机视觉，专注于视觉-语言多模态学习与视频理解。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：张正 (哈尔滨工业大学(深圳))、李爽 (北京理工大学)

季度责任AC：许永超 (武汉大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：