VALSE 论文速览第108期：VideoMAE for Self-Supervised Video Pre-Training

2023-4-7 17:35| 发布者: 程一-计算所| 查看: 1663| 评论: 0

摘要: 为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速 ...

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展，VALSE最新推出了《论文速览》栏目，将在每周发布一至两篇顶会顶刊论文的录制视频，对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自南京大学、腾讯AI Lab、上海AI Lab的视频自监督预训练方面的工作。该工作由王利民教授指导，论文第一作者童湛研究员录制。

论文题目：VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

作者列表：童湛 (南京大学、腾讯AI Lab)、宋奕兵 (腾讯AI Lab)、王珏 (腾讯AI Lab)、王利民 (南京大学、上海人工智能实验室)

B站观看网址：

https://www.bilibili.com/video/BV1Yc411V7mU/

论文摘要：

视频Transformer通常需要先在超大规模数据集上进行预训练，才能在相对较小的数据集上实现先进的性能。本文提出的视频掩码自编码器 (VideoMAE)是一种针对自监督视频预训练的数据高效的学习器。本文受到最近 ImageMAE的启发，并在图像掩码自编码器的基础上针对视频数据，提出了通过管道式掩码和重建的方法进行视频自监督预训练。实验验证，本方法的这种简单设计可以有效地缓解视频重建过程中由视频数据的时序相关性引起的信息泄漏问题。同时通过对实验结果分析，可以总结出三点关于视频自监督预训练的重要发现：(1)由于视频数据存在大量的冗余信息，相对于图像数据，在预训练过程中视频数据可以实现比图像更高的掩码比率。实验结果表明，将视频掩码自编码器中掩码比率设置为极高的值 (即 90% 到 95%)仍然会取得极其优异的性能。(2) 视频掩码自编码器无需使用任何额外的数据，在规模非常小的视频数据集 (大约3千-4千个视频)上仍然能够取得十分惊艳的效果。这很大程度上归因于本方法设计的掩码加重建这种极具挑战性的代理任务。基于这种代理任务进行预训练，编码器可以更加关注视频数据中抽象和高层的时空语义特征。(3) 利用视频掩码自编码器进行视频自监督预训练，数据质量比数据量更重要。预训练数据集和目标数据集之间的域差异是视频自监督预训练中需要注意的重要问题。基于原始ViT 骨干网络的VideoMAE无需使用任何额外数据便可以在 Kinects-400 数据集上可以达到87.4%的准确率，在 SomethingSomething V2 数据集上可以达到75.4%的准确率，在 UCF101 数据集上可以达到91.3%的准确率，在 HMDB51 数据集上可以达到62.6%的准确率。

论文信息：

[1] Zhan Tong, Yibing Song, Jue Wang, Limin Wang. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training. NeurIPS 2022.

论文链接：

[https://arxiv.org/abs/2203.12602]

代码链接：

[https://github.com/MCG-NJU/VideoMAE]

视频讲者简介：

童湛，腾讯AI Lab研究员，毕业于南京大学计算机系，在CVPR、ICCV、NeurIPS、ICLR等国际高水平会议发表多篇论文，主要研究方向是视频理解与自监督学习。

特别鸣谢本次论文速览主要组织者：

月度轮值AC：胡鹏 (四川大学)、林迪 (天津大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 论文速览第107期：Codebook Helps Implicit 3D Representations下一篇：VALSE Webinar 20230412-07期总第307期大生成模型潮流下的视频创作 ...

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-7-15 09:12 , Processed in 0.014824 second(s), 14 queries .

返回顶部

VALSE 论文速览 第108期：VideoMAE for Self-Supervised Video Pre-Training

相关分类

下级分类

VALSE 论文速览第108期：VideoMAE for Self-Supervised Video Pre-Training