VALSE

VALSE 首页 活动通知 查看内容

VALSE 论文速览 第120期:Video-based Human-Object Interaction Detection

2023-8-3 10:08| 发布者: 程一-计算所| 查看: 249| 评论: 0

摘要: 为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速 ...

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自上海交通大学的基于视频的人-物交互检测 (human-object interaction detection)的工作。该工作由翟广涛教授和沈为副教授指导,论文一作涂丹阳同学录制。


论文题目:Video-based Human-Object Interaction Detection from Tubelet Tokens

作者列表:

涂丹阳 (上海交通大学)、孙伟 (上海交通大学)、闵雄阔 (上海交通大学)、翟广涛 (上海交通大学)、沈为 (上海交通大学)

B站观看网址:

https://www.bilibili.com/video/BV1np4y1V7uf/



论文摘要:

我们提出了一种新的视觉Transformer,名为TUTER,它能够通过学习一种全新的tubelet token来高度抽象地表示时空特征,从而有效地检测视频中地人物交互行为。我们通过先在空间域聚合patch token, 然后再在时间域连接他们从而生成tubelet token, 以此来表征一段视频。这种做法有两大好处:1) 简洁性。每一个tubelet token 都是通过具有选择性地注意力机制学习而来,能极大程度减少时空冗余。2) 表征力。通过聚合和连接,每一个tubelet token都能够与一个具体的语义实例 (人或物体)在帧与帧之间对齐。TUTOR的有效性和高效性通过广泛的实验得到充分验证。实验结果表明,我们的方法在很大程度上优于现有的工作,其中在VidHOI数据集上取得了16.14%的mAP增益,在CAD-120上则取得了2点增益。此外,TUTOR实现了超过4倍的推理速度加速。


论文信息:

[1] Danyang Tu,Wei Sun, Xiongkuo Min, Guangtao Zhai, Wei Shen. Video-based Human-Object Interaction Detection from Tubelet Tokens. In NeurIPS, 2022.


论文链接:

[https://openreview.net/forum?id=kADW_LsENM]


视频讲者简介:

涂丹阳,上海交通大学电子信息与电气工程学院直博生五年级,师从翟广涛教授。主要研究方向为以人为主的视觉理解,包括视线估计,人物交互等。



特别鸣谢本次论文速览主要组织者:

月度轮值AC:汪婧雅 (上海科技大学)、刘宇 (大连理工大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ S群,群号:317920537);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。


小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-7-17 17:15 , Processed in 0.014510 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部