VALSE

VALSE 首页 活动通知 查看内容

VALSE 论文速览 第83期:DOQ:基于Oracle Queries 和知识蒸馏的人与物体交互检测算法 ...

2022-7-12 18:06| 发布者: 程一-计算所| 查看: 1187| 评论: 0

摘要: 为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速 ...

为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自华南理工大学和悉尼大学的人与物体交互检测 (HOI Detection)方面的工作。该工作由丁长兴研究员指导,论文第一作者屈贤录制。


论文题目:DOQ:基于Oracle Queries 和知识蒸馏的人与物体交互检测算法

作者列表:屈贤 (华南理工大学)、丁长兴 (华南理工大学,琶洲实验室)、李星奥 (华南理工大学)、钟旭彬 (华南理工大学)、陶大程 (悉尼大学)

B站观看网址:

https://www.bilibili.com/video/BV11v4y1u7Wn/



论文摘要:

目前,基于Detection Transformer (DETR)模型的方法在人与物体交互检测 (HOI Detection)领域取得了很大成功。但该类模型使用的hoi/ object query存在语义不明确的问题,制约了DETR模型的表征学习能力。不仅如此,由于HOI 的标注成本较高,现有数据集倾向于只标注包含少量人与物体的简单场景图片,因而制约了DETR模型对复杂场景图像的理解能力。


为了提升DETR模型的表征学习能力,我们提出了一个基于Oracle Queries和知识蒸馏的学习框架:Distillation using Oracle Queries (DOQ)。我们将DETR模型作为该框架下的student网络。为了获得强大的teacher网络,我们首先将每一个被标注的人-物对的真实位置信息编码为语义明确的Oracle Queries,作为teacher网络decoder的query。其次,将该人-物对中物体类别的词向量作为teacher网络的初始化decoder embedding。我们通过拉近teacher和student网络的输出特征,提升了student网络的表征学习能力。Teacher和student网络共享参数,且在测试时仅需要student网络,不增加额外的测试时间。


为了在HOI Detection任务中提升DETR模型对复杂场景图像的理解能力,我们提出了一种简单有效的数据增强方法:Context-Consistent Stitching (CCS)。CCS从多张相似场景的训练图像中裁剪出标注的人-物对并进行拼接,从而得到具有复杂场景的训练图像,同时场景相似的策略使合成的新图像具有视觉上的真实感。


我们的方法广泛适用于DETR及其各种改进模型,较显著的提升了模型性能和训练效率。实验结果表明,我们提出的方法在三个数据集HICO-DET、HOI-A和V-COCO都取得了SOTA的效果。我们的代码已开源在:https://github.com/SherlockHolmes221/DOQ。


论文信息:

[1] Xian Qu, Changxing Ding, Xingao Li, Xubin Zhong, Dacheng Tao, Distillation Using Oracle Queries for Transformer-based Human-Object Interaction Detection. CVPR 2022.


论文链接:

[https://openaccess.thecvf.com/content/CVPR2022/papers/Qu_Distillation_Using_Oracle_Queries_for_Transformer-Based_Human-Object_Interaction_Detection_CVPR_2022_paper.pdf]


代码链接:

[https://github.com/SherlockHolmes221/DOQ]


视频讲者简介:

屈贤,华南理工大学硕士研究生,研究方向为计算机视觉,目前主要研究人与物体交互检测,已在IJCV、CVPR、ECCV上发表论文多篇。



特别鸣谢本次论文速览主要组织者:

月度轮值AC:王智慧 (大连理工大学)、杨旭 (西安电子科技大学)

季度责任AC:魏秀参 (南京理工大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-11-23 11:41 , Processed in 0.013978 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部