为了使得视觉与学习领域相关从业者快速及时地了解领域的最新发展动态和前沿技术进展,VALSE最新推出了《论文速览》栏目,将在每周发布一至两篇顶会顶刊论文的录制视频,对单个前沿工作进行细致讲解。本期VALSE论文速览选取了来自西安交通大学的人群计数工作。该工作由洪晓鹏教授指导、论文第一作者西安交通大学硕士生林卉录制。 论文题目:Boosting Crowd Counting via Multifaceted Attention 作者列表:林卉 (西安交通大学)、马智恒 (中国科学院深圳先进技术研究院)、纪荣嵘 (厦门大学)、王耀威 (鹏城实验室)、洪晓鹏 (西安交通大学/哈尔滨工业大学) B站观看网址: 论文摘要: 本文关注人群计数任务。由于人群图像中经常存在大规模的尺度变化,无论是具有固定大小卷积核的卷积神经网络还是近期的 Transformer注意力结构都不能很好地处理这种变化。为了解决这个问题,我们提出了一个多面注意力网络 (MAN)来通过局部空间关系编码改进Transformer模型。MAN将来自传统Transformer的全局注意力、本文提出的可学习局部注意力和实例注意力整合到计数模型中。首先,文章提出了局部可学习区域注意力 (LRA)来动态地为每个特征位置分配注意力。其次,设计了局部注意力正则化,通过最小化不同特征位置的注意力偏差来监督 LRA的训练。最后,我们提供了一种实例注意力的监督机制,可以在训练期间动态地关注最重要的实例。我们的方法在 ShanghaiTech、UCF-QNRF、JHU++ 和NWPU四个人群计数数据集上进都取得了SOTA的结果。 This paper focuses on the challenging crowd counting task. As large-scale variations often exist within crowd images, neither fixed-size convolution kernel of CNN nor fixed-size attention of recent vision transformers can well handle this kind of variations. To address this problem, we propose a Multifaceted Attention Network (MAN)to improve transformer models in local spatial relation encoding. MAN incorporates global attention from vanilla transformer, learnable local attention, and instance attention into a counting model. Firstly, the local Learnable Region Attention (LRA)is proposed to assign attention exclusive for each feature location dynamically. Secondly, we design the Local Attention Regularization to supervise the training of LRA by minimizing the deviation among the attention for different feature locations. Finally, we provide an Instance Attention mechanism to focus on the most important instances dynamically during training. Extensive experiments on four challenging crowd counting datasets namely ShanghaiTech, UCFQNRF, JHU++, and NWPU have validated the proposed method. 论文信息: [1] Lin, Hui and Ma, Zhiheng and Ji, Rongrong and Wang, Yaowei and Hong, Xiaopeng. Boosting Crowd Counting via Multifaceted Attention. CVPR 2022. 论文链接: [https://openaccess.thecvf.com/content/CVPR2022/papers/Lin_Boosting_Crowd_Counting_via_Multifaceted_Attention_CVPR_2022_paper.pdf] 代码链接: [https://github.com/LoraLinH/Boosting-Crowd-Counting-via-Multifaceted-Attention] 视频讲者简介: 林卉,西安交通大学在读硕士研究生,师从洪晓鹏教授。研究方向为人群计数和半监督学习,在CVPR、ACM MM等国际学术会议发表论文四篇 (其中一作三篇),曾担任ICME等国际学术会议审稿人。 特别鸣谢本次论文速览主要组织者: 月度轮值AC:王立君 (大连理工大学)、眭亚楠 (清华大学) 季度责任AC:张姗姗 (南京理工大学) 活动参与方式 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ R群,群号:137634472); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-11-24 09:24 , Processed in 0.013049 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.