VALSE 论文速览第147期：SOLIDER：基于语义控制的人体视觉自监督预训练大模型 ...

2023-11-6 18:58| 发布者: 程一-计算所| 查看: 1907| 评论: 0

摘要: 论文题目：BeyondAppearance: a Semantic Controllable Self-SupervisedLearningFrameworkforHuman-CentricVisualTasks作者列表：陈威华(阿里巴巴达摩院)，许贤哲(阿里巴巴达摩院)，贾建(阿里巴巴达摩院)，罗浩(阿里 ...

论文题目：

Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks

作者列表：

陈威华 (阿里巴巴达摩院)，许贤哲 (阿里巴巴达摩院)，贾建 (阿里巴巴达摩院)，罗浩 (阿里巴巴达摩院)，王耀华 (阿里巴巴达摩院)，王帆 (阿里巴巴达摩院)，金榕 (阿里巴巴达摩院)，孙修宇 (阿里巴巴达摩院)

B站观看网址：

https://www.bilibili.com/video/BV1Be411Q7KK/

论文摘要：

现今以人为中心的视觉任务引起了越来越多的研究关注，因为它们在现实场景中有着广泛的应用。我们的目标是从大量未标注的人体图像中学习一个通用的人体表征。基于此，我们提出了一个自监督的学习框架，叫做SOLIDER。与现有的自我监督学习方法不同，该方法利用人体图像中的先验知识来自监督训练模型，为表征引入更多的语义信息。此外，我们还注意到不同的下游任务通常对预训练的人体表征中语义信息和表观信息的需求程度各不相同。例如人体解析任务 (human parsing)需要表征中包含更多的语义信息，而人体再识别任务 (person re-identification)则需要更多的表观信息来进行不同人的识别。因此，一个单一的人体表征并不能适用于所有下游任务。SOLIDER 通过引入一个带有语义控制器的条件神经网络来解决这个问题。待预训练模型训练完成后，用户可以通过向语义控制器输入希望表征包含语义信息的比例，让控制器调整预训练模型，以生成符合指定语义信息量的人体表征。我们可以使用包含不同语义信息量的人体表征去适应不同的下游任务。我们实验发现SOLIDER可以在六个下游人体视觉任务中超过了state of the arts。

视频讲者简介：

陈威华博士毕业于中国科学院自动化研究所。目前就职于阿里巴巴达摩院视觉技术实验室。北京图象图形学会青工委委员，中国图象图形学会机器视觉专委会委员。研究方向包括计算机视觉行人重识别、领域自适应、自监督无监督技术等；在CVPR、ICCV、ECCV、AAAI等国际顶会发表文章30余篇，担任多个视觉顶会和期刊的审稿人。参与的DAMO-YOLO项目在github上获得2.8K关注。曾受邀在国际生物特征识别会议上做关于行人重识别相关报告。获得CVPR/ ICCV/ ECCV举办的各种国际竞赛冠军5次和亚军2次。

个人主页：

http://cwhgn.github.io/

特别鸣谢本次论文速览主要组织者：

月度轮值AC：郭青 (新加坡科技研究局)

季度轮值AC：张磊 (重庆大学)

收藏邀请

上一篇：VALSE 论文速览第146期：SeqTrack: 基于序列生成的视觉目标跟踪算法 ...下一篇：VALSE 论文速览第148期：PreNAS：有偏的一次学习神经网络搜索

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-15 07:37 , Processed in 0.014756 second(s), 14 queries .

返回顶部

VALSE 论文速览 第147期：SOLIDER：基于语义控制的人体视觉自监督预训练大模型 ...

相关分类

下级分类

VALSE 论文速览第147期：SOLIDER：基于语义控制的人体视觉自监督预训练大模型 ...