20211124-31 总第259期标记高效的视觉学习

2021-11-18 19:50| 发布者: 程一-计算所| 查看: 2192| 评论: 0

摘要: 报告时间2021年11月24日 (星期三)晚上20:00 (北京时间)主题标记高效的视觉学习主持人王兴刚（华中科技大学）直播地址https://live.bilibili.com/22300737报告嘉宾：张鼎文(西北工业大学)报告题目：弱监督目标检测理 ...

报告时间	2021年11月24日 (星期三) 晚上20:00 (北京时间)
主题	标记高效的视觉学习
主持人	王兴刚（华中科技大学）
直播地址	https://live.bilibili.com/22300737

报告嘉宾：张鼎文 (西北工业大学)

报告题目：弱监督目标检测理论与方法初探

报告嘉宾：董力 (微软亚洲研究院)

报告题目：BEiT: BERT Pre-Training of Image Transformers

Panel嘉宾：

张鼎文 (西北工业大学)、董力 (微软亚洲研究院)、魏云超 (北京交通大学)、洪晓鹏 (哈尔滨工业大学)

Panel议题：

1. 相对于之前基于instance discrimination的自监督学习方法，当前火热的mask patch自监督方法性能更好的本质原因在哪里？

2. 在计算机视觉的通用模型预训练离NLP中的BERT还有多远？本质上的差距在哪里？

3. 弱监督、半监督、自监督等标记高效的视觉学习范式是否会形成统一的学习范式？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：张鼎文 (西北工业大学)

报告时间：2021年11月24日 (星期三)晚上20:00 (北京时间)

报告题目：弱监督目标检测理论与方法初探

报告人简介：

张鼎文，西北工业大学脑与人工智能实验室教授，2015赴美国卡耐基梅隆大学进行为期2年的访问研究，曾入选中国博士后创新人才计划, 科睿唯安“全球高被引科学家”。所发表论文入选ESI高被引论文及热点论文十余次，1篇论文获2021 IEEE TCSVT最佳论文奖，1篇论文入选2018年中国百篇最具影响国际学术论文，获中国图象图形学学会优秀博士论文奖，ACM China SIGAI (国际计算机学会中国人工智能分会)优博奖，陕西省优秀博士学位论文奖等。是IEEE会员、ACM会员、中国图象图形学学会视觉大数据专委会委员、第六届VALSE执行领域主席委员会委员。主要从事人工智能领域中的热点研究方向—计算机视觉、模式识别、多媒体信息处理、机器学习。致力于建立面向开放环境下、具备动态学习能力的新一代计算机视觉学习框架。迄今为止，作为第一作者/通讯作者在领域内国际重要期刊及会议发表学术论文30余篇，其中包含T-PAMI, IJCV, IEEE SPM, T-IP, CVPR, ICCV, Science China: Information Science等，担任IEEE TMM与TCSVT的Leading Guest Editor, 担任ACM MM及ICCV的Workshop Organizer。

个人主页：

https://zdw-nwpu.github.io/dingwenz.github.com/

报告摘要：

目前人们可以利用便携摄像设备获取海量的视觉数据，然而各类视觉任务所需要的精细标注依然依赖低效且昂贵的人工劳动完成。这严重制约了目前主流的深度学习模型的应用前景。为了解决这个问题，弱监督视觉学习应运而生。本报告就目标检测为例，分享弱监督学习在该领域的研究进展，并介绍本课题组近年来逐步形成的基于稳健学习理论的弱监督目标检测方法。具体来说，我们针对复杂场景下的弱监督学习问题，以稳健学习理论为纲，分别提出了自步-课程协同学习引导的先验知识稳健嵌入框架、基于多任务自步稳健学习的弱监督自步微调网络、以及面向少量弱标注目标检测的跨模型协同稳健学习机制来克服样本小、目标杂所引起的学习不确定性、联合分割任务提升复杂背景下物体的定位精度，以及利用无标注图像增加学习多样性并提升模型对多变目标的泛化能力。最终我将对上述工作进行总结并展望未来研究方向。

参考文献：

[1] Weakly Supervised Object Localization and Detection: A Survey. IEEE TPAMI 2021.

[2] Leveraging prior-knowledge for weakly supervised object detection under a collaborative self-paced curriculum learning framework. IJCV, 2019.

[3] SPFTN: A Joint Learning Framework for Localizing and Segmenting Objects in Weakly Labeled Videos. IEEE TPAMI 2020.

[4] Learning Object Detectors With Semi-Annotated Weak Labels. IEEE TCSVT, 2019.

[5] Weakly Supervised Object Detection Using Proposal-and Semantic-Level Relationships. IEEE TPAMI, 2021.

[6] Strengthen Learning Tolerance for Weakly Supervised Object Localization. IEEE CVPR 2021.

报告嘉宾：董力 (微软亚洲研究院)

报告时间：2021年11月24日 (星期三)晚上20:30 (北京时间)

报告题目：BEiT: BERT Pre-Training of Image Transformers

报告人简介：

董力，微软亚洲研究院自然语言处理组研究员，博士毕业于爱丁堡大学。现主要从事大规模多模态模型预训练的相关研究工作。曾获得AAAI-2021 Best Paper Runner Up、2019 AAAI/ACM SIGAI Doctoral Dissertation Award Runner Up、ACL-2018 Best Paper Honourable Mention，并多次担任ACL、EMNLP、NAACL等会议领域主席。

个人主页：

http://dong.li

报告摘要：

近年来，大规模自监督预训练在自然语言领域率先取得了突破性进展，带来了全新的“预训练-微调”范式。在GPT、BERT等一系列 “出圈” 工作中，生成式自监督占绝对优势。但在计算机视觉领域，大多数工作沿着对比学习的思路进行推进，而生成式自监督预训练一直没有得到应有的重视。基于这个观察，我们提出了BEiT自监督模型，使用掩码图像建模 (Masked Image Modeling)这一任务，对Vision Transformers进行预训练。BEiT首次验证了生成式预训练可以取得比对比学习更好的微调结果，并在图像分类以及语义分割上取得了优异结果。更重要的是，通过摆脱对监督式预训练的依赖，BEiT可以高效使用无标注图片将Vision Transformers扩展到巨大的模型规模。相信BEiT在视觉领域所引发的“生成式自监督复兴”，会加速领域到达“the BERT moment of CV”。

参考文献：

[1] BEiT: BERT Pre-Training of Image Transformers. Hangbo Bao, Li Dong, Furu Wei. arXiv:2106.08254, 2021.

Panel嘉宾：魏云超 (北京交通大学)

嘉宾简介：

魏云超，国家高层次人才项目获得者，北京交通大学教授、博导，隶属信息科学研究所数字媒体信息处理研究中心。2016年毕业于北京交通大学，获工学博士学位。2016-2019年间在新加坡国立大学、美国伊利诺伊大学厄巴纳-香槟分校从事博士后研究工作。2019年入选澳大利亚研究委员会青年研究奖 (计算机领域共8人)，加入悉尼科技大学获终身助理教授职位，并于2021年破格提升为高级讲师，被澳大利亚人杂志2020年评为全澳Top 40学术研究者 (计算机领域共5人)。主要从事计算机视觉方面的相关研究，包括面向非完美数据的视觉认知，图像/视频的分割和物体检测，多模态数据建模等。相关成果获得中国图象图形学学会科技技术奖一等奖 (2020)，计算机视觉领域世界杯ImageNet竞赛冠军 (2014)，CVPR 2018/2019人体精细化分割冠军，Youtube-VOS大规模视频物体分割冠军 (2021)，中国电子学会/北京交通大学优博 (2016)等。在国际顶级会议CVPR/ICCV/ECCV上数十次组办相关的学术研讨会，并担任ACML, WACV, IJCAI等国际知名会议的领域主席。在国际顶级会议和期刊上发表论文近百篇，其中在模式识别和机器智能最著名的IEEE TPAMI (影响因子16.39)上发表论文12篇，Google引用8000多次，相关成果被应用到Picsart (全球超十亿次下载的app)的智能分割系统，阿里巴巴的ODPS平台等。

个人主页：

https://weiyc.github.io/

Panel嘉宾：洪晓鹏 (哈尔滨工业大学)

嘉宾简介：

洪晓鹏，哈尔滨工业大学教授。历任芬兰Oulu大学博士后研究员、Docent (芬兰副高、博士生导师)和西安交通大学特聘研究员，澳洲国立大学访问学者和美国马里兰大学帕克校区访问教授。在视频监控、深度连续学习、脸部微小运动分析等方面开展了多年研究。曾先后主持国家重点研发计划课题、面上基金、芬兰信息技术学会博士后基金等项目。在IEEE会刊和CCF A类会议上发表论文50余篇。在面部微小运动分析方面的相关工作见诸美国《麻省理工技术评论》等国际权威媒体专文报道并获IEEE芬兰区最佳学生会议论文奖。带队获ECCV20 Visdrone挑战赛无人机航拍多目标追踪赛道等多项重要国内外比赛的冠亚军。图像图形学会情感计算与理解专业委员会副秘书长，视觉与学习青年学者研讨会 (VALSE)执行领域主席。受邀担任PRL和SIVP等期刊的客座编委和主流国际会议AAAI、IJCAI、ACM MM和ICME的AC或SPC。

个人主页：

hongxiaopeng.com

主持人：王兴刚 (华中科技大学)

主持人简介：

王兴刚，华中科技大学，电子信息与通信学院，副教授。主要研究方向为计算机视觉和深度学习，尤其在于弱监督高效率物体检测与分割。分别于2009年和2014年在华中科技大学获得学士和博士学位，分别于2011年和2013年在美国天普大学和UCLA做访问研究。发表论文70余篇，其中包括 (顶级期刊和会议IEEE TPAMI, IEEE TIP, CVPR, ICCV, ECCV, NIPS, ICML, AAAI)40余篇，谷歌学术引用次数超过9000次，提出了OICR/PCL等被广泛使用的弱监督物体检测框架、空间稀疏自注意力机制 (CCNet)等新方法。担任CVPR 2022领域主席，Pattern Recognition，Image and Vision Computing期刊副编辑。CSIG图象视频通信/机器视觉，CAAI模式识别等专委会委员。2012年获“微软学者”奖 (全亚洲10名获奖者)，2015年入选中国科协“青年托举人才工程”，2016年获湖北省优秀博士论文奖，入选华中科技大学“学术前沿青年创新团队”，2017年获中国电子教育学会优秀博士论文提名奖，湖北省自然科学二等奖 (排名第四)，Pattern Recognition等杂志优秀审稿人奖等，2018年获CCF-腾讯犀牛鸟基金优秀奖，ECCV'18大规模视频物体分割竞赛第二名，ICCV'19大规模视频物体分割竞赛第二名。

个人主页：

xinggangw.info

特别鸣谢本次Webinar主要组织者：

主办AC：王兴刚 (华中科技大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ R群，群号：137634472）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。