20210714-19 总第245期弱监督视觉学习：定位、分割及其他

2021-7-9 11:33| 发布者: 程一-计算所| 查看: 3291| 评论: 0

摘要: 报告时间2021年07月14日 (星期三)晚上20:00 (北京时间)主题弱监督视觉学习：定位、分割及其他Weakly Supervised Visual Learning :localization, segmentation and Beyond主持人张鼎文 (西北工业大学)直播地址https ...

报告时间	2021年07月14日 (星期三) 晚上20:00 (北京时间)
主题	弱监督视觉学习：定位、分割及其他 Weakly Supervised Visual Learning : localization, segmentation and Beyond
主持人	张鼎文 (西北工业大学)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：万方 (中国科学院大学)

报告题目：Weakly Supervised Object Localization：From CNN to Transformer

报告嘉宾：肖继民 (西交利物浦大学)

报告题目：Weakly Supervised Semantic Segmentation and Referring Expression Grounding

Panel嘉宾：

万方 (中国科学院大学)、肖继民 (西交利物浦大学)、王兴刚 (华中科技大学)、叶齐祥 (中国科学院大学)、耿新 (东南大学)

Panel议题：

1. 图像中的背景区域较为杂乱，导致背景类样本具有较大的类内散度，进而导致背景类自身难以准确建模，同时影响其他语义类别的建模，这个问题如何解决？

2. 如何处理弱监督下具有大量噪声的样本伪标注？

3. 现在的弱监督学习基本还是沿用MIL的建模方式，目前是否有其他的机器学习模型适用于弱监督学习？

4. 弱监督下模型复杂度从理论上是否与效果成正相关？不准确、不全面的标注是否更加难以训练较大规模的网络模型？

5. 弱监督学习在什么条件下可以逼近强监督学习的效果？什么场景下可以充分发挥弱监督学习的优势？

6. 当前弱监督学习的核心挑战是什么？当数据不再能驱得动学习过程，是否应该回归模型驱动的学习方法？

7. 弱监督学习在学术界和工业界的未来研究趋势是什么？是否需要新的benchmark？如何定义新的benchmark?

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：万方 (中国科学院大学)

报告时间：2021年07月14日 (星期三)晚上20:00 (北京时间)

报告题目：Weakly Supervised Object Localization：From CNN to Transformer

报告人简介：

万方，中国科学院大学计算机学院博士后。2013年毕业于武汉大学，并于2016年和2019年在中国科学院大学分别获得工学硕士和工学博士学位。2019年入选博士后创新人才支持计划，并获得2020年度中科院优秀博士论文称号。目前在国际顶级期刊IEEE TPAMI, IEEE TNNLS, IEEE TIP，国际顶级会议IEEE CVPR, IEEE ICCV, ECCV, NeurIPS ,AAAI等发表论文20余篇，并和华为诺亚方舟实验室等单位展开深入合作，发表专利3项。主要研究方向为人工智能和计算机视觉，包括弱监督学习，主动学习和目标检测等。

个人主页：

https://wanfang13.github.io/FangWan.htm

报告摘要：

弱监督目标定位旨在仅给定图像类别标签的情况下学习目标定位模型，是一个具有挑战性的任务。基于CNN的方法主要以CAM为基础，增加扩散激活、多分支协作和增强模型容忍能力等正则项的方式，达到激活更完整目标的目的。然而这些方法在进行图像分类训练时，仍然会受到激活局部判别区域的影响，导致部分激活问题仍然存在。我们认为部分激活问题是由CNN的固有特性引起的。其中卷积运算产生的局部感受野很难捕获图像像素之间的长距离特征依赖。因此，我们进一步引入标记语义耦合注意图(TS-CAM)，充分利用Transformer中的自注意机制进行长距离依赖提取。TS-CAM首先将图像分割成一系列patch tokens，并对其进行空间位置嵌入学习，从而产生具有长距离视觉依赖的注意图，以避免部分激活。然后TS-CAM为patch tokens重新分配与类别相关的语义，使它们都能够识别目标类别。最后，TS-CAM将patch tokens与语义无关的注意图进行耦合，实现语义感知定位。

参考文献：

[1] TS-CAM: Token Semantic Coupled Attention Map for Weakly Supervised Object Localization, Wei Gao, Fang Wan, Xingjia Pan, Zhiliang Peng, Qi Tian, Zhenjun Han, Bolei Zhou, Qixiang Ye, arXiv:2103.14862, 2021.

[2] DANet: Divergent Activation for Weakly Supervised Object Localization, Haolan Xue, Chang Liu, Fang Wan, Jianbin Jiao, Qixiang Ye. ICCV, 2019.

[3] Strengthen Learning Tolerance for Weakly Supervised Object Localization, Guangyu Guo, Junwei Han, Fang Wan, Dingwen Zhang, CVPR 2021.

[4] C-MIDN: Coupled Multiple Instance Detection Network with Segmentation Guidance for Weakly Supervised Object Detection. Yan Gao, Boxiao Liu, Nan Guo, Xiaochun Ye, Fang Wan, Haihang You, and Dongrui Fan. ICCV, 2019.

报告嘉宾：肖继民 (西交利物浦大学)

报告时间：2021年07月14日 (星期三)晚上20:30 (北京时间)

报告题目：Weakly Supervised Semantic Segmentation and Referring Expression Grounding

报告人简介：

肖继民于2013年获得英国利物浦大学博士学位，分别于2004和2007年获得南京邮电大学本科和硕士学位。2014年起在西交利物浦大学任讲师和副教授，同时担任英国利物浦大学博士生导师，目前指导在读博士生近10人(已毕业2人)。在此之前，他在芬兰坦佩雷理工大学和芬兰诺基亚研究院担任高级研究员。肖继民博士已在IEEE TPAMI, TIP, TMM, TCSVT, PR, CVPR, ECCV, AAAI等期刊和会议发表论文70多篇。主要研究方向包括计算机视觉，人工智能。

个人主页：

https://www.xjtlu.edu.cn/index.php?cultureKey=en&q=staff&alias=jimin-xiao

报告摘要：

强监督训练可以获得较高的模型精度，但是数据标注成本高，特别是针对图像语义分割，图像中每个像素点都需要人工标注类别，不易于大规模应用推广。对此，我们尝试了不同形式的弱监督语义分割模型训练方法，这些监督信息包括图像类别信息、点监督信息、线监督信息和边框监督信息。我们提出了一个新的亲密度网络和图模型结构，把有限的监督信息扩充到整个图像。我们的方法在不同形式的弱监督语义分割中都取得了很好的效果，具有较强的通用性。同时，针对显著性区域检测和基于语言指示的视觉定位(Referring Expression Grounding)的弱监督学习，我们也进行了一些研究，也取得了较好的实验效果。

参考文献：

[1] Affinity Attention Graph Neural Network for Weakly Supervised Semantic Segmentation, Bingfeng Zhang, Jimin Xiao*, Jianbo Jiao, Yunchao Wei, Yao Zhao, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.

[2] Reliability Does Matter: An End-to-End Weakly Supervised Semantic Segmentation Approach, Bingfeng Zhang, Jimin Xiao*, Yunchao Wei, Mingjie Sun, Kaizhu Huang, AAAI 2020.

[3] Discriminative Triad Matching and Reconstruction for Weakly Referring Expression Grounding, Mingjie Sun, Jimin Xiao*, Eng Gee Lim, Si Liu, John Y. Goulermas, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021.

[4] Structure-Consistent Weakly Supervised Salient Object Detection with Local Saliency Coherence, Siyue Yu, Bingfeng Zhang, Jimin Xiao*, Eng Gee Lim, AAAI 2021.

Panel嘉宾：王兴刚 (华中科技大学)

嘉宾简介：

王兴刚，华中科技大学，电子信息与通信学院，华中卓越学者晨星岗副教授。主要研究方向为计算机视觉和深度学习，尤其在于弱监督高效率物体检测与分割。分别于2009年和2014年在华中科技大学获得学士和博士学位，分别于2011年和2013年在美国天普大学和UCLA做访问研究。发表论文70余篇，其中包括(顶级期刊和会议IEEE TPAMI, IEEE TIP, CVPR, ICCV, ECCV, NIPS, ICML, AAAI)40余篇，谷歌学术引用次数超过7000次，提出了OICR/PCL等被广泛使用的弱监督物体检测框架、空间稀疏自注意力机制(CCNet)等新方法。担任CVPR 2022领域主席，Pattern Recognition，Image and Vision Computing期刊副编辑。CSIG图象视频通信/机器视觉，CAAI模式识别等专委会委员。2012年获“微软学者”奖(全亚洲10名获奖者)，2015年入选中国科协“青年托举人才工程”，2016年获湖北省优秀博士论文奖，入选华中科技大学“学术前沿青年创新团队”，2017年获中国电子教育学会优秀博士论文提名奖，湖北省自然科学二等奖(排名第四)，Pattern Recognition等杂志优秀审稿人奖等，2018年获CCF-腾讯犀牛鸟基金优秀奖，ECCV'18大规模视频物体分割竞赛第二名，ICCV'19大规模视频物体分割竞赛第二名。

个人主页：

http://xinggangw.info/

Panel嘉宾：叶齐祥 (中国科学院大学)

嘉宾简介：

叶齐祥教授，博导。获哈尔滨工业大学学士、硕士学位、中科院计算技术研究所所博士学位。在中国科学院大学任教，历任讲师、(长聘)副教授、教授，负责中国科学院大学中关村开放实验室(Pri-SDL)。曾在美国马里兰大学先进计算机技术研究所(UMIACS)任访问助理教授、Duke大学信息技术研究所(IID)访问学者。主要进行鲁棒性特征表示学习、弱监督增量学习、自监督主动学习等方法研究及视觉目标感知技术研究，在国际期刊/会议发表论文130余篇，含IEEE CVPR, ICCV, NeurIPS, AAAI、ECCV等顶级会议与T-PAMI, TNNLS, TIP, T-ITS, PR等JCR一区期刊论文80余篇，支撑了金山云、华为、航天等单位的应用系统。获中国电子学会自然科学奖，IEEE Senior Member, IJCAI资深程序委员，获美国马里兰大学优秀学者奖，中国科学院卢嘉锡青年人才奖、中国科学院优秀导师奖，指导博士生获得中国科学院优秀博士论文奖。担任国际期刊IEEE T-ITS，IEEE T-CSVT编委。

个人主页：

http://people.ucas.ac.cn/~qxye

Panel嘉宾：耿新 (东南大学)

嘉宾简介：

耿新，东南大学特聘教授，计算机科学与工程学院、软件学院院长，人工智能学院执行院长。国际工程与技术学会(IETI)杰出会士，国家基金委优青，江苏省杰青。主要从事模式识别、机器学习、计算机视觉等方面的研究，在这些领域的重要国际学术期刊和会议发表论文90余篇。曾获国家自然科学奖二等奖、国家级教学成果奖一等奖、教育部自然科学奖一等奖等多项教学、科研奖励。现任教育部高校计算机类专业教指委人工智能专家委员会委员，江苏省计算机学会副理事长， CSIG视觉大数据专委会副主任，IEEE计算机学会南京分会副主席，亚太国际人工智能会议(PRICAI)指导委员会委员，CCF人工智能与模式识别专委会常委、计算机视觉专委会常委，中国人工智能学会模式识别专委会常委，《IEEE T-MM》、《Electronics》《Mathematical Foundations of Computing》等期刊编委，《Frontiers of Computer Science》青年编委。曾任知名国际会议PRICAI’18程序委员会主席，IJCAI、CVPR、ACMMM、ICPR、WACV等重要国际会议领域主席。

个人主页：

http://palm.seu.edu.cn/xgeng/index.htm

主持人：张鼎文 (西北工业大学)

主持人简介：

张鼎文，西北工业大学脑与人工智能实验室教授，2015赴美国卡耐基梅隆大学进行为期2年的访问研究，入选中国博士后创新人才计划, 科睿唯安“全球高被引科学家”。所发表论文入选ESI高被引论文及热点论文十余次，1篇论文获2021 IEEE TCSVT最佳论文奖，1篇论文入选2018年中国百篇最具影响国际学术论文，获中国图象图形学学会优秀博士论文奖，ACM China SIGAI(国际计算机学会中国人工智能分会)优博奖，陕西省优秀博士学位论文奖等。是IEEE会员、ACM会员、中国图象图形学学会视觉大数据专委会委员、第六届VALSE执行领域主席委员会委员。主要从事人工智能领域中的热点研究方向—计算机视觉、模式识别、多媒体信息处理、机器学习。致力于建立面向开放环境下、具备动态学习能力的新一代计算机视觉学习框架。迄今为止，作为第一作者/通讯作者在领域内国际重要期刊及会议发表学术论文30余篇，其中包含T-PAMI, IJCV, IEEE SPM, T-IP, CVPR, ICCV, Science China: Information Science等，担任IEEE TMM与TCSVT的Leading Guest Editor, 担任ACM MM及ICCV的Workshop Organizer。

个人主页：

https://zdw-nwpu.github.io/dingwenz.github.com/