VALSE Student Webinar 20230721-01期总第318期开放视觉感知

2023-7-18 10:02| 发布者: 程一-计算所| 查看: 2865| 评论: 0

摘要: 报告嘉宾：刘世隆 (清华大学)报告题目：From Detection to Grounding: A Path to Open Set Understanding报告嘉宾：徐嘉瑞 (加州大学圣地亚哥分校)报告题目：ODISE: 基于文字图像扩散模型的开放词汇全景分割报告嘉宾 ...

报告嘉宾：刘世隆 (清华大学)

报告题目：From Detection to Grounding: A Path to Open Set Understanding

报告嘉宾：徐嘉瑞 (加州大学圣地亚哥分校)

报告题目：ODISE: 基于文字图像扩散模型的开放词汇全景分割

报告嘉宾：邹雪妍 (UW Madison)

报告题目：Along and Beyond X-Decoder and SEEM

Panel嘉宾：

崔崟 (NVIDIA Research)、王小龙 (UCSD)、谢伟迪 (上海交通大学)、杨健伟 (微软雷德蒙德研究院)、张磊 (粤港澳大湾区数字经济研究院(IDEA))

Panel议题：

1. 随着跨模态大模型的发展，大数据大模型是否会成为开放词汇视觉感知的必然趋势？除此之外，该领域还存在哪些需要解决的挑战？

2. 在工业界中，开放词汇视觉感知存在哪些应用前景或局限性？

3. 当人类遇到新词汇时，会尝试将其与已知的相关概念联系起来。人类的一些先验知识 (例如对词语的解释、与其他类别的关系等)对模型的开放词汇感知有什么帮助？什么形式的先验知识可能对模型的开放能力提升更大？

4. 开放词汇的视觉理解会出现感知智能涌现吗？视觉领域离出现ChatGPT级别的大模型还有多远？可能的发展路径有哪些？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：刘世隆 (清华大学)

报告时间：2023年07月21日 (星期五)早上09:00 (北京时间)

报告题目：From Detection to Grounding: A Path to Open Set Understanding

报告人简介：

刘世隆，清华大学计算机系三年级博士生，导师为朱军教授，也长期在粤港澳大湾区数字经济研究院 (IDEA Research)接受张磊教授指导。他长期关注计算机视觉中的物体理解问题，主要研究方向包括检测分割以及开放场景下的理解问题。他的代表作包括DAB-DETR, DINO, Grounding DINO等。Google Scholar引用超过800，GitHub累计超过1.4万stars。

个人主页：

www.lsl.zone

报告摘要：

在这次报告中我们首先会介绍和对比开放词表检测中的两个范式：Referring (CLIP-based)和Grounding。大部分的开集目标检测工作都是以Referring的形式进行的，因为其更加直接、符合直觉；而Grounding作为Detection 和Referring的超集在开放域检测中被使用的更少，但是其对异源数据、图文对数据有更好的兼容性。因此我们希望能够鼓励更多的Grounding形式的开集检测工作。接下来我们会介绍我们在Grounding方向的探索，包括我们的Grounding DINO，以及延伸的Grounded-SAM。我们会分享我们研究的动机和方法，以及展示我们模型在不同场景下的优异结果。

参考文献：

[1] Liu, Shilong, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chunyuan Li et al. "Grounding dino: Marrying dino with grounded pre-training for open-set object detection." arXiv preprint arXiv:2303.05499 (2023).

[2] [Grounded-Segment-Anything]

https://github.com/IDEA-Research/Grounded-Segment-Anything

[3] Gu, Xiuye, Tsung-Yi Lin, Weicheng Kuo, and Yin Cui. " Open-vocabulary Object Detection via Vision and Language Knowledge Distillation." In International Conference on Learning Representations. 2021.

[4] Li, Liunian Harold, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang et al. "Grounded language-image pre-training." In Proceedings of the IEEE/ CVF Conference on Computer Vision and Pattern Recognition, pp. 10965-10975. 2022.

报告嘉宾：徐嘉瑞 (加州大学圣地亚哥分校)

报告时间：2023年07月21日 (星期五)早上09:20 (北京时间)

报告题目：ODISE: 基于文字图像扩散模型的开放词汇全景分割

报告人简介：

徐嘉瑞，加州大学圣地亚哥分校计算机与工程系博士生，他在计算机视觉会议CVPR，ICCV和ECCV等会议上发表了多篇论文，曾获ICCV 2019 Neural Architects Workshop Best Paper Award。他是2022 Qualcomm Innovation Fellowship的获得者。曾在MSRA，NVIDIA和Google做研究实习。

个人主页：

http://jerryxu.net/

报告摘要：

在这篇文章中，作者提出了ODISE: 基于扩散模型的开放词汇全景分割 (Open-vocabularyDIffusion-based panoptic SEgmentation)，该模型将预训练的文本-图像扩散模型与判别模型统一起来，用于开放词汇全景分割任务。作者认为：文本-图像扩散模型具有出色的能力，可以根据各种开放词汇语言描述生成高质量图像。这表明它们内部的表征空间与现实世界中的开放概念高度相关。另一方面，像CLIP这样的文本-图像判别模型擅长将图像分类为开放词汇标签。因此作者利用冻结的扩散模型与判别模型来实现开放类别的全景分割。ODISE在开放词汇全景分割和语义分割任务上的表现优于以前的最先进方法。

参考文献：

[1] Xu, Jiarui, Sifei Liu, Arash Vahdat, WonminByeon, Xiaolong Wang, and Shalini De Mello. "Open-vocabulary panopticsegmentation with text-to-image diffusion models." In Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 2955-2966.2023.

报告嘉宾：邹雪妍 (UW Madison)

报告时间：2023年07月21日 (星期五)早上09:40 (北京时间)

报告题目：Along and Beyond X-Decoder and SEEM

报告人简介：

邹雪妍目前是威斯康星大学麦迪逊分校的计算机科学系博士生，师从Yong Jae Lee教授。在读期间，她曾在微软研究院，字节跳动，卡内基梅隆大学作为研究实习生工作学习，分别由杨健伟，杨林杰，禹之鼎博士指导。她的主要研究兴趣为图像分割，多模态模型，以及大型语言和图像模型。她的一作论文曾获BMVC最佳论文奖，也有多篇一作论文发表于CVPR，IJCV会议与期刊中。

个人主页：

https://maureenzou.github.io/

报告摘要：

随着大型语言模型 (GPT3, LLalMA)和多模态 (CLIP, GPT4)的发展，人工通用智能已经逐渐从想象走向落地，与此同时，对多模态的模型的研究也变的更加重要。过去有很多工作探索了开源词库的多模态的图像识别 (UniCL)，理解 (FIBER)，到物体识别 (GLIP,RegionCLIP)，图像分割 (OpenSeed,Semantic-SAM)，这些模型虽然都实现了多模态在不同任务上的功能，但是却不能用一个简单统一的模型完成多种任务，我们在X-Decoder和SEEM中探索了如何统一多种任务和多个模态，使同一个模型同一组参数理解多种任务和模态成为可能。

参考文献：

[1] Zou, Xueyan, Jianwei Yang, Hao Zhang, FengLi, Linjie Li, Jianfeng Gao, and Yong Jae Lee. "Segment everythingeverywhere all at once." arXiv preprint arXiv:2304.06718 (2023).
[2] Zou, Xueyan, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li,Xiyang Dai et al. "Generalized decoding for pixel, image, andlanguage." In Proceedings of the IEEE/ CVF Conference on Computer Visionand Pattern Recognition, pp. 15116-15127. 2023.
[3] Zhang, Hao, Feng Li, Xueyan Zou, Shilong Liu, Chunyuan Li, Jianfeng Gao,Jianwei Yang, and Lei Zhang. "A simple framework for open-vocabularysegmentation and detection." arXiv preprint arXiv:2303.08131 (2023).
[4] Li, Feng, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang,Chunyuan Li, Lei Zhang, and Jianfeng Gao. "Semantic-SAM: Segment andRecognize Anything at Any Granularity." arXiv preprint arXiv:2307.04767(2023).

Panel嘉宾：崔崟 (NVIDIA Research)

嘉宾简介：

Yin Cui is a research scientist at NVIDIA.Before joining NVIDIA, Yin was a research scientist at Google. He obtained hisPh.D. in Computer Science from Cornell University and Cornell Tech in 2019. Yinhas broad research interests in Computer Vision and Deep Learning. His recentresearch has focused on building multimodal foundation models. Yin co-organizedseveral workshops in major conferences, including the ImageNet and COCO VisualRecognition Workshop, the Fine-Grained Visual Categorization Workshop, etc.

个人主页：

https://ycui.me/

Panel嘉宾：王小龙 (UCSD)

嘉宾简介：

Xiaolong Wang is an Assistant Professor in theECE department at the University of California, San Diego, affiliated with theTILOS NSF AI Institute. He received his Ph.D. in Robotics at Carnegie MellonUniversity. His postdoctoral training was at the University of California,Berkeley. His research focuses on the intersection between computer vision androbotics. His specific interest lies in learning 3D and dynamicsrepresentations from videos and physical robotic interaction data. Thesecomprehensive representations are utilized to facilitate the learning of robotskills, with the goal of generalizing the robot to interact effectively with awide range of objects and environments in the real physical world. He is therecipient of the NSF CAREER Award, and Research Awards from Sony, Amazon, andAdobe.

个人主页：

https://xiaolonw.github.io/

Panel嘉宾：谢伟迪 (上海交通大学)

嘉宾简介：

谢伟迪，是上海交通大学长聘轨副教授，上海人工智能实验室青年科学家，牛津大学视觉几何组访问研究员，谢伟迪博士是首批Google-DeepMind全额奖学金获得者，ChinaOxford Scholarship Fund (Magdalen Award)奖学金获得者，牛津大学工程系杰出奖 (Oxford ExcellenceAward)获得者，2022年上海市领军人才 (海外)获得者。谢伟迪博士主要研究领域为计算机视觉，AI4Medicine。

个人主页：

https://weidixie.github.io

Panel嘉宾：杨健伟 (微软雷德蒙德研究院)

嘉宾简介：

Dr. Jianwei Yang is a senior researcher in DeepLearning Group at Microsoft Research, Redmond. Prior to that, he completed hisPh.D. under the supervision of Prof. Devi Parikh at Georgia Institute ofTechnology. His research interests span in computer vision, vision &language and machine learning. His most recent research focuses on buildinggeneralist vision and multi-modal models for computer vision in the wild. He isthe core technical contributor of Project Florence at microsoft, and therecipient of two outstanding NeurIPS reviewers and best paper finalist at CVPR2022. He also served as an area chair for ICCV 2023 and organized several workshopsand tutorials at top-tier conferences, including Computer Vision in the Wild2022 and 2023, and Transformer for Vision 2022 and 2023, etc.

个人主页：

https://jwyang.github.io/

Panel嘉宾：张磊 (粤港澳大湾区数字经济研究院(IDEA))

嘉宾简介：

张磊，粤港澳大湾区数字经济研究院 (IDEA)讲席科学家，负责计算机视觉与机器人研究方向，并兼任香港科技大学 (广州)客座教授。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员，长期带领研究组从事计算机视觉方向的基础研究和大规模图像分析、物体检测、视觉语言多模态理解方面的应用研究。研究成果被广泛用于微软必应搜索及认知服务云计算平台。张磊博士在计算机视觉等相关领域发表论文150多篇，并拥有60多项美国授权专利。因其对大规模图像识别和多媒体信息检索方面做出的贡献，他于2020年获选为IEEEFellow。

个人主页：

https://leizhang.org/

主持人：刘偲 (北京航空航天大学)

主持人简介：

刘偲，北航教授，博导。主持国家优秀青年科学基金。博士毕业于中科院自动化所，曾于新加坡国立大学任RA和博后，曾任微软亚洲研究院铸星计划研究员。研究方向是跨模态智能分析、目标检测和跟踪。共发表了CCFA类论文80余篇。Google Scholar引用10000+次。获CCF-A类会ACM MM 2012最佳技术演示奖，ACM MM 2013、ACM MM2021最佳论文奖，以及IJCAI 2021最佳视频奖。担任中国图象图形学学会理事、副秘书长。多次担任ICCV、CVPR、ECCV、NeurIPS、ACMMM等会议AC。担任IEEE TMM、IEEE TCSVT、CVIU等期刊AE。获得10+项CVPR、ICCV、ACL等国际顶级竞赛冠军。

主持人：李冠彬 (中山大学)

主持人简介：

李冠彬，中山大学计算机学院副教授，博士生导师。主要研究领域包括计算机视觉与机器学习，迄今为止累计发表CCFA类/ 中科院一区论文100余篇，Google Scholar引用超过 8700次。曾获得吴文俊人工智能优秀青年奖、ICCV2019最佳论文提名奖、ICMR2021最佳海报论文奖、中国图象图形学学会科学技术一等奖、ACM中国新星提名奖、英伟达AI城市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自然科学基金面上项目、国家自然科学基金青年项目、CCF腾讯犀牛鸟科研基金等10多项科研项目。担任广州计算机学会副秘书长、CSIG青工委委员、视觉与学习青年学者研讨会 (VALSE)EAC副主席等。

个人主页：

http://guanbinli.com/

特别鸣谢本次Webinar主要组织者：

主办AC：刘偲 (北京航空航天大学)、李冠彬 (中山大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 论文速览第118期：基于知识更新和知识整合的行人再识别终身学习方法 ...下一篇：VALSE Webinar 20230802-19期总第319期跨模态学习驱动的三维理解与生成 ...

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-15 06:39 , Processed in 0.017404 second(s), 14 queries .

返回顶部

VALSE Student Webinar 20230721-01期 总第318期 开放视觉感知

相关分类

下级分类

VALSE Student Webinar 20230721-01期总第318期开放视觉感知