VALSE

VALSE 首页 活动通知 查看内容

VALSE Webinar 24-34期 总第369期 复杂场景多模态感知

2024-11-29 18:58| 发布者: 程一-计算所| 查看: 30| 评论: 0

摘要: 报告嘉宾:刘云 (南开大学)报告题目:小样本三维点云语义分割报告嘉宾:刘畅 (TikTok)报告题目:Image and Video Segmentation in Complex Scenes报告嘉宾:李思远 (ETH Zurich)报告题目:开放世界多目标跟踪 (Open- ...

报告嘉宾:刘云 (南开大学)

报告题目:小样本三维点云语义分割


报告嘉宾:刘畅 (TikTok)

报告题目:Image and Video Segmentation in Complex Scenes


报告嘉宾:李思远 (ETH Zurich)

报告题目:开放世界多目标跟踪 (Open-Vocabulary Tracking)


报告嘉宾:刘云 (南开大学)

报告时间:2024年12月04日 (星期三)晚上20:00 (北京时间)

报告题目:小样本三维点云语义分割


报告人简介:

刘云,南开大学青年教师。曾任新加坡科技研究局(A*STAR)高级科学家,曾在苏黎世联邦理工学院(ETH Zurich)计算机视觉实验室从事博士后,导师为Luc Van Gool教授。在程明明教授的指导下,分别在2016年和2020年于南开大学获学士、博士学位。主要研究方向为图像、视频、点云等的高效感知与分割。在计算机视觉、人工智能等顶级期刊和会议上发表30余篇论文,谷歌学术引用7700余次。


个人主页:

https://yun-liu.github.io/

 

报告摘要:

本次报告将围绕小样本三维点云语义分割(Few-shot 3D Point Cloud Semantic Segmentation, FS-PCS)展开,探讨当前问题设置中存在的两个主要问题:前景泄漏和稀疏点分布。这些问题严重影响了当前模型的性能评估,揭示了引入一个标准化的FS-PCS设置的重要性。此外,还将介绍一种新颖的FS-PCS模型。与以往主要通过优化Support特征来增强Prototypes的特征优化方法不同,我们的方法是基于相关性优化的(Correlation Optimization),即优化语义类别与特征的相关性。针对小样本训练固有的导致模型对基础类(Base Classes)敏感的问题,我们设计了基础原型校准(Base Prototypes Calibration, BPC)模块用于校准背景类的相关性。与此同时,本次报告还将探讨多模态信息对于FS-PCS的辅助意义,在不增加模型推理成本的前提下,重点讨论如何在模型训练中用文本、2D图像等多模态信息来增强3D点云在小样本问题中的表征能力。


报告嘉宾:刘畅(TikTok@Singapore)

报告时间:2024年12月04日 (星期三)晚上20:30 (北京时间)

报告题目:Image and Video Segmentation in Complex Scenes


报告人简介:

刘畅,新加坡TikTok研究员,负责多模态大模型相关的研究与应用。2018年于哈尔滨工业大学获得学士学位,2019、2024年于新加坡南洋理工大学获得硕士、博士学位,2023年至2024年于新加坡科技研究局(A*STAR)任研究科学家。主要研究方向包括视觉理解、图像视频分割、多模态学习、视觉生成等。于CVPR、ICCV、TPAMI等计算机视觉、人工智能顶级国际会议和期刊发表论文10余篇,引用量近千次。一作论文GRES被评为CVPR 2023 Highlight。在CVPR、ECCV等会议中多次任国际竞赛的主要组织者,组织的MOSE、MeViS、LSVOS等复杂场景视频分割竞赛吸引全球百余支队伍参加。

 

个人主页:

https://scholar.google.com/citations?user=XlQP0GIAAAAJ&hl=zh-CN

 

报告摘要:

In recent years, we have observed a great boost on the performance of image segmentation methods. With the help of vision transformers, a great number of video and image segmentation methods, including many language-guided multi-modal segmentation methods, have been proposed and have achieved remarkable on several existing datasets. This makes us to wonder: have the problem of video and image segmentation been well-solved? To investigate this, we built three large scale datasets, including a complex video object segmentation dataset MOSE, a motion expression guided video segmentation dataset MeViS, and a generalized referring segmentation dataset gRefCOCO. All of them feature challenging but realistic data, trying to find out the boundary of existing segmentation methods. Benchmark and evaluation show that most of the existing methods cannot well handle some complex scenarios in real world.

 

参考文献:

[1] Liu C, Ding H, Jiang X. GRES: Generalized referring expression segmentation. CVPR 2023 Highlight,录取率仅2.56%。

[2] Ding, H., Liu, C., He, S., Jiang, X., Torr, P. H., & Bai, S. MOSE: A new dataset for video object segmentation in complex scenes. ICCV 2023.

[3] Ding, H., Liu, C., He, S., Jiang, X., & Loy, C. C. MeViS: A large-scale benchmark for video segmentation with motion expressions. ICCV 2023.

[4] Ding, H., Liu, C., Wang, S., & Jiang, X. VLT: Vision-language transformer and query generation for referring segmentation. IEEE TPAMI 2023.


报告嘉宾:李思远 (ETH Zurich)

报告时间:2024年12月04日 (星期三)晚上21:00 (北京时间)

报告题目:开放世界多目标跟踪 (Open-Vocabulary Tracking)


报告人简介:

李思远,现为瑞士苏黎世联邦理工学院(ETH Zurich)计算机视觉实验室博士生,导师为Luc Van Gool教授。主要研究方向为开放世界视觉、目标检测与跟踪、多模态生成等。至今已在CVPR、ECCV、ICCV等国际顶级会议和期刊发表多篇论文,并多次担任CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI等学术会议的审稿人。

 

个人主页:

https://siyuanliii.github.io/

 

报告摘要:

多目标跟踪(Multiple Object Tracking)在机器人、自动驾驶、增强现实(AR)等领域具有广泛应用。现有的多目标跟踪方法通常局限于跟踪行人或车辆,无法胜任开放世界中任意类别物体的跟踪任务。本次报告将分享我们在开放世界中多目标跟踪任意物体的最新进展,探讨如何建立更适合开放世界的多目标跟踪评估体系,以及设计适用于任意多物体的跟踪算法和基础模型。

 

参考文献:

[1] Li, Siyuan, Martin Danelljan, Henghui Ding, Thomas E. Huang, and Fisher Yu. "Tracking every thing in the wild." In ECCV 2022.

[2] Li, Siyuan, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan, and Fisher Yu. "Ovtrack: Open-vocabulary multiple object tracking." In CVPR 2023.

[3] Li, Siyuan, Lei Ke, Martin Danelljan, Luigi Piccinelli, Mattia Segu, Luc Van Gool, and Fisher Yu. "Matching Anything by Segmenting Anything." In CVPR 2024.

[4] Li, Siyuan, Lei Ke, Yung-Hsu Yang, Luigi Piccinelli, Mattia Segù, Martin Danelljan, and Luc Van Gool. "SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking." In ECCV 2024.


主持人:丁恒辉 (复旦大学)


主持人简介:

丁恒辉,复旦大学青年研究员,博导,国家海外高层次青年人才,上海市海外高层次青年人才,上海市计算机学会副秘书长。2016年于西安交通大学获学士学位,2020年于新加坡南洋理工大学获博士学位,曾在苏黎世联邦理工学院任博士后研究员。主要从事计算机视觉、多模态、场景理解、图像和视频分割等研究。过去5年共发表论文80多篇,包括60多篇CCF-A类论文和10多篇CCF-B类论文。担任CVPR、NeurIPS、ICLR、ACM MM等多个国际顶级会议Area Chair,担任AAAI和IJCAI的资深程序委员,担任VALSE AC。


个人主页:

https://henghuiding.github.io/



特别鸣谢本次Webinar主要组织者:

主办AC:丁恒辉 (复旦大学)


活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们!

直播地址:

https://live.bilibili.com/22300737;

历史视频观看地址:

https://space.bilibili.com/562085182/ 


2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ T群,群号:863867505);


*注:申请加入VALSE QQ群时需验证姓名、单位和身份缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。


3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。


4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。


小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-1-31 17:50 , Processed in 0.013422 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

返回顶部