VALSE Webinar 20230426-09期总第309期通用大模型时代的计算机视觉研究 ...

2023-4-21 20:23| 发布者: 程一-计算所| 查看: 3825| 评论: 0

摘要: 报告时间2023年04月26日 (星期三)晚上20:00 (北京时间)主题通用大模型时代的计算机视觉研究主持人李冠彬 (中山大学)山世光 (中科院计算所/中国科学院大学)直播地址https://live.bilibili.com/22300737报告嘉宾：郑 ...

报告时间	2023年04月26日 (星期三) 晚上20:00 (北京时间)
主题	通用大模型时代的计算机视觉研究
主持人	李冠彬 (中山大学) 山世光 (中科院计算所/中国科学院大学)
直播地址	https://live.bilibili.com/22300737

报告嘉宾：郑锋 (南方科技大学)

报告题目：“Segment Anything”浅谈及应用介绍

报告嘉宾：张力 (复旦大学)

报告题目：Vision foundation model and its application on autonomous driving

Panel嘉宾：

程明明 (南开大学)、张磊 (粤港澳大湾区数字经济研究院(IDEA))、王兴刚 (华中科技大学)、谢凌曦 (华为)、郑锋 (南方科技大学)、张力 (复旦大学)

Panel议题：

1. Meta AI发布的“Segment Anything Model (SAM)”有哪些技术亮点？将SAM的出现比喻为CV领域的GPT-3时刻是否恰当？SAM的出现和发展会使CV的研究变得不存在了吗？

2. SAM推出后快速演进，学术界如何适应越来越快的研究节奏？计算机视觉领域的研究者如何开展有特色有影响力的研究？随着SAM的出现，大量基于CV相关的开源库数量也随之增长，大量的时间花费在基于此类接口的开源应用是学术资源的浪费，还是有利于整个社区的发展？企业界和高校学术界如何更好拥抱SAM之类的视觉大模型？

3. SAM的快速兴起，是否意味着很多CV任务都会在未来一段时间内实现大的突破？CV未来的研究方向在哪里 (从单帧到多帧？2D到3D？从感知到认知和交互？还有哪些值得去挖掘的研究方向？)

4. 畅想LLM与3D视觉的结合，会诞生哪些有意思的应用？3D数据相比于2D获取成本更高，可用的数据也相对更少，如何突破数据上的瓶颈？

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：郑锋 (南方科技大学)

报告时间：2023年04月26日 (星期三)晚上20:00 (北京时间)

报告题目：“Segment Anything”浅谈及应用介绍

报告人简介：

郑锋，南方科技大学副教授 (研究员)，国自然优秀青年基金获得者，于英国谢菲尔德大学获得博士学位。研究兴趣包括机器学习、计算机视觉与跨媒体计算。曾在腾讯优图实验室任高级研究员，在美国匹兹堡大学和德克萨斯大学阿灵顿分校任博后研究员，在中国科学院深圳先进技术研究院任研究助理及助理研究员。目前，在国际顶级杂志和会议上包括IEEE TPAMI/ TIP/ TNNLS/ ICML/ NeuIPS/ AAAI/ CVPR/ ICCV/ ECCV发表100余篇学术论文, 其中，高被引论文2篇；CCF推荐A类论文62篇。指导学生在包括CVPR ActivityNet/ CVPR LOVEU/ ACM MM PIC等多个国际重要竞赛中多次取得了第一或第二名的好成绩。获得了人机交互相关技术多项授权专利，其研究的人机交互技术曾被多家主流媒体报道过，并实现了向包括华为和创维等企业的技术转化。同时，是IET Image Processing杂志副编辑，是ACM MM 2020/ 2021领域主席，ICME 2021/ IJCB 2021本地主席，PRCV 2022组委会主席，在多个国际顶级人工智能会议包括CVPR/ AAAI/ IJCAI/ NeuIPS/ ICML/ ICLR/ KDD/ ICCV担任委员会成员。

个人主页：

https://faculty.sustech.edu.cn/fengzheng/

报告摘要：

基于Alexnet视觉模型的成功，带动了近十年人工智能的飞速发展。但是基于Transformer语言大模型的出现，构建了ChatGPT和GPT4，让人类第一次接近了通用人工智能。事实上，人们一直期待能出现类似的视觉领域大模型，解决人类80%信息源的认知问题。Meta AI近期推出的“Segment Anything”视觉大模型，试图将视觉分割任务统一起来，其效果令人震惊。基于“Segment Anything”模型，我们迅速推出了两个旨在验证该模型基础作用的系统: 1) Caption Anything 是一款集Segment Anything、Visual Captioning 和ChatGPT 功能于一体的多功能图片处理工具。我们的解决方案为图像中的任何对象生成描述性说明，提供一系列语言风格以满足不同的用户偏好。它支持视觉控制 (鼠标点击)和语言控制 (长度、情感、真实性和语言)。2) Track Anything 是一个灵活的交互式视频对象跟踪和分割工具。在跟踪过程中，用户可以灵活地更改他们想要跟踪的对象，或者在出现歧义的情况下更正感兴趣的区域。用户可以使用此系统擦除或修复 (Inpainting)视频内容。视觉大模型任重而道远，我们认为这一切才刚刚开始。

参考文献：

[1] Segment Anything. Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollár, Ross Girshick. CVPR, 2023.

[2] Teng Wang, Ruimao Zhang, Zhichao Lu, Feng Zheng*, Ran Cheng, Ping Luo. End-to-End Dense Video Captioning with Parallel Decoding. ICCV, 2021.

[3] Teng Wang, Yixiao Ge, Feng Zheng*, Ran Cheng, Ying Shan, Xiaohu Qie, Ping Luo. Accelerating Vision-Language Pretraining with Free Language Modeling. CVPR, 2023.

报告嘉宾：张力 (复旦大学)

报告时间：2023年04月26日 (星期三)晚上20:30 (北京时间)

报告题目：Vision foundation model and its application on autonomous driving

报告人简介：

Li Zhang is a tenure-track Professor at the School of Data Science, Fudan University. Previously, he was a Research Scientist at Samsung AI Center Cambridge, and a Postdoctoral Research Fellow at the University of Oxford. Prior to joining Oxford, he read his PhD in computer science at Queen Mary University of London. The aim of his research group is to make the machine see and empower the next generation AI by striving to achieve the most universal representation of understanding objects and scene with mathmatical models of neural networks. He was elected to the Shanghai Science & Technology 35 Under 35. He serve as the area chair for CVPR 2023 and NeruIPS 2023.

个人主页：

https://lzrobots.github.io

报告摘要：

In this talk, I will explore our work on vision foundation model, starting with the Segmentation Transformer and progressing to the linear and mobile variants. Recently, we aim to create a generative model for visual segmentation. I will also discuss our contribution on autonomous driving, including our pure vision solution Polarformer and Ego3RT, and the multimoal solution Deepinteraction which took the first place on nuScenes, as well as our recent work on large-scale autonomous driving system, Street NeRF.

参考文献：

[1] Jiaqi Chen, Jiachen Lu, Xiatian Zhu, Li Zhang, Generative Semantic Segmentation, CVPR 2023.

[2] Ziyang Xie, Junge Zhang, Wenye Li, Feihu Zhang, Li Zhang, S-NeRF: Neural Radiance Fields for Street Views, ICLR 2023.

[3] Qiang Wan, Jiachen Lu, Zilong Huang, Gang Yu, Li Zhang, SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation, ICLR 2023.

[4] Yanqin Jiang, Li Zhang, Zhenwei Miao, Xiatian Zhu, Jin Gao, Weiming Hu, Yu-Gang Jiang, PolarFormer: Multi-camera 3D Object Detection with Polar Transformers, AAAI 2023.

[5] Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang, DeepInteraction: 3D Object Detection via Modality Interaction, NeurIPS 2022.

[6] Li Zhang, Mohan Chen, Anurag Arnab, Xiangyang Xue, Philip H.S. Torr, Dynamic Graph Message Passing Network for Visual Recognition, IEEE TPAMI 2022.

[7] Jiachen Lu, Zheyuan Zhou, Xiatian Zhu, Hang Xu, Li Zhang, Learning Ego 3D Representation as Ray Tracing, ECCV 2022.

[8] Jiachen Lu, Jinghan Yao, Junge Zhang, Xiatian Zhu, Hang Xu, Weiguo Gao, Chunjing Xu, Tao Xiang, Li Zhang, SOFT: Softmax-free Transformer with Linear Complexity, NeurIPS 2021.

[9] Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip HS Torr, Li Zhang, Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers, CVPR 2021.

[10] Li Zhang, Dan Xu, Anurag Arnab, Philip H.S. Torr, Dynamic Graph Message Passing Network, CVPR 2020.

Panel嘉宾：程明明 (南开大学)

嘉宾简介：

程明明，现任南开大学教授，计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/ CCF A类刊物上发表学术论文100余篇 (含IEEE TPAMI论文30余篇)，h-index为73，论文谷歌引用3.8万余次，单篇最高引用4600余次，多次入选中国高被引学者和全球高被引科学家。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得多项省部级科技奖励。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和SCI一区期刊IEEE TPAMI, IEEE TIP编委。

个人主页：

https://mmcheng.net/

Panel嘉宾：张磊 (粤港澳大湾区数字经济研究院(IDEA))

嘉宾简介：

张磊，粤港澳大湾区数字经济研究院 (IDEA)讲席科学家，负责计算机视觉与机器人研究方向，并兼任香港科技大学 (广州)客座教授。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员，长期带领研究组从事计算机视觉方向的基础研究和大规模图像分析、物体检测、视觉语言多模态理解方面的应用研究。研究成果被广泛用于微软必应搜索及认知服务云计算平台。张磊博士在计算机视觉等相关领域发表论文150多篇，并拥有60多项美国授权专利。因其对大规模图像识别和多媒体信息检索方面做出的贡献，他于2020年获选为IEEE Fellow。

个人主页：

https://www.leizhang.org/

Panel嘉宾：王兴刚 (华中科技大学)

嘉宾简介：

王兴刚，华中科技大学，电信学院，教授，博士生导师，Image and Vision Computing期刊共同主编。主要研究方向为视觉目标检测与分割，在IEEE TPAMI/ IJCV/ CVPR/ ICML等顶级期刊会议发表学术论文50余篇，谷歌学术引用次数17000余次，在计算机视觉领域首次提出了空间稀疏自注意力机制 (CCNet)，该机制在Deepmind AlphaFold中应用，对应的论文在ICCV 19最具影响力榜单上排名第五。担任CVPR 2022/ ICCV 2023/ ICIG 2023 领域主席，Pattern Recognition等期刊编委。入选了国家青年人才计划，中国科协青年人才托举工程，获CSIG青年科学家奖，CAAI吴文俊人工智能优秀青年奖，CVMJ 2021最佳论文奖，湖北省自然科学二等奖，华中科技大学青年五四奖章等，指导学生获2022年全国“互联网+”大赛金奖。

个人主页：

https://xwcv.github.io/

Panel嘉宾：谢凌曦 (华为)

嘉宾简介：

谢凌曦博士目前是华为公司的高级研究员。他分别于2010年和2015年于清华大学获得本科和博士学位，并且于2015年至2019年期间在美国加州大学洛杉矶分校和约翰霍普金斯大学担任博士后研究员。谢凌曦博士的研究兴趣覆盖计算机视觉的各个方向，主要包括统计学习方法和深度学习模型的应用。他的研究工作覆盖图像分类、物体检测、语义分割和其他视觉任务，并积极推动自动机器学习算法在上述领域的应用。谢凌曦博士已经在国际顶级的学术会议和期刊上发表超过90篇论文，谷歌学术引用超过10000次。他于2015年获得清华大学优秀博士论文奖，并于ICMR 2015会议上获得最佳论文奖。

个人主页：

http://lingxixie.com/

主持人：李冠彬 (中山大学)

主持人简介：

李冠彬，中山大学计算机学院副教授，博士生导师。主要研究领域包括计算机视觉与机器学习，迄今为止累计发表论文100余篇，其中包含CCF A类/ 中科院一区论文70余篇，Google Scholar引用超过 7900次。曾获得吴文俊人工智能优秀青年奖、ICCV 2019最佳论文提名奖、ICMR 2021最佳海报论文奖、中国图象图形学学会科学技术一等奖、ACM中国新星提名奖、英伟达AI城市挑战赛冠军等荣誉。主持了包括广东省杰出青年基金、国家自然科学基金面上项目、国家自然科学基金青年项目、CCF腾讯犀牛鸟科研基金等10多项科研项目。担任广州计算机学会副秘书长、CSIG青工委委员、视觉与学习青年学者研讨会 (VALSE)EAC副主席等。

Panel主持人：山世光 (中科院计算所/中国科学院大学)

Panel主持人简介：

山世光，中科院计算所研究员、博导，中国科学院大学岗位教授，中科院计算所智能信息处理重点实验室主任，2021年当选IEEE Fellow。他是国家基金委优青，国家WR计划科技创新领军人才，国务院特殊津贴专家，CCF青年科学家奖获得者，腾讯科学探索奖获得者。他的科研领域为人工智能、计算机视觉、模式识别和机器学习，在国内外学术刊物和会议上发表论文350余篇 (其中CCF A类期刊/ 会议论文130余篇)，论文被国内外同行引用3.2万余次。现任中国人工智能学会模式识别专委会副主任，中国人工智能学会情感感知专委会副主任。现/ 曾任IEEE TIP/ CVIU/ PRL/ Neurocomputing/ FCS等国际学术刊物的编委，现任《中国图象图形学报》的领域主编、《中国电子学报》和《JCST》的编委。曾担任亚洲计算机视觉大会ACCV2022大会主席，IEEE国际人脸与手势识别大会FG2023大会主席，担任CVPR/ ICCV/ AAAI和IJCAI等二十余次知名国际学术会议的领域主席。研究成果获2021年度北京市科技进步二等奖，2015年度国家自然科学二等奖，2005年度国家科技进步二等奖。

个人主页：

https://vipl.ict.ac.cn/people/sgshan/

特别鸣谢本次Webinar主要组织者：

主办AC：李冠彬 (中山大学)

协办AC：张正 (哈尔滨工业大学(深圳))、胡庆拥 (牛津大学)

活动参与方式

1、VALSE每周举行的Webinar活动依托B站直播平台进行，欢迎在B站搜索VALSE_Webinar关注我们！

直播地址：

https://live.bilibili.com/22300737；

历史视频观看地址：

https://space.bilibili.com/562085182/

2、VALSE Webinar活动通常每周三晚上20:00进行，但偶尔会因为讲者时区问题略有调整，为方便您参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ S群，群号：317920537）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。

4、您也可以通过访问VALSE主页：http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新。

收藏邀请

上一篇：VALSE 论文速览第110期：Towards Fewer Annotations下一篇：VALSE 论文速览第111期：Rethinking Attention-Model Explainability

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2026-7-19 03:32 , Processed in 0.018004 second(s), 14 queries .

返回顶部

VALSE Webinar 20230426-09期 总第309期 通用大模型时代的计算机视觉研究 ...

相关分类

下级分类

VALSE Webinar 20230426-09期总第309期通用大模型时代的计算机视觉研究 ...