| 2023年07月19日 (星期三) 晚上20:00 (北京时间) | | Segment Anything开启图像分割新时代 | | | | https://live.bilibili.com/22300737 |
报告嘉宾:Fisher Yu (ETH Zürich) 报告题目:SAM is Sweet! Now What? 报告嘉宾:王兴刚 (华中科技大学) 报告题目:从预训练和小型化角度来分析图像分割 Panel嘉宾: Fisher Yu (ETH Zürich)、王兴刚 (华中科技大学)、张力 (复旦大学)、林迪 (天津大学)、杨宗鑫 (浙江大学) Panel议题: 1. 有观点认为Segment Anything的到来代表着计算机视觉领域的终结,如何看待这一观点? 2. Segment Anything解决了哪些问题,又有什么不足,又或带来了什么新机遇新挑战? 3. Segment Anything会给图像分割、以及计算机视觉领域带来哪些变化?在哪些方向有望取得突破? 4. 工业界正在快速推动大模型的演进,学界该如何适应、拥抱这种变化,亦或该坚持怎样的科研模式? 5. 畅想大模型时代下,计算机视觉领域的未来发展。 *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:Fisher Yu (ETH Zürich) 报告时间:2023年07月19日 (星期三)晚上20:00 (北京时间) 报告题目:SAM is Sweet! Now What? 报告人简介:
Fisher Yu is an Assistant Professor at ETH Zürich in Switzerland. He obtained his Ph.D. from Princeton University and became a postdoctoral researcher at UC Berkeley. He now leads the Visual Intelligence and Systems (VIS) group at ETH Zürich. He aims to build perceptual systems capable of performing complex tasks in complex environments. His research is at the junction of machine learning, computer vision, and robotics. He currently works on closing the loop between vision and action. His works on image representation learning and large-scale datasets, especially dilated convolutions and the BDD100K dataset, have become essential for computer vision research. He has also been actively serving the research community as Area Chair for NeurIPS, AAAI, CVPR, WACV, and Associate Editor for ICRA and CVIU.
个人主页: http://yf.io
报告摘要: Large language models, powered by quintillions of flops of parallel computing and trained on trillions of input tokens, have undisputedly demonstrated their values in language understanding and generation. How to construct vision foundation models is, therefore, an important question. Segment Anything Model (SAM) is a strong answer to this question. In this talk, I will briefly review SAM and its capabilities and discuss our further study on extensions and applications of SAM. In particular, I will introduce HQ-SAM, which improves the SAM segmentation quality significantly, and SAM-PT, which extends point-based segmentation to videos. While SAM is an essential step toward vision foundation models, there are still many challenges, especially in curating training data for video tasks. Our recent works, OVTrack and MaskFreeVis, show that we may not need a similar scale of labeled data for video tasks. They can be helpful for developing future more capable vision foundation models.
参考文献: 1. Kirillov, Alexander, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao et al. "Segment anything." arXiv preprint arXiv:2304.02643 (2023). 2. Ke, Lei, Mingqiao Ye, Martin Danelljan, Yifan Liu, Yu-Wing Tai, Chi-Keung Tang, and Fisher Yu. "Segment Anything in High Quality." arXiv preprint arXiv:2306.01567 (2023). 3. Rajič, Frano, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, and Fisher Yu. "Segment Anything Meets Point Tracking." arXiv preprint arXiv:2307.01197 (2023). 4. Li, Siyuan, Tobias Fischer, Lei Ke, Henghui Ding, Martin Danelljan, and Fisher Yu. "OVTrack: Open-Vocabulary Multiple Object Tracking." In CVPR 2023. 5. Ke, Lei, Martin Danelljan, Henghui Ding, Yu-Wing Tai, Chi-Keung Tang, and Fisher Yu. "Mask-free video instance segmentation." In CVPR 2023. 报告嘉宾:王兴刚 (华中科技大学) 报告时间:2023年07月19日 (星期三)晚上20:30 (北京时间) 报告题目:从预训练和小型化角度来分析图像分割 报告人简介:
王兴刚,华中科技大学电信学院教授博导,国家级青年人才,Elsevier Image and Vision Computing期刊共同主编。在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌引用约2万余次,其中CCNet方法在AlphaFold中作为骨干网络被使用,ByteTrack方法在ECCV 2022最具影响力论文中排名第一。担任CVPR 2022、ICCV 2023、CVPR 2024领域主席,Pattern Recognition等期刊编委。获湖北青年五四奖章、CSIG青年科学家奖,吴文俊人工智能优秀青年奖,CVMJ 2021最佳论文奖,湖北省自然科学二等奖等,指导学生获2022年全国“互联网+”大赛金奖。
个人主页: https://xwcv.github.io
报告摘要: 大规模预训练和轻量化是当前图像分割领域重要的发展方向,本次报告介绍EVA大规模掩码视觉表征学习技术,及其在大类别实例分割问题上的显著性能提升;介绍基于朴素的预训练 ViT 模型实现性能领先的图像抠图算法 (ViTMatte)和弱监督语义分割方法 (WeakTr);介绍基于 SAM预训练大模型的交互式图像抠图算法 (Matte Anything)。在轻量化方面,本次报告中介绍基于实例激活图的实时实例分割方法 (SparseInst),基于Transformer多尺度特征融合的手机端语义分割方法 (TopFormer),以及面向手机端实时准确视频实例分割的MobileInst方法。
参考文献: 1. Yuxin Fang, Wen Wang, Binhui Xie, Quan Sun, Ledell Wu, Xinggang Wang, Tiejun Huang, Xinlong Wang, Yue Cao. EVA: Exploring the Limits of Masked Visual Representation Learning at Scale. CVPR 2023 (Highlight paper, accept rate 2.5%). 2. Yao, J., Wang, X., Yang, S., & Wang, B. (2023). ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers. arXiv preprint arXiv:2305.15272. 3. Yao, J., Wang, X., Ye, L., & Liu, W. (2023). Matte Anything: Interactive Natural Image Matting with Segment Anything Models. arXiv preprint arXiv:2306.04121. 4. Zhu, L., Li, Y., Fang, J., Liu, Y., Xin, H., Liu, W., & Wang, X. (2023). WeakTr: Exploring Plain Vision Transformer for Weakly-supervised Semantic Segmentation. arXiv preprint arXiv:2304.01184. 5. Tianheng Cheng, Xinggang Wang*, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang, Wenyu Liu. Sparse Instance Activation for Real-Time Instance Segmentation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022. 6. Wenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang*, Wenyu Liu*, Gang Yu, Chunhua Shen. TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2022. 嘉宾简介: 张力,复旦大学研究员,博士生导师。博士毕业于伦敦玛丽女王大学电子工程与计算机科学系,后任职于牛津大学工程科学系博士后,英国剑桥三星人工智能中心研究科学家,师从英国皇家工程院与皇家学会两院院士 Philip H.S. Torr。获得上海科技青年35人引领计划,临港实验室“求索杰出青年计划”,世界人工智能大会青年优秀论文奖。Google Scholar 引用11000余次。目前担任 NeurIPS 2023、CVPR 2023以及CVPR 2024的领域主席 (Area Chair)。 个人主页: https://lzrobots.github.io 嘉宾简介: 林迪,天津大学副教授。2016年于香港中文大学获博士学位,2020年入选天津大学英才副教授系列。主要研究方向是二维、三维场景语义理解,目前于TPAMI、CVPR、ICCV、ECCV、NeurIPS、ICML、Siggraph等计算机视觉、图形学和机器学习顶级会议和期刊上发表论文50余篇,相关研究成果获互联网+天津市金奖、COCO全景分割竞赛季军。目前担任中国图象图形学学会智能图形专委会委员,图形学国际会议CGI竞赛主席等。
个人主页: https://dilincv.github.io 嘉宾简介: 杨宗鑫,浙江大学计算机科学与技术学院博士后研究员。2021年于悉尼科技大学获博士学位。研究方向为计算机视觉,包括视频理解、三维视觉和视觉内容生成。在计算机视觉国际顶级会议 (NeurIPS、CVPR、ICCV、ECCV、ICLR等)和期刊 (TPAMI、TIP等)上发表20余篇论文。在视觉分割、跟踪等领域顶级国际学术会议的竞赛中获奖十余次,含7次世界冠军,包括EPIC-Kitchens 2023挑战赛 (CVPR 2023)视频跟踪冠军、视频分割冠军、VOT 2022视频目标跟踪挑战赛 (ECCV 2022)两项赛道冠军等。
个人主页: https://z-x-yang.github.io 主持人简介: 王文冠,浙江大学计算机学院百人计划研究员,博士生导师,国家优秀青年基金 (海外)获得者。2022∼2023年, 任悉尼科技大学 (University of Technology Sydney)讲师。2020∼2022 年, 任苏黎世联邦理工学院 (ETH Zurich)博后研究员。2018∼2019年,先后任起源人工智能研究院 (IIAI)研究员和资深研究员。2016∼2018年在加州大学洛杉矶分校 (UCLA)访学。2018年博士毕业于北京理工大学。主要研究方向为计算机视觉和人工智能。在顶级期刊和会议 (如TPAMI、IJCV、ICLR、ICML、NeurIPS、CVPR、ICCV、ECCV、AAAI、Siggraph Asia)发表学术论文80多篇。谷歌学术引用13000余次,H指数60。曾获澳大利亚研究理事会 (Australian Research Council,ARC)优秀青年基金 (Discovery Early Career Researcher Award,DECRA) (2022年)、斯坦福大学“全球前2%顶尖科学家”(2022年),Elsevier高被引中国学者 (2020∼2022年),世界人工智能大会优秀青年论文奖 (2020年)、中国人工智能学会优博奖 (2019年),ACM中国优博奖 (2018年)。带队在 15个国际学术竞赛中获得7项冠军、3项亚军和5项季军。
个人主页: https://sites.google.com/view/wenguanwang/home 特别鸣谢本次Webinar主要组织者: 主办AC:王文冠 (浙江大学) 1、VALSE每周举行的Webinar活动依托B站直播平台进行,欢迎在B站搜索VALSE_Webinar关注我们! 直播地址: https://live.bilibili.com/22300737; 历史视频观看地址: https://space.bilibili.com/562085182/ 2、VALSE Webinar活动通常每周三晚上20:00进行,但偶尔会因为讲者时区问题略有调整,为方便您参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ S群,群号:317920537);
*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、VALSE微信公众号一般会在每周四发布下一周Webinar报告的通知。 4、您也可以通过访问VALSE主页:http://valser.org/ 直接查看Webinar活动信息。Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新。 |