报告嘉宾:王利民 (南京大学) 报告题目:视频人体动作识别与检测:方法与数据 报告嘉宾:孙晨 (布朗大学/谷歌) 报告题目:Cross-modal and Self-supervised Learning for Video Understanding Panel嘉宾: 王利民 (南京大学)、孙晨 (布朗大学/谷歌)、林巍峣 (上海交通大学)、朱霖潮 (悉尼科技大学) Panel议题: 1. 有哪些方法可以实现视频实时分类? 2. 多模态自监督视频特征学习已经有很多研究,这类研究方向前景如何?有哪些挑战? 3. 动作识别及检测未来的突破点在哪? 4. 面向真实应用场景,现有的视频动作理解技术还存在哪些问题,距离真正落地应用还有多远? *欢迎大家在下方留言提出主题相关问题,主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题! 报告嘉宾:王利民 (南京大学) 报告时间:2021年01月06日(星期三)晚上20:00(北京时间) 报告题目:视频动作识别与检测:方法与数据 报告人简介: 王利民,南京大学教授,博导。2011年在南京大学获得学士学位,2015在香港中文大学获得博士学位,2015年至2018在苏黎世联邦理工学院(ETH Zurich)从事博士后研究工作。研究方向为计算机视觉与深度学习,具体关注视频理解和动作识别。在国际重要期刊(IJCV/T-PAMI等)和会议(CVPR/ICCV等)发表学术论文30余篇,根据Google Scholar统计,论文被引用7000余次,H-index 32,一作论文单篇最高引用1700余次。提出的时序分段网络(TSN)获得2016 ActivityNet比赛冠军,该技术已经成为动作识别领域的基准方法。获得奖励:江苏省优秀本科毕设团队奖(2012)、吴文俊人工智能科技进步二等奖(2019)、广东省技术发明一等奖(2019)、世界人工智能大会青年优秀论文奖(2020)等。 个人主页: http://wanglimin.github.io/ 报告摘要: 视频理解已经成为人工智能研究的热点和难点,其中人体动作识别已经成为视频理解领域的关键技术之一。有效的视频表征技术和高效的时空检测框架,是人体动作识别研究的难点。在本次讲座中,我们主要介绍南京大学媒体计算组(MCG)在视频人体动作理解方面的系列工作,具体包括视频动作的表征方法和检测框架。针对视频短时运动的表征与建模,我们提出了高效和动态的时序建模模块(TEINet,TAM,TDN), 在速度效率和建模精度方面取得较好的效果;针对动作时空检测,我们提出了一种面锚框的时空管道检测器(MOC),在基准数据集取得了较好的效果;最后将介绍我们在动作检测方面数据集工作,我们提出一个面向多人运动场景的时空动作检测数据集(MultiSports),该数据集收集了近2500段长视频,精细标定了4种体育运动场景中60多种复杂动作,对视频时空动作检测提出了新的挑战。 参考文献: 【1】 Y. Li, Z. Wang, L. Wang, G. Wu, Actions as Moving Points, ECCV 2020. 【2】 J. Wu, Z. Kuang, L. Wang, W. Zhang, G. Wu, Context-Aware RCNN: a Baseline for Action Detection in Videos, ECCV 2020. 【3】 L. Wang, Z. Tong, B. Ji and G. Wu, TDN: Temporal Difference Networks for Efficient Action Recognition, arXiv 2020. 【4】 Z. Liu, L. Wang, W. Wu, C. Qian, T. Lu, TAM: Temporal Adaptive Module for Video Recognition, arXiv 2020. 【5】 Z. Liu, D. Luo, Y. Wang, L. Wang, Y. Tai, C. Wang, J. Li, F. Huang, T. Lu, TEINet: Towards an Efficient Architecture for Video Recognition, AAAI 2020. 报告嘉宾:孙晨 (布朗大学/谷歌) 报告时间:2021年01月06日(星期三)晚上20:30(北京时间) 报告题目:Cross-modal and Self-supervised Learning for Video Understanding 报告人简介: Chen Sun is an assistant professor of computer science at Brown University, and a staff research scientist at Google. His research interest is on computer vision and machine learning, with the focus on building machine intelligence that understands and anticipates human activities from videos, and ultimately developing autonomous machines that interact with and assist us in unconstrained environments. Chen finished his PhD at University of Southern California, and undergraduate study at Tsinghua University. 个人主页: https://chensun.me/ 报告摘要: Deep learning has brought tremendous progress to visual recognition, thanks to big labeled data and fast compute. To transfer such success to our daily life, we still need to develop machine intelligence that recognizes hierarchical, composite human activities, and predicts how events unfold over time. These tasks are often too rich to be discretized into categorical labels, or too ambiguous to be manually labeled by human, making standard supervised deep learning unfit for the tasks. In this talk, I will introduce several recent works on learning rich semantic and dynamic information from unlabeled videos. I will first focus on cross-modal learning, where the goal is to leverage the speech signals from instructional videos or movies as free supervision (e.g. VideoBERT and Speech2Action). I will then briefly introduce our works on contrastive visual representation learning from images and also videos (e.g. InfoMin). 参考文献: 【1】 A. Nagrani, C. Sun, D. Ross, R. Sukthankar, C. Schmid, and A. Zisserman. Speech2Action: Cross-modal Supervision for Action Recognition. CVPR 2020. 【2】 Y. Tian, C. Sun, B. Poole, D. Krishnan, C. Schmid, and P. Isola. What makes for good views for contrastive learning. NeurIPS 2020. 【3】 C. Sun, F. Baradel, K. Murphy, and C Schmid. Contrastive bidirectional transformer for temporal representation learning. arXiv 1906.05743. 【4】 C. Sun, A. Myers, C. Vondrick, K. Murphy, and C. Schmid. VideoBERT: A Joint Model for Video and Language Representation Learning. ICCV 2019. 【5】 J. Stroud, C. Sun, J. Deng, R. Sukthankar, C. Schmid, and D. Ross. Learning Video Representations from Textual Web Supervision. arXiv 2007.14937. 【6】 V. Gabeur, C. Sun, K. Alahari, and C. Schmid. Multi-modal Transformer for Video Retrieval. ECCV 2020. Panel嘉宾:林巍峣 (上海交通大学) 嘉宾简介: 林巍峣,上海交通大学教授。分别于2003年和2005年获得上海交通大学学士和硕士学位,并于2010年获得美国华盛顿大学西雅图分校获得博士学位。主要研究方向包括计算机视觉、视觉监控、视频行为理解、视频及语义信息编码等。林博士现任IEEE Trans. Image Processing, IEEE Trans. CSVT、IEEE Trans. ITS等期刊编委。在相关领域共发表期刊论文100余篇,获专利24项。近年来,林博士相继获得2018教育部“青年长江”学者、ICME’19多媒体学术新星(Multimedia Rising Star)、2019上海市五四青年奖章等荣誉。 个人主页: https://weiyaolin.github.io/index.html Panel嘉宾:朱霖潮 (悉尼科技大学) 嘉宾简介: 朱霖潮,悉尼科技大学讲师。分别于浙江大学和悉尼科技大学获得本科与博士学位,2015年和2016年于卡内基梅隆大学访学。长期关注视频行为理解,无监督视频特征学习。曾获得美国国家标准总局TRECVID比赛冠军,EPIC-Kitchens,THUMOS动作识别比赛冠军。 个人主页: ffmpbgrnn.github.io/ 主持人:常晓军 (蒙纳士大学) 主持人简介: Dr Xiaojun Chang is a Senior Lecturer at Vision & Lanugage Group, Department of Data Science and AI, Faculty of Information Technology, Monash University Clayton Campus, Australia. Dr Chang is an ARC Discovery Early Career Researcher Award (DECRA) Fellow between 2019-2021 (awarded in 2018). Before joining Monash, he was a Postdoc Research Associate in School of Computer Science, Carnegie Mellon University, working with Prof. Alex Hauptmann. He has focused his research on exploring multiple signals (visual, acoustic, textual) for automatic content analysis in unconstrained or surveillence videos. His team has won multiple prizes from international grand challenges which hosted competitive teams from MIT, University of Maryland, Facebook AI Research (FAIR) and Baidu VIS, and aim to advance visual understanding using deep learning. For example, he won the first place in the TrecVID 2019 - Activity Extended Video (ActEV) challenge, which was held by National Institute of Standards and Technology, US. 个人主页: https://www.xiaojun.ai/ 21-01期VALSE在线学术报告参与方式: 长按或扫描下方二维码,关注“VALSE”微信公众号 (valse_wechat),后台回复“01期”,获取直播地址。 特别鸣谢本次Webinar主要组织者: 主办AC:常晓军 (蒙纳士大学) 协办AC:王利民 (南京大学)、朱霖潮 (悉尼科技大学) 责任SAC:郑伟诗 (中山大学) 活动参与方式 1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互; 2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G、H、I、J、K、L、M、N群已满,除讲者等嘉宾外,只能申请加入VALSE P群,群号:1085466722); *注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。 3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备; 4、活动过程中,请不要说无关话语,以免影响活动正常进行; 5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题; 6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接; 7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。 8、Webinar报告的PPT(经讲者允许后),会在VALSE官网每期报告通知的最下方更新[slides]。 9、Webinar报告的视频(经讲者允许后),会更新在VALSEB站、西瓜视频,请在搜索Valse Webinar进行观看。 |
小黑屋|手机版|Archiver|Vision And Learning SEminar
GMT+8, 2024-11-23 21:56 , Processed in 0.013323 second(s), 14 queries .
Powered by Discuz! X3.4
Copyright © 2001-2020, Tencent Cloud.