20200318-05 视频行为检测Action Detection

2020-3-12 16:47| 发布者: 程一-计算所| 查看: 7799| 评论: 0

摘要: 报告时间：2020年03月18日（星期三）晚上20:00（北京时间）主题：视频行为检测Action Detection报告主持人：张姗姗（南京理工大学）报告嘉宾：朱霖潮（悉尼科技大学）报告题目：复杂环境中的动作检测与定位报告嘉宾 ...

报告时间：2020年03月18日（星期三）晚上20:00（北京时间）

主题：视频行为检测Action Detection

报告主持人：张姗姗（南京理工大学）

报告嘉宾：朱霖潮（悉尼科技大学）

报告题目：复杂环境中的动作检测与定位

报告嘉宾：林天威（百度）

报告题目：Temporal Action Detection with Local and Global Context

Panel议题：

1. Action Detection相较于Object Detection，有哪些共通之处，有哪些新的挑战？

2. 行为的时序边界存在一定的主观性，如何理解和处理这种情况？

3. 行为检测常用的数据集仍是THUMOS与Activitynet（THUMOS数据量小，ActivityNet动作发生时间长），未来行为检测有哪些有前景的数据集值得探索？

4. Video的标注成本远远高于Image的标注，如何应对视频数据标注难题？应当如何利用未标注数据来提高算法效果？

5. 弱监督行为检测监督信号弱，但是比全监督标注速度快。在实际应用中，如何充分利用弱监督数据与全监督数据？

6. 对于行为检测系统，可否建立有效的在线学习机制？

7. 如何构建行为知识推理系统提高行为理解？

8. 多模态 (Multi-modal)在Action Detection中的发展现状和应用前景？

9. 对于实用系统，如何有效提升行为检测算法的实时性?有哪些加速方式？在落地应用中有哪些实际挑战？

Panel嘉宾：

朱霖潮（悉尼科技大学）、林天威（百度）、卢策吾（上海交通大学）、陈佳（Carnegie Mellon University）、周天异（IHPC, A*STAR）

*欢迎大家在下方留言提出主题相关问题，主持人和panel嘉宾会从中选择若干热度高的问题加入panel议题！

报告嘉宾：朱霖潮（悉尼科技大学）

报告时间：2020年03月18日（星期三）晚上20:00（北京时间）

报告题目：复杂环境中的动作检测与定位

报告人简介：

朱霖潮，悉尼科技大学讲师。分别于2015年和2019年获得浙江大学本科和悉尼科技大学博士学位，2015年和2016年于卡内基梅隆大学访学。长期关注视频行为理解，无监督视频特征学习。曾获得美国国家标准总局TRECVID比赛冠军，EPIC-Kitchens，THUMOS动作识别比赛冠军。

个人主页：

http://ffmpbgrnn.github.io/

报告摘要：

视频检测与识别是计算机视觉中比较重要的一个问题。该任务在实际生活中有巨大的应用前景。深度学习技术在近年来在视频理解领域产生了巨大的影响，其中平衡检测的时效性和准确性是视频检测技术应用落地的一个重要考量。在这个报告中，我们将关注视频分析的预测效率的问题，标注可靠性的问题，介绍该领域的最新进展和面临的挑战。

参考文献：

[1] Yu Wu, Linchao Zhu, Yan Yan, Yi Yang, Dual Attention Matching for Audio-Visual Event Localization, ICCV 2019.

[2] Xiaohan Wang, Yu Wu, Linchao Zhu, Yi Yang, Symbiotic Attention with Privileged Information for Egocentric Action Recognition, AAAI 2020.

[3] Sanath Narayan, Hisham Cholakkal, Fahad Shahbaz Khan, Ling Shao, 3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization, ICCV 2019.

报告嘉宾：林天威（百度）

报告时间：2020年03月18日（星期三）晚上20:30（北京时间）

报告题目：Temporal Action Detection with Local and Global Context

报告人简介：

林天威，百度视觉技术部算法工程师。曾于2016年和2019年获得上海交通大学学士和硕士学位。主要研究方向为计算机视觉，视频行为理解，视频时序检测，生成对抗网络等。曾在ICCV, ECCV, ACMMM, ACCV, TCSVT, TMM等会议和期刊上发表多篇论文。参加计算机视觉国际比赛，曾连续3年在ActivityNet Challenge (2017, 2018, 2019)上获得视频时序检测任务的冠军，获得视频动作提名生成任务两次冠军和一次亚军。

个人主页：

https://wzmsltw.github.io/

报告摘要：

视频动作理解是计算机视觉中的一个重要问题。由于真实应用中存在很多很长的未裁剪视频，所以视频中的时序动作检测是近几年是学术界和工业界都很关注的问题。从任务形式上看，时序动作检测类似于一维的目标检测，近几年深度学习方法获得了很大的进步，但也还面临很多挑战。在这个报告中，我们将介绍视频时序动作检测领域的最新进展，特别是百度视觉技术部近年来在视频领域的一些工作。我们还将讨论当前方法所面临的挑战和未来的发展趋势。

参考文献：

[1] T. Lin, X. Zhao, and Z. Shou. Single shot temporal action detection. In Proceedings of the 2017 ACM on Multimedia Conference, pages 988–996. ACM, 2017.

[2] T. Lin, X. Zhao, and S. Haisheng. Bsn: Boundary sensitive network for temporal action proposal generation. In Euro- pean Conference on Computer Vision, 2018. 1.

[3] Lin, T., Liu, X., Li, X., Ding, E., Wen, S.: Bmn: Boundary-matching network for temporal action proposal generation. In: Proceedings of the IEEE International Conference on Computer Vision. pp. 3889{3898 (2019).

Panel嘉宾：卢策吾（上海交通大学）

嘉宾简介：

卢策吾，上海交通大学研究员，2016年获得国家青年千人计划，2017年被评为科学中国人杰出青年科学家，2018年被《麻省理工科技评论》评为中国35位35岁以下科技精英，2019年获“求是杰出青年学者奖（近三年唯一AI方向获得者）。担任国际CVPR2020领域主席，国际会议CVM 2018大会程序主席。发表AI方向高水平论文近100篇。担任上海交通大学吴文俊人工智能博士班班主任。主要研究方向计算机视觉，行为理解和智能机器人。

个人主页：

http://mvig.sjtu.edu.cn/

Panel嘉宾：陈佳（Carnegie Mellon University）

嘉宾简介：

陈佳博士主要研究领域包括视频理解，视频事件监测，视频理解的自然语言描述以及相关的机器学习。目前正在入职amazon。2016年至2019年在CMU Alex Hauptmann教授组做博后，主攻视频动作理解。2015年在上海交通大学计算机系获得博士学位，师从俞勇导师。多年参加视频理解的相关比赛并获得多项第一，包括2017, 2018连续两年TRECVID video description项目评测第一 (NIST举办)，2016, 2017连续两年MSRVTT challenge第一 (Miscrisoft联合ACM Multimedia会议举办)。多篇论文发表于CVPR, AAAI, ACM Multimedia, SIGIR等顶级会议，并获得2018 ICMR best paper提名。

个人主页：

http://www.cs.cmu.edu/~jiac/

Panel嘉宾：周天异（IHPC, A*STAR）

嘉宾简介：

周天异博士，毕业于新加坡南洋理工大学, 现为新加坡科技研究局高性能研究所担任科学家(Scientist)职位, 并且担任30余人的人工智能团队带头人（AI Group Manager)。周天异博士主持多项人工智能的项目, 已在机器学习, 人工智能,信息安全等领域核心期刊和国际会议上发表论文50余篇。此外他是IEEE Access(影响因子: 4.098), IEEE Multimedia (影响因子: 3.566), ACM TOMM 和IET Image Processing(影响因子: 1.401）等国际重要SCI 期刊的副主编/特邀编委；是多个国际顶级/重要学术会议（例如CCF A类会议IJCAI）等的专题报告组织联合主席和国际旗舰会议MOBIMEDIA 2020 技术程序委员会联合主席; 获得IJCAI，ECCV，ACML等多个国际顶级/重要学术会议及其专题报告会最佳论文奖; 担任NIPS, ICML, CVPR, ICLR, ACL, AAAI, IJCAI等国际顶级会议审稿人包括，并且获得NIPS'17年最佳审稿人称号。

个人主页：

https://joeyzhouty.github.io/index.html

主持人：张姗姗（南京理工大学）

主持人简介：

张姗姗，博士，南京理工大学计算机学院（人工智能学院）教授，博士生导师。研究方向为计算机视觉和模式识别，特别关注面向无人驾驶的人体检测和分析技术。曾分别于2008年、2011年在同济大学电信学院获得工学学士和硕士学位；2015年2月在德国波恩大学获得计算机博士学位，博士论文曾获大德语区（德瑞奥三国）计算机学会最佳博士论文提名；博士毕业后在德国马普计算机所从事为期两年的博士后研究；2016年入选南京理工大学“青年拔尖人才选聘计划”，回国任教。2018年入选中国科协“青年人才托举工程”。目前以第一/通讯作者在CVPR、ECCV、AAAI、T-PAMI、T-IP、T-CSVT等顶级国际会议和国际期刊上发表论文三十余篇，谷歌学术引用1400+。目前主持多项科研项目，包括国家自然科学基金中德国际合作项目、江苏省自然科学基金面上项目等。

个人主页：

http://www.drweiscience.com/people/zhangshanshan

20-05期VALSE在线学术报告参与方式：

长按或扫描下方二维码，关注“VALSE”微信公众号（valse_wechat），后台回复“05期”，获取直播地址。

特别鸣谢本次Webinar主要组织者：

主办AC：高陈强（重庆邮电大学）

协办AC：张林（同济大学）

VALSE Webinar改版说明：

自2019年1月起，VALSE Webinar改革活动形式，由过去每次一个讲者的方式改为两种可能的形式：

1）Webinar专题研讨：每次活动有一个研讨主题，先邀请两位主题相关的优秀讲者做专题报告（每人30分钟），随后邀请额外的2~3位嘉宾共同就研讨主题进行讨论（30分钟）。

2）Webinar特邀报告：每次活动邀请一位资深专家主讲，就其在自己熟悉领域的科研工作进行系统深入的介绍，报告时间50分钟，主持人与主讲人互动10分钟，自由问答10分钟。

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H、I、J、K群已满，除讲者等嘉宾外，只能申请加入VALSE L群，群号：641069169）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周四发布下一周Webinar报告的通知及直播链接。

8、Webinar报告的PPT（经讲者允许后），会在VALSE官网每期报告通知的最下方更新[slides]。

9、Webinar报告的视频（经讲者允许后），会更新在VALSE爱奇艺空间，请在爱奇艺关注Valse Webinar进行观看。

朱霖潮 [slides]

林天威 [slides]

收藏邀请

上一篇：20200311-04 数据集专题：数据为王下一篇：20200325-06 Face-based Human Understanding: beyond Face Recognition

下级分类

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2025-8-16 17:53 , Processed in 0.013767 second(s), 14 queries .

返回顶部

20200318-05 视频行为检测Action Detection

相关分类

下级分类