18-03期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-2-1 18:54:49

同济大学软件学院罗烨助理教授2018年1月24日VALSE Webinar成功举办.

罗烨，同济大学软件学院助理教授，于2014年在新加坡南洋理工大学取得博士学位，同年在新加坡国立大学进行博士后的研究工作。2016年7月份，加入同济大学。她以第一作者及通讯作者身份，发表国际期刊和国际会议20余篇。参与国家自然科学基金面上项目4项，参与新加坡科研类项目4项,承担中央高校基本科研业务费专项资助项目1项。2015年获得国际计算机视觉顶级会议ICCV 优秀青年研究者奖。承担Computer Vision and Image Understanding, the Visual Computer, Signal Processing: Image Communication, IEEE Signal Processing Letter, Neurocomputing, ICIP2017, ICME 2015, ICME 2014, ACCV 2010等多个国际期刊和国际会议的审稿人。

罗烨教授Webinar的题目为:Modeling the Temporality of Visual Salilency and Its Application to Action Recognition.

In this presentation, we mainly introduce the following two parts. At first, we investigate the temporality aspect of saliency estimation. A principled method based on three levels of saliency has been proposed: the intra-trajectory level, the inter-trajectory level and the static level. Experimental results validate the concepts put forth in the paper, as well as characterizing the effects of time, and the contributions made by individual levels. At last, as an extension of our proposed video saliency, we elicit from a fundamental definition of action low-level attributes that can reveal agency and intentionality. These descriptors are mainly trajectory-based, measuring sudden changes, temporal synchrony, and repetitiveness. The direct result of these descriptors is called the actionness map and it can be used to localize actions in a way that is generic across action and agent types. Experimental results on various datasets show the advantages of our method on action detection and action recognition comparing with other state-of-the-art methods.

问答部分：

问题1：问一下罗老师，在video saliency中是不是motion起的作用比较大，此外，如何克服运动信息的噪声，如光流估计?

回答：如果是针对我们的方法，答案是肯定的。因为我们的视频显著性估计方法中列入两项运动特征：突然运动变化和运动协同性，最后一项才是静态显著性。对信息噪声，我们没有特别的处理，只是沿用Jason Chang他们的方法。参见文章:J.Chang,D.Wei,and J.W.Fisher III.A video representation using temporal superpixels.In CVPR,pages 2051–2058,2013.

问题2：请问您的方法对于视频镜头晃动产生的背景运动或者背景中固有的运动是怎么处理的?

回答：在处理镜头晃动的背景运动时，我们简单用homograph model去估计背景运动，通过RANSAC算法标出前景目标，通过motion compensation把运动背景去除掉。对背景中固有的运动，我们不予理会。因为通过我们的算法是找出具有运动协同性的运动轨迹，由于背景的运动并无规律性，不会和前景目标具有很强的协同性，所以就会自动被我们算法赋予较小的显著性值。

问题3: 请问video saliency目前哪些公开的dataset?

回答：

1)UCF-Sports dataset(https://thediemproject.wordpress.com/videos-and%C2%A0data/)

2)Hollywood2 (https://thediemproject.wordpress.com/videos-and%C2%A0data/)

3)DIEM(Dynamic Images and Eye Movements,

https://thediemproject.wordpress.com/videos-and%C2%A0data/)

4)ASCMN dataset(http://www.kecl.ntt.co.jp/people/kimura.akisato/saliency3.html)

5)CRCNS dataset (https://crcns.org/)

其他的数据可以从这篇综述中找到：

http://vintage.winklerbros.net/Publications/qomex2013eye.pdf

问题4：salient object detection和你讲的video saliency是一回事吗？

回答：这两者具有一定的共同性，很多文章把这两个当成一回事。所以有一些显著性估计的论文验证数据库包含两种：一种是具有精确物体边缘的显著性目标数据库和另外一种是通过眼动仪记录人眼真实运动的数据库。针对这两类数据库，也有人将这两类问题区分开并分别进行处理。

问题5：您好，我看你举的例子都是一段单场景的检测效果，想电影或者电视剧，里面有经常性的镜头切换，您提出的方法，在两个镜头切换时会不会失效呢？还是先进行镜头切分，然后在不同的镜头中进行检测呢？

回答：我们的方法目前都是测试在已经进行镜头切分的视频片段上，还没有在存在镜头切换的视频中测试过。不过理论上，由于我们在检测视频显著性之前进行了全局运动补偿，应该不受镜头切换的影响。

问题6：请问您那个动画的ground truth是如何标定的？

回答：是本身数据库提供的。可以参见

http://www.kecl.ntt.co.jp/people/kimura.akisato/saliency3.html

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：吴金建（西安电子科技大学）

VODB协调理事：王琦（西北工业大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。