http://mp.weixin.qq.com/s/SqMygkIMaZ4SVmbku82iuQ
【VALSE 前沿技术选介16-26期】基于视频的检测与分割(上)
作者:Winsty
今天给大家介绍的是一些有关于基于视频的检测与追踪的工作。不可否认,目前基于深度学习的传统目标检测与图片分割任务进入了一个相对成熟的阶段。在本次CVPR结束的两周内,arxiv上关于这两者的论文大多乏善可陈,尤其是在通用物体检测方面。在图像分割领域虽然看到了一些改进的工作,但大家能想到的基本思路高度雷同,远不像两年前每天都会有惊喜的状态。鉴于这些传统意义上的high level vision任务在性能上基本完善,研究的热点一方面集中在如何加速已有的方法,另一方面在于拓展一些新的setting,例如weakly supervised等。今天想跟大家分享的便是利用视频中的上下文信息来优化这些任务的一些最新进展。
其实使用时序信息优化检测或者分割任务有两个目的,一个是通过时序信息减小计算量,另一个是通过时序信息提供更多的temporal context来提升性能。今天给大家主要介绍的两个工作分别是针对这两个目的的。
在[1]中,作者提出联合学习任务相关网络(可以是检测也可是分割)与optical flow网络,并propagate不同层特征的方式加速结果。示意图如下所示:
其加速核心在于,只在特定的keyframe(5到10帧计算一次)计算特征,选择合适的F使得计算optical flow网络的计算量加上propagate新特征的计算量小于重新计算特征的复杂度。至于具体模块的选择,不出意外在N_feat作者选择了速度较慢但是效果较好的Resnet系列。在F方面,作者尝试了几种不同的结构,并在后续实验中进行了比较。
在实验中,作者详细分析了每部分对于性能的影响,在检测和分割两大任务上都以不大的性能牺牲取得了显著的加速。其中几个发现包括:1) N_feat和F联合训练能够提升效果,这表明端到端的学习确实可以学习到task specific的flow信息。2) 在选择N_task和N_feat的分割点上,在高层和低层的结果差异不大。特别地,当N_task的层数为0时,也就意味着仅仅使用optical flow直接propagate最终的输出层得到的结果依然不错。3) 在F的选择上,小网络但是也许不那么精确的flow估计,在给定同等速度要求的情况下,带来的性能提升更明显。也就意味着,虽然复杂度较低的F估计的flow不那么准确,但是节省下的时间可以更多地留给N_feat。这样配置带来的性能提升更加明显。
至于本文存在的问题,个人认为最明显的一点是虽然在均摊时间上达到了提速的效果,但是在latency上并没有提升,因为我们依然要等待特征网络计算完成才能进行后续操作。这在无人车等对实时性要求较高的领域而言仍然不可接受,所以利用时序信息减小latency才是更有意义的一个setting。初次之外,可能改进的部分还包括更有效的keyframe选择方式,更好的propagation函数等等。
(下集明日待续)
[1] Zhu, Xizhou, et al. "Deep Feature Flow for Video Recognition." arXiv preprint arXiv:1611.07715 (2016).
|