18-18期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-7-2 17:20:41

斯蒂文森理工学院王鑫超教授2018年6月27日VALSE Webinar 成功举办。

王鑫超，博士，现为美国斯蒂文森理工学院助理教授，2010年获得香港理工大学学士学位，2015年在瑞士洛桑联邦理工大学EPFL获得博士学位，导师为IEEE Fellow Pascal Fua教授。博士毕业后在UIUC的Thmoas Huang教授的实验室从事博士后研究，2017年加盟斯蒂文森理工学院。王鑫超博士的研究方向包括计算机视觉和机器学习，在多目标跟踪与交互方面有深入的研究，相关文章发表在IEEE-TPAMI、IEEE-TIP和CVPR、ICCV、ECCV等顶级期刊和会议上。

王鑫超博士Webinar的题目为：Tracking Multiple Objects in Image Sequences。

在报告中，王鑫超博士首先对视频中多目标跟踪的问题进行了概述。王博士讨论了视频中多跟踪的定义、多目标跟踪的难点、以及多目标跟踪的基本解决框架: 通过检测的跟踪。特别的，王博士提出了广义多目标跟踪的概念，其跟踪的目标不仅包括实物（例如行人和车）而且包括事件（如行人上车）。然后王博士依次介绍了其近年来为解决四个多目标跟踪难点：物体互动、物体遮挡、物体运动和在线处理的工作。这些工作被应用于监控视频、体育视频、医学图像等不同领域。王博士最后介绍了其参与过的、已被产业化的体育视频跟踪系统，并列出其公布了源代码的链接。

问答部分：

问题1：online的时候network flow求解有啥不一样嘛？

回答：MOT的主要focus是data association, 可以想象成是一种离散优化。Offline的MOT一般是将全部frames一起进行全局优化而往往产生比online更好的结果。我们的TIP17的paper, Greedy Batch-Based Minimum-Cost Flows for Tracking Multiple Objects, 就是针对这个问题的工作。我们通过协同优化相邻的batch, 是semi-online tracking到达了逼近offline的效果。

问题2：network flow graph 如何求解，算法实时性效果如何？

回答：传统的network flow programming 确实有polynomial solution，比如successive shortest paths等。然而其constraint matrix的特质很容易被violate, 因而导致其NP-hard。在这种情况下，要依赖commercial solver 例如IBM CPLEX求解。我们在TPAMI 2016中显示，虽然NP-hard，但如果detection confidence 足够高，其优化确实可以达到10fps的速度on a single CPU。

问题3：怎么构造训练集？有离线训练过程吗？

回答：我们的data association过程实为离散优化因而不需要训练集。当然个别detector, 如ball detector需要被训练。

问题4：排球里面球员交叉很多，你们是怎么解决id switch的？

回答：这个是place camera的trick. 实际系统中我们会在场地的两端安放摄像头，用以检测球员球衣的号码。

问题5：detector 使用什么的方法, 实际中受外界光线变化影响大不大？

回答：POM detector 依赖于background subtraction 而确实受光线影响较大。当然依赖于learning 的detector（例如ball detector）会对光线变化更加robust。

问题6：项目开源吗？

回答：我们确实开源了不少代码。请见：https://sites.google.com/site/sitexinchaowang/

问题7：请问在做association的时候，做人的tracking和车的tracking的时候，用的什么feature？

回答：TPAMI 16中我们并没有用任何features, association的score 来源于detection confidence。

问题8：MOT的未来研究方向，MOT with deep learning？MOT with scene understanding？

回答：Deeplize MOT确实是有趣的方向但是有以下难点：1） MOT 的离散特质和2）MOT的constraint. 这使得传统的基于chain rule的backpropagation 无法得以直接应用。MOT with scene understanding确实是好方向！

问题9：你们online找回了前一帧的框，这不应该是semi-online吗？还是我理解错了（online不是应该实时吗）？

回答：您的理解没错！

问题10：您好不知道container和containee怎么区分？会不会出现车进入人而是人进入车？

回答：这个我们确实需要提前知道哪个物体是container 哪个是containee。

问题11：对于tracking,需要进行parameter tuning吗？

回答：This is something we are proud of. No parameter tuning!

问题12：你好，请问一下3D检测是怎么做出来的？那几个条件概率是怎么得到的呢？

回答：我们应用的是一种考虑了mutual occlusion的variational approach。我们假设某个3D的位置有物体，将其投影至各个camera并计算相应的confidence. 详情请见：Multicamera people tracking with a probabilistic occupancy map。

问题13：相邻帧中物体的位移过大，能够处理吗？我们实际问题中计算力有限，帧率过低，导致两帧之间物体位移过大？

回答：能！这个是通过设置network graph中edge的链接处理的。

问题14：能不能从研究方法上讲一下单目标与多目标的不同？

回答：单目标focus on 如何update/evolve model 而多目标focus on data association.

问题15：MOT现在有没有类似于单目标跟踪里的OTB Benchmark这样的统一实验平台？

回答：有的! https://motchallenge.net/

问题16：您做的MOT是假设Camera是静止的，对吧，可是如果Camera是运动的情况下，您划分的方格子就动了，尺度和角度都在变，是不是可能会遇到比较大的挑战呢？

回答：是的！确实，下一步的工作就是做一个真正的SLAM-like 3D tracker。只要camera在world-coordinate 中的位置能确定，这个Line of work就能用！

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

PPT下载地址：

http://vision.ouc.edu.cn/valse/slides/20180627/Valse_18_pdf.pdf

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：樊彬（中科院自动化所）

VODB协调理事：彭玺（四川大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。