程一-计算所 发表于 2018-7-2 17:20:41

18-18期VALSE Webinar会后总结

斯蒂文森理工学院王鑫超教授2018年6月27日VALSE Webinar 成功举办。
王鑫超,博士,现为美国斯蒂文森理工学院助理教授,2010年获得香港理工大学学士学位,2015年在瑞士洛桑联邦理工大学EPFL获得博士学位,导师为IEEE Fellow Pascal Fua教授。博士毕业后在UIUC的Thmoas Huang教授的实验室从事博士后研究,2017年加盟斯蒂文森理工学院。王鑫超博士的研究方向包括计算机视觉和机器学习,在多目标跟踪与交互方面有深入的研究,相关文章发表在IEEE-TPAMI、IEEE-TIP和CVPR、ICCV、ECCV等顶级期刊和会议上。
王鑫超博士Webinar的题目为:Tracking Multiple Objects in Image Sequences。
在报告中,王鑫超博士首先对视频中多目标跟踪的问题进行了概述。王博士讨论了视频中多跟踪的定义、多目标跟踪的难点、以及多目标跟踪的基本解决框架: 通过检测的跟踪。特别的,王博士提出了广义多目标跟踪的概念,其跟踪的目标不仅包括实物(例如行人和车)而且包括事件(如行人上车)。然后王博士依次介绍了其近年来为解决四个多目标跟踪难点:物体互动、物体遮挡、物体运动和在线处理的工作。这些工作被应用于监控视频、体育视频、医学图像等不同领域。王博士最后介绍了其参与过的、已被产业化的体育视频跟踪系统,并列出其公布了源代码的链接。
问答部分:
问题1:online的时候network flow求解有啥不一样嘛?回答:MOT的主要focus是data association, 可以想象成是一种离散优化。Offline的MOT一般是将全部frames一起进行全局优化而往往产生比online更好的结果。我们的TIP17的paper, Greedy Batch-Based Minimum-Cost Flows for Tracking Multiple Objects, 就是针对这个问题的工作。我们通过协同优化相邻的batch, 是semi-online tracking到达了逼近offline的效果。
问题2:network flow graph 如何求解,算法实时性效果如何?回答:传统的network flow programming 确实有polynomial solution, 比如successive shortest paths等。然而其constraint matrix的特质很容易被violate, 因而导致其NP-hard。在这种情况下,要依赖commercial solver 例如IBM CPLEX求解。我们在TPAMI 2016中显示,虽然NP-hard,但如果detection confidence 足够高,其优化确实可以达到10fps的速度on a single CPU。
问题3:怎么构造训练集?有离线训练过程吗?回答:我们的data association过程实为离散优化因而不需要训练集。当然个别detector, 如ball detector需要被训练。
问题4:排球里面球员交叉很多,你们是怎么解决id switch的?回答:这个是place camera的trick. 实际系统中我们会在场地的两端安放摄像头,用以检测球员球衣的号码。
问题5:detector 使用什么的方法, 实际中受外界光线变化影响大不大?回答:POM detector 依赖于background subtraction 而确实受光线影响较大。当然依赖于learning 的detector(例如ball detector)会对光线变化更加robust。
问题6:项目开源吗?回答:我们确实开源了不少代码。请见:https://sites.google.com/site/sitexinchaowang/
问题7:请问在做association的时候,做人的tracking和车的tracking的时候,用的什么feature?回答:TPAMI 16中我们并没有用任何features, association的score 来源于detection confidence。
问题8:MOT的未来研究方向,MOT with deep learning?MOT with scene understanding?回答:Deeplize MOT确实是有趣的方向但是有以下难点:1) MOT 的离散特质 和2)MOT的constraint. 这使得传统的基于chain rule的backpropagation 无法得以直接应用。MOT with scene understanding确实是好方向!
问题9:你们online找回了前一帧的框,这不应该是semi-online吗?还是我理解错了(online不是应该实时吗)?回答:您的理解没错!
问题10:您好 不知道container和containee怎么区分?会不会出现车进入人而是人进入车?回答:这个我们确实需要提前知道哪个物体是container 哪个是containee。
问题11:对于tracking,需要进行parameter tuning吗?回答:This is something we are proud of. No parameter tuning!
问题12:你好,请问一下3D检测是怎么做出来的?那几个条件概率是怎么得到的呢?回答:我们应用的是一种考虑了mutual occlusion的variational approach。我们假设某个3D的位置有物体,将其投影至各个camera并计算相应的confidence. 详情请见:Multicamera people tracking with a probabilistic occupancy map。
问题13:相邻帧中物体的位移过大,能够处理吗?我们实际问题中计算力有限,帧率过低,导致两帧之间物体位移过大?回答:能!这个是通过设置network graph中edge的链接处理的。
问题14:能不能从研究方法上讲一下单目标与多目标的不同?回答:单目标focus on 如何update/evolve model 而多目标focus on data association.
问题15:MOT现在有没有类似于单目标跟踪里的OTB Benchmark这样的统一实验平台?回答:有的! https://motchallenge.net/
问题16:您做的MOT是假设Camera是静止的,对吧,可是如果Camera是运动的情况下,您划分的方格子就动了,尺度和角度都在变,是不是可能会遇到比较大的挑战呢?回答:是的!确实,下一步的工作就是做一个真正的SLAM-like 3D tracker。只要camera在world-coordinate 中的位置能确定,这个Line of work就能用!
录像视频在线观看地址:http://www.iqiyi.com/u/2289191062
PPT下载地址:
http://vision.ouc.edu.cn/valse/slides/20180627/Valse_18_pdf.pdf
特别鸣谢本次Webinar主要组织者:VOOC责任委员:樊彬(中科院自动化所)VODB协调理事:彭玺(四川大学)
活动参与方式:1、VALSE Webinar活动依托在线直播平台进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过聊天功能与讲者交互;2、为参加活动,请关注VALSE微信公众号:valse_wechat 或加入VALSE QQ群(目前A、B、C、D、E、F、G群已满,除讲者等嘉宾外,只能申请加入VALSE H群,群号:701662399);*注:申请加入VALSE QQ群时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M。3、在活动开始前5分钟左右,讲者会开启直播,听众点击直播链接即可参加活动,支持安装Windows系统的电脑、MAC电脑、手机等设备;4、活动过程中,请不要说无关话语,以免影响活动正常进行;5、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;6、建议务必在速度较快的网络上参加活动,优先采用有线网络连接;7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频(经讲者允许后),每周四发布下一周Webinar报告的通知及直播链接。
页: [1]
查看完整版本: 18-18期VALSE Webinar会后总结