17-23期VALSE Webinar会后总结

程一-计算所 · 发表于 2017-11-30 16:02:56

天普大学樊恒博士、约翰.霍普金斯大学谢凌曦博士、加州大学圣地亚哥分校的屠卓文教授2017年9月27日VALSE Webinar 成功举办.

樊恒，天普大学博士生，导师：凌海滨教授。

樊恒Webinar的题目为：Parallel Tracking and Verifying: A Framework for Real-Time and High-Accuracy Visual Tracking.

在报告中，樊恒针对在跟踪过程中，精度和速度之间的平衡问题，采用快速跟踪和验证器进行配合，分别处理简单序列和外观发生较大变化的复杂序列，自适应的激活验证器，当有困难跟踪发生时，利用验证器来改进跟踪器的性能，同时纠正跟踪器出现的错误。实验结果表明，采用本文提出的并行框架，可以很好实现实时的跟踪。

谢凌曦，约翰.霍普金斯大学博士后，2010年和2015年分别在清华大学获得本科和博士学位，发表多篇高质量论文，曾获得ICMR2015最佳论文。

谢凌曦Webinar的题目为：SORT: Second-Order Response Transform for Visual Recognition & Genetic CNN.

在报告中，谢凌曦博士针对现有神经网络在图像识别中的不变性、参数复杂度、和模型容量等方面的问题，首先提出了卷积的二阶变换的方法，在不增加时间复杂度的情况下，显著改进了网络的非线性属性，从而改善了图像识别的精度；进一步，针对神经网络的结构学习方面，谢博士提出基于遗传算法神经网络结构学习模型，采用二进制编码的方式对网络结构进行编码，并采用遗传学习的方式，优化网络结构，从而改进了神经网络在识别方面的性能。

屠卓文教授，加州大学圣地亚哥分校，屠教授于2003年获得Marr Prize，曾任职于微软亚洲研究院。

屠卓文Webinar的题目为：Introspective Learning for Generative Modeling and Discriminative Classification.

在报告中，屠卓文教授介绍了其发表在CVPR 2007，NIPS 2017和ICCV 2017上的系列算法：自醒学习。报告中，屠卓文教授回顾了其在启发式模型和判别式模型的统一化方面跨越10年的系列工作。其最新的自醒学习方法能够巧妙地在一个模型中实现Genernative（产生式）和discriminative（判别式）。通过采用back propagation取代早年的Gibbs Sampling，有效地解决了产生是模型的快速训练问题。新方法在计算机视觉的一些列基本问题中都有着重要的应用。

问答部分:

问题1：验证器的阈值会有什么影响？如何扩展到多跟踪器上？
回答：验证器的阈值对性能具有较大的影响，我们一方面手动设置合理的阈值，另一方面在阈值非最优的情况下，可以进行连续校验，并在跟踪过程中不更新；多目标的跟踪问题有所不同，需要考虑每个目标的affinity，但是可以利用验证器来判断跟踪对象是不是准确。

问题2：sort是否有利于深度网络的并行化？遗传算法对网络结构的贡献主要是什么？
回答：SORT对并行化似乎没什么帮助，它只是用于改进网络的识别效果；遗传算法对于结构的贡献，主要是高效地探索了一些我们没有探索过的结构，避免了逐一去枚举每个可能性。

问题3：针对您的第一个工作，不同的统计量对性能的影响大吗？2. 在采样方面有什么策略来提高采样效率？
回答：这个问题很好，当时我做了很多实验。后来发觉，它的统计量核心需要两类，homogeneous（histogram）和in-homogeneous。没有homogeneous (histogram)的话，假如都是harr、wavelets的话，texture是做不了的，反之也亦然。当时最大的一个从07年工作的改进是用Harr和Histogram两大类feature都合在一起起到了作用，否则单独用一类都不太行。最早我们采样用各种各样Gibbs sampling确实太慢了，现在back propagation的情况下，被归纳成了SGD-langevin dynamics，最近在统计上有一些证明，我觉得这个可能会大大提高sampling process。反过来说GAN的sampling process，当然它不叫sampling了，是从random high dimensional space上做projection的话，也是一种启发，但不是本质意义上的sampling。这部分还是需要做很多研究。

问题4：您对大家进一步开展这方面的future work有建议吗？
回答：我们这个code马上会放出来。在introspective learning 这底下，我们强调是single model，所以比GAN来说，我们的好处是直接可以做discriminative classification，然后它在generative model上来说也并不差，我们后面可能会做一系列后续的工作来进一步提高。所以从这个角度来说，我觉得有可能比GAN的空间要大。GAN的本身的synthesis确实比我们要快，比如我们有时是秒级，GAN有可能是毫秒级。所以GAN继续保留其优点的前提下，我觉得我们的introspective还是有他自己很明显的特点在那。尤其是single model，一个single CNN可以转换成generative，这样就比较有效了。大家目前在GAN上面，第一，training 有问题，第二，GAN的discriminative model是扔掉的。如果你可以把任何你的discriminative classify的CNN都转为generative model，我觉得还是对后面还是有大量的后续可做的工作。差不多是沿着这个introspective，通过自省的方式来不断提高。

问题5：请举出您算法的一些应用场景。
回答：可以说除了速度以外，基本上GAN能做的事情我们都能做。但GAN不能做的，我们很多地方也能做。比如直接的classification我们就能提高。我目前还没有看到GAN本身做discriminative classification。由于是single model，training两个都是backpropagation，有可能比GAN的training复杂度要降低一些。当然w-GAN出来以后帮助很大了，但是包括Goodfellow最近也在说，他也在不断探索GAN怎么训练的这个过程，所以我觉得有可能在这方面也有所提高。我个人对这个方向还是很激动的，我觉得整个空间还是非常大。

问题6：您现在的工作比07年工作，从框架上来说基本一样，但是性能提升很大，主要是引入了CNN，有没有分析这是什么本质原因，如果引入LSTM有没有考虑？
回答：归纳总结一下：首先实现了真正的端到端，07工作feature的定义我还是花了相当的时间，homogeneous啊还是非homogeneous,现在CNN我就不用考虑了。第二，Sampling的过程极大地提高，有了back propagation之后，sampling过程好太多了，可以说是成百倍的提高。第三，我们NIPS文章把supervise和un-supervise又几乎整合到了一个差不多相同的结构。这样对supervise和un-supervise有一个有效的结合。受到了CNN大潮下，把Hieratical的结构引入进来，learning过程更加smooth，利用整个CNN能够有效的back-propagation的形式。当然最近Hinton他们又在强调可能back propagation不一定是好事，但这又是另一个层面的事情了。然后回到LSTM的话，LSTM本质上仍然是back propagation，所以我觉得用这类temporal的data，也还是有很多后面扩展空间，目前我们还没开始做这部分。LSTM没有什么理由不能做，但需要一些探索。GAN的Discriminative是扔掉的，我们的是single model，即是discriminative 又是generative，想象空间不少。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

活动参与方式：
1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过文字或语音与讲者交互；
2、为参加活动，需加入VALSE QQ群，目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237。申请加入时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M
3、为参加活动，请下载安装Windows QQ最新版，群视频不支持非Windows的系统，如Mac，Linux等，手机QQ可以听语音，但不能看视频slides；
4、在活动开始前10分钟左右，主持人会开启群视频，并发送邀请各群群友加入的链接，参加者直接点击进入即可；
5、活动过程中，请勿送花、棒棒糖等道具，也不要说无关话语，以免影响活动正常进行；
6、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；
7、建议务必在速度较快的网络上参加活动，优先采用有线网络连接。