程一-计算所 发表于 2017-11-30 16:02:56

17-23期VALSE Webinar会后总结

天普大学樊恒博士、约翰.霍普金斯大学谢凌曦博士 、加州大学圣地亚哥分校的屠卓文教授2017年9月27日VALSE Webinar 成功举办.

樊恒,天普大学博士生,导师:凌海滨教授。

樊恒Webinar的题目为:Parallel Tracking and Verifying: A Framework for Real-Time and High-Accuracy Visual Tracking.

在报告中,樊恒针对在跟踪过程中,精度和速度之间的平衡问题,采用快速跟踪和验证器进行配合,分别处理简单序列和外观发生较大变化的复杂序列,自适应的激活验证器,当有困难跟踪发生时,利用验证器来改进跟踪器的性能,同时纠正跟踪器出现的错误。实验结果表明,采用本文提出的并行框架,可以很好实现实时的跟踪。

谢凌曦,约翰.霍普金斯大学博士后,2010年和2015年分别在清华大学获得本科和博士学位,发表多篇高质量论文,曾获得ICMR2015最佳论文。

谢凌曦Webinar的题目为:SORT: Second-Order Response Transform for Visual Recognition & Genetic CNN.

在报告中,谢凌曦博士针对现有神经网络在图像识别中的不变性、参数复杂度、和模型容量等方面的问题,首先提出了卷积的二阶变换的方法,在不增加时间复杂度的情况下,显著改进了网络的非线性属性,从而改善了图像识别的精度;进一步,针对神经网络的结构学习方面,谢博士提出基于遗传算法神经网络结构学习模型,采用二进制编码的方式对网络结构进行编码,并采用遗传学习的方式,优化网络结构,从而改进了神经网络在识别方面的性能。

屠卓文教授,加州大学圣地亚哥分校,屠教授于2003年获得Marr Prize,曾任职于微软亚洲研究院。

屠卓文Webinar的题目为:Introspective Learning for Generative Modeling and Discriminative Classification.

在报告中,屠卓文教授介绍了其发表在CVPR 2007,NIPS 2017和ICCV 2017上的系列算法:自醒学习。报告中,屠卓文教授回顾了其在启发式模型和判别式模型的统一化方面跨越10年的系列工作。其最新的自醒学习方法能够巧妙地在一个模型中实现Genernative(产生式)和discriminative(判别式)。通过采用back propagation取代早年的Gibbs Sampling,有效地解决了产生是模型的快速训练问题。新方法在计算机视觉的一些列基本问题中都有着重要的应用。

问答部分:

问题1:验证器的阈值会有什么影响?如何扩展到多跟踪器上?
回答:验证器的阈值对性能具有较大的影响,我们一方面手动设置合理的阈值,另一方面在阈值非最优的情况下,可以进行连续校验,并在跟踪过程中不更新;多目标的跟踪问题有所不同,需要考虑每个目标的affinity,但是可以利用验证器来判断跟踪对象是不是准确。

问题2:sort是否有利于深度网络的并行化?遗传算法对网络结构的贡献主要是什么?
回答:SORT对并行化似乎没什么帮助,它只是用于改进网络的识别效果;遗传算法对于结构的贡献,主要是高效地探索了一些我们没有探索过的结构,避免了逐一去枚举每个可能性。

问题3:针对您的第一个工作,不同的统计量对性能的影响大吗?2. 在采样方面有什么策略来提高采样效率?
回答:这个问题很好,当时我做了很多实验。后来发觉,它的统计量核心需要两类,homogeneous(histogram)和in-homogeneous。没有homogeneous (histogram)的话,假如都是harr、wavelets的话,texture是做不了的,反之也亦然。当时最大的一个从07年工作的改进是用Harr和Histogram两大类feature都合在一起起到了作用,否则单独用一类都不太行。最早我们采样用各种各样Gibbs sampling确实太慢了,现在back propagation的情况下,被归纳成了SGD-langevin dynamics,最近在统计上有一些证明,我觉得这个可能会大大提高sampling process。反过来说GAN的sampling process,当然它不叫sampling了,是从random high dimensional space上做projection的话,也是一种启发,但不是本质意义上的sampling。这部分还是需要做很多研究。

问题4:您对大家进一步开展这方面的future work有建议吗?
回答:我们这个code马上会放出来。在introspective learning 这底下,我们强调是single model,所以比GAN来说,我们的好处是直接可以做discriminative classification,然后它在generative model上来说也并不差,我们后面可能会做一系列后续的工作来进一步提高。所以从这个角度来说,我觉得有可能比GAN的空间要大。GAN的本身的synthesis确实比我们要快,比如我们有时是秒级,GAN有可能是毫秒级。所以GAN继续保留其优点的前提下,我觉得我们的introspective还是有他自己很明显的特点在那。尤其是single model,一个single CNN可以转换成generative,这样就比较有效了。大家目前在GAN上面,第一,training 有问题,第二,GAN的discriminative model是扔掉的。如果你可以把任何你的discriminative classify的CNN都转为generative model,我觉得还是对后面还是有大量的后续可做的工作。差不多是沿着这个introspective,通过自省的方式来不断提高。

问题5:请举出您算法的一些应用场景。
回答:可以说除了速度以外,基本上GAN能做的事情我们都能做。但GAN不能做的,我们很多地方也能做。比如直接的classification我们就能提高。我目前还没有看到GAN本身做discriminative classification。由于是single model,training两个都是backpropagation,有可能比GAN的training复杂度要降低一些。当然w-GAN出来以后帮助很大了,但是包括Goodfellow最近也在说,他也在不断探索GAN怎么训练的这个过程,所以我觉得有可能在这方面也有所提高。我个人对这个方向还是很激动的,我觉得整个空间还是非常大。

问题6:您现在的工作比07年工作,从框架上来说基本一样,但是性能提升很大,主要是引入了CNN,有没有分析这是什么本质原因,如果引入LSTM有没有考虑?
回答:归纳总结一下:首先实现了真正的端到端,07工作feature的定义我还是花了相当的时间,homogeneous啊还是非homogeneous,现在CNN我就不用考虑了。第二,Sampling的过程极大地提高,有了back propagation之后,sampling过程好太多了,可以说是成百倍的提高。第三,我们NIPS文章把supervise和un-supervise又几乎整合到了一个差不多相同的结构。这样对supervise和un-supervise有一个有效的结合。受到了CNN大潮下,把Hieratical的结构引入进来,learning过程更加smooth,利用整个CNN能够有效的back-propagation的形式。当然最近Hinton他们又在强调可能back propagation不一定是好事,但这又是另一个层面的事情了。然后回到LSTM的话,LSTM本质上仍然是back propagation,所以我觉得用这类temporal的data,也还是有很多后面扩展空间,目前我们还没开始做这部分。LSTM没有什么理由不能做,但需要一些探索。GAN的Discriminative是扔掉的,我们的是single model,即是discriminative 又是generative,想象空间不少。

录像视频在线观看地址: http://www.iqiyi.com/u/2289191062

活动参与方式:
1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行,活动时讲者会上传PPT或共享屏幕,听众可以看到Slides,听到讲者的语音,并通过文字或语音与讲者交互;
2、为参加活动,需加入VALSE QQ群,目前A、B、C、D、E、F群已满,除讲者等嘉宾外,只能申请加入VALSE G群,群号:669280237。申请加入时需验证姓名、单位和身份,缺一不可。入群后,请实名,姓名身份单位。身份:学校及科研单位人员T;企业研发I;博士D;硕士M
3、为参加活动,请下载安装Windows QQ最新版,群视频不支持非Windows的系统,如Mac,Linux等,手机QQ可以听语音,但不能看视频slides;
4、在活动开始前10分钟左右,主持人会开启群视频,并发送邀请各群群友加入的链接,参加者直接点击进入即可;
5、活动过程中,请勿送花、棒棒糖等道具,也不要说无关话语,以免影响活动正常进行;
6、活动过程中,如出现听不到或看不到视频等问题,建议退出再重新进入,一般都能解决问题;
7、建议务必在速度较快的网络上参加活动,优先采用有线网络连接。

页: [1]
查看完整版本: 17-23期VALSE Webinar会后总结