17-25期VALSE Webinar会后总结

程一-计算所 · 发表于 2017-11-30 16:09:06

VALSE Webinar专场ICCV 2017预会议第三场在2017年10月18号20点成功举办。本次Webinar共有五位讲者，简介如下：

Sijia Cai （蔡思佳，香港理工大学） received his B.S. and M.S. degrees from Tianjin University in 2011 and 2014, respectively. He is currently a Ph.D. candidate in Prof. Lei Zhang’s group at the Hong Kong Polytechnic University. His research interests include optimization methods and machine learning algorithms for computer vision applications.

Xudong Mao （毛旭东，香港城市大学）received his BEng degree from Nankai University in 2011 and MPhil degree from City University of Hong Kong in 2014. He is currently a PhD student at City University of Hong Kong, advised by Prof. Qing Li. During 2014-2016, he worked as a senior algorithm engineer at Institute of Data Science and Technology (iDST) of Alibaba. His research interests are in the areas of computer vision and deep learning, especially the generative adversarial networks and unsupervised learning.

Wei Wei （魏玮，西安交通大学） obtained his B.S degree from Mathematics Elite Class, School of Mathematics and Statistics, Xi’an Jiaotong University, in 2015. He is currently a master student majored in Statistics at School of Mathematics and Statistics, Xi’an Jiaotong University, supervised by Professor Zongben Xu. His research interests include computer vision and machine learning. He is working in the Machine Learning Group, especially in the area of noise modelling, leaded by Professor Deyu Meng.

Jiangtao Xie （谢江涛，大连理工大学） is a fourth-year undergraduate of the Electronic Information Innovation Experimental Class of Dalian University of Technology. As a key member of DLUT_VLG team, he achieved 5/50 in iNaturalist Challenge at Fine-Grained Visual Categorization (FGVC) 2017 in conjunction with CVPR2017. His research interests include computer vision and deep learning.

Pingping Zhang（张平平，大连理工大学） received the B.S. degree in mathematics and applied mathematics from Henan Normal University (HNU), Xinxiang, China, in 2012. He is currently pursuing the Ph.D. at Dalian University of Technology (DUT), Dalian, China. His research interests are in deep learning, saliency detection, object tracking and object segmentation.

蔡思佳的Webinar报告题目为：Higher-order Integration of Hierarchical Convolutional Activations for Fine-grained Visual Categorization.

在报告中，蔡思佳针对FGVC中依赖性的问题提出了一种新的端到端的框架。该工作也为从多层组合卷积激活提供了一个新的视角。虽然超列简单地连接来自不同层的map，而整体嵌套网络使用加权融合来组合边输出，该方法利用更高阶的层内和层间关系来更好地集成分层卷积特征。提出的框架产生更多的歧视性表示，并在广泛使用的FGVC数据集上实现竞争性结果。

问答部分：

问题1：请问参数量大概增加了多少？

回答：并不会增加太多，如果8196 的1*1filter，最后也就8000多维的feature。

问题2：我觉得与 Factorization machine 神似，请问作者是否受此启发做的改进？

回答：有看过Factorization machine的东西在machine learning的文章中，会有这种思想在里面，最后在做法上是可以回归到基于分解的模型上去，但是建模的角度会比较不同。

问题3：请问响应较大的特征图通道是怎样提取的？

回答：先找到分类器赋值比较大的位置，在相应位置找到1*1的filter形成的index，把index映射到feature map上去。

毛旭东的Webinar报告题目为：Least Squares Generative Adversarial Networks.

在报告中，毛旭东针对常规GAN中损失函数可能导致在学习过程中梯度弥散的问题提出了一种LSGAN，该方法使用最小二乘损失函数作为鉴别器。与常规GAN相比，LSGAN能提高图像质量而且在学习过程中LSGAN表现更加稳定。

问答部分：

问题1：在训练过程中会不会出现生成图片质量随着迭代次数的增加而有所降低呢

回答：LSGAN的生成图片会有一定的震荡，在使用LSGAN时建议使用结果最好那一轮的模型结果。

问题2：LSGAN中，你在D中使用了BN吗？这个对收敛速度很大有影响吗？collapse现象严重吗？

回答：这个问题结果在文章中都有，写进去了。

问题3：请问生成汉字你们使用的训练集有多大啊？

回答：汉字的结果在文章中也有，3000多类，每个类300多字。

魏玮的Webinar报告题目为：Should We Encode Rain Streaks in Video as Deterministic or Stochastic?

在报告中，魏同学针对自然环境下雨线对正常视频处理算法的影响提出了一种视频去雨的方法，该方法首先以对雨使用高斯混合模型进行随机编码再与移动物体和背景的时空平滑度相结合。该方法能够更精细地适应不同的雨况，在真实数据和合成数据上的实验结果都有优越的表现。

问答部分：

问题1：请问有雨视频和无雨的ground truth是怎么采集的？

回答：背景视频change detection的数据集中收集的，雨的视频是在网站上找到的黑色背景的视频加以处理得到的。

问题2：请问每个具体的场景都需要进行参数优化吗？

回答：极个别的视频可能需要调参。

问题3：采用混合高丝模型来模拟雨的运行轨迹，假若刮风，这个模型是否可以使用？

回答：可以。

谢江涛的Webinar报告题目为：Is Second-order Information Helpful for Large-scale Visual Recognition?

在报告中，谢同学回顾了通过堆叠卷积和非线性的层使得网络能够更好的学习低层次到高层次的特征表示。由于大规模识别的最终目标是描绘数千个类的复杂边界，所以对特征分布的充分探索对于实现ConvNets的全部潜力很重要。然而，最先进的方法只集中在更深层次或更广泛的架构设计上，而很少探索高于一阶的特征统计量。谢同学使用了协方差池化而不是常用的一阶池化。其中最大的挑战是协方差估计，给出了大维特征的小样本和协方差矩阵的歧管结构的使用。针对这些问题，提出了矩阵幂归一化协方差（MPN-COV）方法。开发关于非线性矩阵函数的前向和后向传播公式，使得MPN-COV可以端对端地被训练。并且通过与多种经典网络的结合使他们的性能得到了一定程度的提升。

问答部分：

问题1：这个工作花了多久时间呢？

回答：两三个月。

问题2：是对什么算协方差？

回答：对最后一层卷积层的输出特征展开成特征矩阵，对这个矩阵计算协方差。

问题3：channel保持不变吗?

回答：channel的数目就是样本矩阵的维度。

张平平的Webinar报告题目为：Diving into Deep Features for Saliency Detection.

在报告中，张同学基于深层神经网络中的层次分析，深入研究了预训练的FCN模型中的卷积特征，提出了一种显著性检测的方法。该方法将多层次特征图集成到多个分辨率中，自适应地学习组合这些特征图，并通过组合特征来预测显着图，预测结果被有效地融合以产生最终结果图。并且考虑到对象边界对预测精度的影响很大的问题，提出了一种新的压差方法来学习深度不确定卷积特征（UCF），从而有助于显着性检测的鲁棒性和准确性，并且可以推断物体的自相似边界。通过在基准数据库上的实验证明了该方法的有效性。

问答部分：

问题1：Amute是否用了边缘信息呢?

回答：用了，在预测完之后有个BPR模块。

问题2：Stage wise 的saliency 检测是否相当于RFCN的迭代工作呢？

回答：可以这样理解，这样是在特征层上做递归。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

活动参与方式：

1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过文字或语音与讲者交互；

2、为参加活动，需加入VALSE QQ群，目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237。申请加入时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M

3、为参加活动，请下载安装Windows QQ最新版，群视频不支持非Windows的系统，如Mac，Linux等，手机QQ可以听语音，但不能看视频slides；

4、在活动开始前10分钟左右，主持人会开启群视频，并发送邀请各群群友加入的链接，参加者直接点击进入即可；

5、活动过程中，请勿送花、棒棒糖等道具，也不要说无关话语，以免影响活动正常进行；

6、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

7、建议务必在速度较快的网络上参加活动，优先采用有线网络连接。