程一-计算所 发表于 2017-4-24 15:13:25

【VALSE 前沿技术选介17-03期】

http://mp.weixin.qq.com/s/QwQZE9RQNvv9TOnukRx2Cg


【VALSE 前沿技术选介17-03期】使用二阶信息改进神经网络
作者: Winsty

今天给大家介绍的主题是利用二阶信息(协方差矩阵或二阶poly kernel)来改进网络表示能力。其实这个这个想法并不是一个很新的想法了,之前比较著名的工作包括DeepO2P和Bilinear Model和其各种改进。这两篇工作,尤其是,把这样一个想法做的扎实很多,不仅从理论上给出了一些分析,更重要的是证明了在大规模的vision问题,比如ImageNet分类上是很有效的。这一点十分难能可贵。

这两个文章一个共同的框架都是先使用CNN抽取feature map,然后将feature map中的每一个位置作为一个sample,计算整个feature map的协方差矩阵。在得到协方差矩阵之后,在对特征值进行了简单的normalization后进行了输出,而尝试了很多降维和参数化变换后输出。示意图分别如下:


可以看到这两个文章的核心都在于如何可靠稳定地计算出单样本的协方差矩阵,由于在CNN中的feature维数一般都比较高,然而在最高层的feature map的分辨率一般是比较低的,往往面临着经典的n < p协方差估计问题。也就是这个协方差矩阵永远会是rank deficient的,这个不准确的估计会对结果造成很大影响。所以,这两个文章都对估计的协方差矩阵加入了一些额外的约束和操作:在中,作者引入了对特征值的power normalization,即对每个特征值做alpha次方的操作。很有意思的是,这个看似简单的操作其实背后还是有很多依据的。作者在文中引用了两个定理说明,当alpha=0.5时,恰好是使用了矩阵von Neumann Divergence做约束的最大似然估计的最优解;当alpha->0时,用其导出的Pow-E metric可以近似在Riemannian manifold上常用的Log-E metric。在中,作者直接使用了中的操作,其本质也是对特征值进行拉伸变换。

以上这些对特征值的操作引入了一个新的问题:如何对特征值分解求导?对应的特征向量和特征值得导数分别是什么?尤其是对特征向量矩阵还有orthonormal约束的时候,如何使用gradient decent仍旧能满足这样的约束?我们此时有一个很有力的工具:Matrix Backpropagation。文章中对于上述问题给出了非常漂亮的回答。我强烈建议有时间的同学可以仔细推导下文中的结论,没有涉及到过于复杂的矩阵知识,但是需要对矩阵基本的概念有足够深入的理解,是不可多得的实践中的练习题。具体的证明在的arxiv版本中。

至于实验部分,比扎实了很多,所有实验都是在大规模的ImageNet数据集上使用标准网络AlexNet,VGG,ResNet进行的。而且详细分析了每一操作对性能的影响,例如:alpha的选择,是否对power normalization之后的特征值还需要做l2或frobenius normalization。最终的实验结果在各自的baseline网络上有巨大显著的提高,这是之前的DeepO2P和Bilinear和其各种改进所不能的。唯一略有缺陷的地方在于,在大家可能最关注的ResNet网络上,为了能保证最后层的feature map有足够的分辨率,作者去掉了一层downsample,改变了原有的网络结构,导致性能提升的原因不十分明确,其实为了维持分辨率是可以借鉴在segmentation任务中常用的dilation conv,会是一个更信服的方案。下图中可以看到在VGG和ResNet上的具体结果,其中Res50的结果甚至超过了原始Res152的结果,非常让人印象深刻。


综上,现在一提到提升网络性能,大家第一想到的就是去设计网络结构,其实除了网络结构之外,CNN很多本身的元素也有很多可以挖掘的地方,比如上期我们介绍的Deformable Conv,这期介绍的二阶信息的使用。希望大家都可以打开思路,提出更多有意思的解决方案。

Li, P., Xie, J., Wang, Q., & Zuo, W. (2017). Is Second-order Information Helpful for Large-scale Visual Recognition?. arXiv preprint arXiv:1703.08050.
Yu, K., & Salzmann, M. (2017). Second-order Convolutional Neural Networks. arXiv preprint arXiv:1703.06817.
Ionescu, C., Vantzos, O., & Sminchisescu, C. (2015). Matrix backpropagation for deep networks with structured layers. In ICCV (pp. 2965-2973).
Lin, T. Y., RoyChowdhury, A., & Maji, S. (2015). Bilinear cnn models for fine-grained visual recognition. In ICCV (pp. 1449-1457).
Wang, Q., Li, P., Zuo, W., & Zhang, L. (2016). RAID-G: Robust Estimation of Approximate Infinite Dimensional Gaussian with Application to Material Recognition. In CVPR (pp. 4433-4441).


页: [1]
查看完整版本: 【VALSE 前沿技术选介17-03期】