设为首页收藏本站

VALSE

查看: 2709|回复: 0

【VALSE前沿技术选介16-13期】

[复制链接]

123

主题

123

帖子

1677

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1677
发表于 2016-5-30 10:38:52 | 显示全部楼层 |阅读模式
http://mp.weixin.qq.com/s?__biz= ... 84950df002a510ec#rd

深度网络学习与传统模型优化/统计推断方法的融合

左旺孟、汪张扬、刘日升、陈运锦、彭玺

最近Hinton组的一篇Arxiv论文[1]在VALSE微信群里引起了大家的关注和讨论。在这篇论文里,Eslami等针对场景理解问题,将变分推断视为一个迭代优化过程,通过固定迭代次数,利用递归神经网络(RNN)学习迭代过程中涉及的模型参数。这并不是第一篇将深度学习技术应用于统计推断的论文,牛津大学Philip Torr组的Zheng等在ICCV2015的一篇论文[2]中也采用了类似的研究思路。他们将条件随机场(CRF)的平均值(Mean field)近似推断算法表示为一个RNN模型,并通过与 CNN模型整合到一起以实现联合端对端学习,达到改善图像语义分割性能的目的。

实际上,自从2010年以来,许多学者已经开始关注到从深度网络的角度来理解传统优化模型,并且进而采用数据驱动的方式来学习性能/效率方面更好的优化算法。Gregor和LeCun[3]分析了求解L1-稀疏编码问题的迭代阈值算法(ISTA)和坐标下降方法(CoD)。以ISTA(图1(a))为例,如下图所示,通过设定优化算法的迭代步数,并允许每次迭代使用不同的参数S,则可将ISTA算法展开表示成相应的神经网络结构(LISTA,见图1(b)),并基于训练数据来训练一个固定深度的前向网络来进行快速L1-稀疏编码。同样,Gregor和LeCun [3]还将CoD算法展开表示为LCoD网络。在此基础上,Sprechmann等[4,5]采用了基于处理的方法来学习稀疏和低秩模型。Wang等进一步将这种思想应用于L0-稀疏编码[6], 图约束下L1-稀疏编码[8],和L¥-编码[7]。这些方法已被应用于图像超分辨、JPEG压缩图像复原、聚类和哈希学习等领域[7,8,9,10]。例如,针对图像超分辨问题,Wang等[9]利用LISTA建立了一个基于稀疏编码的网络,与SRCNN[24]相比PSNR取得了0.2~0.5dB的性能提升。

QQ截图20160530103326.jpg
在图像复原领域,许多问题往往归结于求解一个非凸优化模型。虽然目前已涌现了许多有效的非凸优化算法,但这些方法只能保证收敛于局部最优解,并且未能考虑数据的分布特点。若将非凸模型的优化算法展开为一个深度网络,并采用数据驱动的方式来学习网络参数,不仅能够得到更为便捷的优化方案,还可利用训练数据(包括输入和对应的最优解)在一定程度上改善优化算法的收敛性能,得到更好的局部最优解。Liu等[11,12]从偏微分方程(PDE)的角度出发,通过在扩散过程中学习自适应的控制方程和边界条件,将扩散PDE方程应用于图像复原、显著性检测、目标跟踪等任务。通过使用半二次化策略来求解基于Fieldsof Experts先验的变分图像复原模型,Schmidt和Roth[13]提出了一种级联收缩场模型,从训练样本中学习每个阶段的滤波器组和收缩算子。Zuo等[14, 15]将上述思想应用于图像盲复原问题。鉴于盲复原问题比非盲复原更具挑战性,需要同时估计模糊核和清晰图像,他们采用仅学习每次迭代的广义收缩阈值算子和正则化参数以减少待学习的参数数目,以及调整每个阶段的目标函数以克服平凡解,并借鉴了前期盲复原算法的经验进一步约束解空间。Chen等[16,17]则采用梯度下降方法求解和[13]相同的变分模型,学习每个梯度下降步骤的滤波器组和影响函数(influencefunction),并从RNN的角度对模型进行了分析和理解。[16,17] 的结果表明训练深度网络中的非线性响应函数可以大幅度提升网络的性能,这启发我们对于一般的深度网络模型是否也可以进行激励函数的训练。然而[16, 17]所采用的RBF函数参数化方法对于一般的深度网络来讲过于复杂,会大大地增加训练的复杂度,这个问题有待进一步的研究。

实质上,我们还可以利用双层优化(bi-level optimization)来理解以上对特定模型的优化过程。所谓双层优化,指的是将一个优化问题以约束条件的形式嵌入到另外一个优化问题中。我们通常称被嵌入的优化问题为上层(upper-level)优化任务,而作为约束条件的优化问题则被称为下层(lower-level)优化任务。双层优化问题的一般形式如式(1),我们希望通过调整能量泛函的参数,使得最小化问题的解能够逼近目标解。

QQ截图20160530103412.jpg
具体应用中,我们通常将待求解的优化模型考虑为下层优化任务,进而在训练数据上定义一个上层目标优化任务来实现模型参数的学习。如Chen等[18]利用双层优化框架训练一个最优化的图像正则化算子用于变分图像复原模型。双层优化问题的求解通常采用隐式求导法则[18, 22, 23]。然而这种方法对下层优化问题的解有较高的精度要求,这对于很多实际的非凸优化问题是非常棘手的,因为这将意味着成百上千次的迭代步骤。因此,将优化迭代过程展开为一个多层网络,并对网络参数进行训练的思路就变得非常有实际意义[19],从而在多个不同的领域被提出并得到广泛的研究。Domke [21]将这种思路应用于图像去噪和图像分割变分模型的优化。从Wang [20]到Wang [6]的发展,则展示了一个将双层优化模型转化为深度模型求解、并在聚类问题上性能提升的具体例子。

此外,通过将传统优化模型与深度网络模型相结合,深度网络中原本“黑盒子“式的结构能也得到许多有启发价值的分析和解释。例如,Wang等[6]通过将L0-稀疏编码的迭代算法展开为前向神经网络,从两种不同形式的L0优化模型中,分别推导获得等价于深度模型中 truncated ReLU和max pooling的两种算子。Wang等进一步的工作[7,8,9,10]揭示了更多深度网络结构和传统优化模型之间的对应关系,并可进一步将深度网络解释为一系列”单步截断版“迭代优化算法的级联和端到端优化。目前部分研究成果总结为如下表1.
QQ截图20160530103501.jpg
从计算模型的角度看,传统的优化和推断把求解过程的自由度约束在少量参数上,在建模中辅以对数据分布的先验知识(如稀疏性,低秩性,隐变量结构等)。深度网络模型则把自由度无限放大,较少使用先验知识(卷积神经网络针对视觉信号的平移不变性引入卷积操作,减少模型参数,可看做使用先验的一个成功例子)。合适的模型规模和参数数量,应由先验和数据量定性地确定:如果先验准确、数据不足,则应该使用添加先验、模型参数较少的模型;如果先验缺乏、数据充足,则可近似视为“样本分布即实际分布”,使用模型参数较多、学习自由度大的模型。此外,注意即使是用大数据做数据驱动(data-driven)训练,加入基于合适先验的模型引导(model-guided)方法也常有益于改善收敛速度和避免特别差的局部最优解。大部分实际问题,需要的是在“数据驱动”和“模型引导”间做平衡取舍,即:既有一定的训练数据量,也有已知的有效先验。深度网络学习与传统模型优化/统计推断方法的融合这类方法,就是为了更好地寻求这一“平衡取舍”的中间路线,建立传统方法和深度学习的一座桥梁。

综上所述,通过将优化算法或统计推断方法展开为递归神经网络,采用数据/任务驱动的方式学习每次迭代(或阶段)的模型参数的方式在机器学习、计算机视觉和图像处理领域正在得到广泛关注。与传统方法相比:(i) 这类方法一般具有更高的计算效率,尤其在测试/推断时,前向网络复杂度通常低于传统迭代解;(ii) 当模型非凸或算法不能收敛至全局最优解时,这类方法可与深度模型的丰富初始化和训练技巧有效结合,往往能够得到更好的解。与现有的一般深度网络模型相比:(i)这类方法能直观地将传统模型中证明有效的先验/约束/正则,引入深度模型、提高其性能(如Wang [8]将图/流形约束引入深度聚类模型)。所获得的模型具有特殊结构,比起一般深度模型天然约束更强,对训练样本量的需求有望减少。(ii) 这类方法可从优化/推断的角度,为深度网络模型本身的结构(ReLU、Pooling等),以及新兴的学习策略(如Residual Learning等)提供新的解释视角。一个更重要的好处,是我们更容易据此按应用需求“定制”新的模型,有望打破用深度模型用如“黑盒子”的困境。因此,希望在后续的研究中,这类方法能够得到更多的关注和研究,并在其它应用领域和真实问题中取得更多的成功。

最后,根据我们自己的理解,针对这一方向的发展给出了一些提议,希望能够得到更为深入的讨论:
(1)  基于模型+算法=网络的策略,对不同的迭代算法加以展开,将会得到不同的网络结构。可否结合特定的问题和数据,采用理论和实验分析等手段,探讨某些模型是否对应于最优的网络结构。
(2)  目前这类方法的学习算法仍然比较简单,大多采用常规的SGD方法,通过引入深度学习中的初始化策略,以及Dropout、Batch Normalization等技术,可能会有助于学习到更高效的模型优化/统计推断网络。
(3)  在目前的浅层模型如稀疏编码、非凸优化等的指导下,设计、解释和学习深度网络,可为发展深度学习模型和算法提供一个新的研究和分析视角。

参考文献:
[1]  S. M. A. Eslami, N. Heess, T. Weber, Y. Tassa, K. Kavukcuoglu, and G.E. Hinton, Attend, Infer, Repeat: Fast Scene Understanding with GenerativeModels, Arxiv, April 2016.
[2]  S. Zheng, S. Jayasumana, B. Romera-Paredes, Vi. Vineet, Z. Su, D.Du, C. Huang, and P. Torr, Conditional Random Fields as Recurrent NeuralNetworks, ICCV 2015.
[3]  K. Gregor and Y. LeCun. Learning Fast Approximations of SparseCoding, ICML 2010.
[4]  P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning efficientstructured sparse models, ICML, 2013.
[5]  P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning EfficientSparse and Low Rank Models, IEEE T-PAMI, 2015.
[6]  Z. Wang, Q. Ling, and T. Huang, Learning Deep 0 Encoders, AAAI 2016.
[7]  Z. Wang, Y. Yang, S. Chang, Q. Ling, and T. Huang, Learning A Deep Encoder for Hashing, IJCAI 2016.
[8]  Z. Wang, S. Chang, J. Zhou, M. Wang and T. Huang, Learning ATask-Specific Deep Architecture for Clustering, SDM 2016.
[9]  Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, Deep Networks forImage Super-Resolution with Sparse Prior, ICCV 2015.
[10] Z. Wang, D. Liu, S. Chang, Q. Ling, Y. Yang and T. Huang, D3: DeepDual-Domain Based Fast Restoration of JPEG-Compressed Images, CVPR 2016.
[11] R. Liu, Z. Lin, W. Zhang, and Z. Su, Learning PDEs for image restorationvia optimal control, ECCV 2010.
[12] R. Liu, G. Zhong, J. Cao, Z. Lin, S. Shan, and Z. Luo, Learning toDiffuse: A New Perspective to Design PDEs for Visual Analysis, IEEE T-PAMI,2016.
[13] U. Schmidt and S. Roth, Shrinkage Fields for Effective ImageRestoration, CVPR 2014.
[14] W. Zuo, D Ren, S. Gu, L. Lin, and L. Zhang, Discriminative Learningof Iteration-wise Priors for Blind Deconvolution, CVPR 2015.
[15] W. Zuo, D Ren, D. Zhang, S. Gu, and L. Zhang, LearningIteration-wise Generalized Shrinkage–Thresholding Operators for BlindDeconvolution, IEEE T-IP, 2016.
[16] Y. Chen, Wei Yu, T. Pock, On learning optimized reaction diffusionprocesses for effective image restoration, CVPR 2015.
[17] Y. Chen and T. Pock, Trainable Nonlinear Reaction Diffusion: AFlexible Framework for Fast and Effective Image Restoration, Arxiv 2015.
[18] Y. Chen, R. Ranftl, and T.Pock, Insights into Analysis Operator Learning: From Patch-based Sparse Modelsto Higher Order MRFs, IEEE T-IP, 2014.
[19] P. Ochs, R. Ranftl, T.Brox, and T. Pock, Techniques for Gradient based Bilevel Optimization with NonsmoothLower Level Problems. Preprint, 2016.
[20] Z. Wang, Y. Yang, S. Chang, J. Li, S. Fong and T. Huang, A JointOptimization Framework of Sparse Coding and Discriminative Clustering, IJCAI, 2015.
[21]  J. Domke, Generic Methods forOptimization-Based Modeling, AISTATS 2012.
[22]  K. G. G. Samuel and M. Tappen. Learning optimized map estimates in continuously-valuedMRF models, CVPR 2009.
[23] Y. Chen, T. Pock, R. Ranftl, and H. Bischof, Revisitingloss-specific training of filter-based MRFs for image restoration, GCPR 2013.
[24] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deepconvolutional network for image super-resolution, ECCV 2014.



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Vision And Learning SEminar    

GMT+8, 2020-10-25 15:36 , Processed in 0.060223 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表