从计算模型的角度看,传统的优化和推断把求解过程的自由度约束在少量参数上,在建模中辅以对数据分布的先验知识(如稀疏性,低秩性,隐变量结构等)。深度网络模型则把自由度无限放大,较少使用先验知识(卷积神经网络针对视觉信号的平移不变性引入卷积操作,减少模型参数,可看做使用先验的一个成功例子)。合适的模型规模和参数数量,应由先验和数据量定性地确定:如果先验准确、数据不足,则应该使用添加先验、模型参数较少的模型;如果先验缺乏、数据充足,则可近似视为“样本分布即实际分布”,使用模型参数较多、学习自由度大的模型。此外,注意即使是用大数据做数据驱动(data-driven)训练,加入基于合适先验的模型引导(model-guided)方法也常有益于改善收敛速度和避免特别差的局部最优解。大部分实际问题,需要的是在“数据驱动”和“模型引导”间做平衡取舍,即:既有一定的训练数据量,也有已知的有效先验。深度网络学习与传统模型优化/统计推断方法的融合这类方法,就是为了更好地寻求这一“平衡取舍”的中间路线,建立传统方法和深度学习的一座桥梁。
综上所述,通过将优化算法或统计推断方法展开为递归神经网络,采用数据/任务驱动的方式学习每次迭代(或阶段)的模型参数的方式在机器学习、计算机视觉和图像处理领域正在得到广泛关注。与传统方法相比:(i) 这类方法一般具有更高的计算效率,尤其在测试/推断时,前向网络复杂度通常低于传统迭代解;(ii) 当模型非凸或算法不能收敛至全局最优解时,这类方法可与深度模型的丰富初始化和训练技巧有效结合,往往能够得到更好的解。与现有的一般深度网络模型相比:(i)这类方法能直观地将传统模型中证明有效的先验/约束/正则,引入深度模型、提高其性能(如Wang [8]将图/流形约束引入深度聚类模型)。所获得的模型具有特殊结构,比起一般深度模型天然约束更强,对训练样本量的需求有望减少。(ii) 这类方法可从优化/推断的角度,为深度网络模型本身的结构(ReLU、Pooling等),以及新兴的学习策略(如Residual Learning等)提供新的解释视角。一个更重要的好处,是我们更容易据此按应用需求“定制”新的模型,有望打破用深度模型用如“黑盒子”的困境。因此,希望在后续的研究中,这类方法能够得到更多的关注和研究,并在其它应用领域和真实问题中取得更多的成功。
最后,根据我们自己的理解,针对这一方向的发展给出了一些提议,希望能够得到更为深入的讨论:
(1) 基于模型+算法=网络的策略,对不同的迭代算法加以展开,将会得到不同的网络结构。可否结合特定的问题和数据,采用理论和实验分析等手段,探讨某些模型是否对应于最优的网络结构。
(2) 目前这类方法的学习算法仍然比较简单,大多采用常规的SGD方法,通过引入深度学习中的初始化策略,以及Dropout、Batch Normalization等技术,可能会有助于学习到更高效的模型优化/统计推断网络。
(3) 在目前的浅层模型如稀疏编码、非凸优化等的指导下,设计、解释和学习深度网络,可为发展深度学习模型和算法提供一个新的研究和分析视角。
参考文献:
[1] S. M. A. Eslami, N. Heess, T. Weber, Y. Tassa, K. Kavukcuoglu, and G.E. Hinton, Attend, Infer, Repeat: Fast Scene Understanding with GenerativeModels, Arxiv, April 2016.
[2] S. Zheng, S. Jayasumana, B. Romera-Paredes, Vi. Vineet, Z. Su, D.Du, C. Huang, and P. Torr, Conditional Random Fields as Recurrent NeuralNetworks, ICCV 2015.
[3] K. Gregor and Y. LeCun. Learning Fast Approximations of SparseCoding, ICML 2010.
[4] P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning efficientstructured sparse models, ICML, 2013.
[5] P. Sprechmann, A. M. Bronstein, and G. Sapiro, Learning EfficientSparse and Low Rank Models, IEEE T-PAMI, 2015.
[6] Z. Wang, Q. Ling, and T. Huang, Learning Deep ℓ0 Encoders, AAAI 2016.
[7] Z. Wang, Y. Yang, S. Chang, Q. Ling, and T. Huang, Learning A Deep ℓ∞Encoder for Hashing, IJCAI 2016.
[8] Z. Wang, S. Chang, J. Zhou, M. Wang and T. Huang, Learning ATask-Specific Deep Architecture for Clustering, SDM 2016.
[9] Z. Wang, D. Liu, J. Yang, W. Han, and T. Huang, Deep Networks forImage Super-Resolution with Sparse Prior, ICCV 2015.
[10] Z. Wang, D. Liu, S. Chang, Q. Ling, Y. Yang and T. Huang, D3: DeepDual-Domain Based Fast Restoration of JPEG-Compressed Images, CVPR 2016.
[11] R. Liu, Z. Lin, W. Zhang, and Z. Su, Learning PDEs for image restorationvia optimal control, ECCV 2010.
[12] R. Liu, G. Zhong, J. Cao, Z. Lin, S. Shan, and Z. Luo, Learning toDiffuse: A New Perspective to Design PDEs for Visual Analysis, IEEE T-PAMI,2016.
[13] U. Schmidt and S. Roth, Shrinkage Fields for Effective ImageRestoration, CVPR 2014.
[14] W. Zuo, D Ren, S. Gu, L. Lin, and L. Zhang, Discriminative Learningof Iteration-wise Priors for Blind Deconvolution, CVPR 2015.
[15] W. Zuo, D Ren, D. Zhang, S. Gu, and L. Zhang, LearningIteration-wise Generalized Shrinkage–Thresholding Operators for BlindDeconvolution, IEEE T-IP, 2016.
[16] Y. Chen, Wei Yu, T. Pock, On learning optimized reaction diffusionprocesses for effective image restoration, CVPR 2015.
[17] Y. Chen and T. Pock, Trainable Nonlinear Reaction Diffusion: AFlexible Framework for Fast and Effective Image Restoration, Arxiv 2015.
[18] Y. Chen, R. Ranftl, and T.Pock, Insights into Analysis Operator Learning: From Patch-based Sparse Modelsto Higher Order MRFs, IEEE T-IP, 2014.
[19] P. Ochs, R. Ranftl, T.Brox, and T. Pock, Techniques for Gradient based Bilevel Optimization with NonsmoothLower Level Problems. Preprint, 2016.
[20] Z. Wang, Y. Yang, S. Chang, J. Li, S. Fong and T. Huang, A JointOptimization Framework of Sparse Coding and Discriminative Clustering, IJCAI, 2015.
[21] J. Domke, Generic Methods forOptimization-Based Modeling, AISTATS 2012.
[22] K. G. G. Samuel and M. Tappen. Learning optimized map estimates in continuously-valuedMRF models, CVPR 2009.
[23] Y. Chen, T. Pock, R. Ranftl, and H. Bischof, Revisitingloss-specific training of filter-based MRFs for image restoration, GCPR 2013.
[24] C. Dong, C. C. Loy, K. He, and X. Tang. Learning a deepconvolutional network for image super-resolution, ECCV 2014.