赋予人工智能记忆的人，带你梳理深度学习核心算法

贾伟中科院合肥 · 发表于 2015-12-14 16:32:45

赋予人工智能记忆的人，带你梳理深度学习核心算法

新智元2015-12-13 21:37

新智元翻译1

来源：Idsia

作者：Jürgen Schmidhuber

翻译：张巨岩

作者介绍：Jürgen Schmidhuber 被称为是赋予人工智能记忆的人，递归神经网络之父，2004 年到 2009 年，担任慕尼黑大学认知与机器人领域的教授，从 1995 年起就在瑞士人工智能实验室 IDSIA 担任负责人。2009至2012年年间，他的研究小组赢得了模式识别和机器学习的八个国际比赛。如今 Jürgen Schmidhuber 创办了 Nnaisense 公司。

注：这篇文章经过了很多同僚的评阅。

1960年-2013年深度学习时间线亮点

[A] 1962年：来自简单细胞和复杂细胞的神经生物学的启示

Hubel和 Wiesel描述了视觉皮层的简单细胞和复杂细胞[18]，它启示了后来的深度人工神经网络框架，这在某些现代屡获殊荣的深度学习系统中仍在使用。

[A0]1965年：第一代深度学习系统

Ivakhnenko和 Lapa [71]公布了，第一款对于深度监督前馈式多层感知器（supervised deep feedforward multilayer perceptrons）的通用而有效的学习算法。1971年的一篇文章描述了一个通过“数据成组处理法（Group Method of Data Handling）”训练的8层深度网络，仍然在新千年中很流行。考虑到一个输入向量的训练集有对应的目标输出向量，层逐渐地增多并通过回归分析训练，接着用一个分离的验证集的帮助改进，正则化被用于淘汰多余单元。每层的单元和层的总数可以在与问题相关的环境中习得。

[A1] 1970 ±10年左右：反向传播

复杂多级非线性可微分的，与NN相关的系统的误差函数和它们的梯度至少从1960早期就开始讨论了，如[56-58,64-66]。在这种系统中的梯度下降可以通过在动态规划风格下（dynamic programming style）[67]来迭代这个古老的链式法则[68,69]（与只是用链式法则简化推倒相比[57b]）。然而，高效误差反向传播（BP）在任意的、可能是稀疏的，类似NN的网络中的使用很显然是第一次被Linnainmaa在1970 [60-61]提出。这也被认为是自动微分的反向模式，向前传播的激活值（activation）本质上等于反向微分计算值的成本（cost）。参见早期FORTRAN代码[60]。比较[62,29c] 和一些与NN有关的讨论[29]，和1981年Werbos [29a,29b]第一个特定NN的高效BP算法。比较[30,31,59]和顺序处理递归神经网络的概括，如[32-34,37-39]，参见自然梯度（naturalgradients）。到了2013年，BP也仍然是重要的深度学习算法。

[A2]1979年：深度新认知器（Deep Neocognitron），权重分享和卷积

Fukushima的深度新认知器框架[19a,19, 40]整合了神经生理学的观点[A,18]并引入了权重分享卷积神经层，还有胜者通吃层（winner-take-all layers）。它与现代屡获大奖的前馈式纯监督以梯度为基础的深度学习系统相似[A11-A12]（但它使用了本地非监督学习规则）。

[A3]1987年：自动编码器框架

Ballard发表了自己关于非监督自动编码器的想法 [35] ，这与2000年后的以非监督预训练为基础的前馈式深度学习系统相关，如[15, A8] 。比较调查[36]和有一定关系的RAAMs[52]。

[A4] 1989年：CNN的反向传播算法

LeCun等人应用的反向传播算法[16, 16a] 到Fukushima的权重分享卷积神经层[A2, 19a, 19, 16] 。这种结合是很多现代在竞争中有优势的前馈式视觉深度学习系统的重要部分。

[A5] 1991年：深度学习根本问题

20世纪90年代早期，实验表明深度前馈式或者递归网络很难通过反向传播训练[A1] 。我的学生Hochreiter发现并分析了其中的原因，原因是梯度突然消失或者梯度膨胀（exploding）引起的深度学习根本问题[3]。比较[4]。

[A6] 1991年：递归神经网络的深度框架

我的第一个递归深度系统（上述提到）[1,2] 通过在非监督情况下的一个深度RNN栈预训练（a deep RNN stack pre-trained in unsupervised fashion），部分克服了根本问题[A5] ，进而加速了后来的监督学习。这是在2000年后有效的深度学习系统，并且也是第一个神经分层时间记忆模型，也是第一个“很深的学习系统”。

[A7] 1997年：监督式深度学习系统（LSTM）

长短期记忆人工神经网络（LSTM RNN）成为第一个纯监督式深度学习系统，如[5-10,12,A9]。LSTM RNN能够学习找到很多之前无法解决的问题的答案。

[A8] 2006年：深信网络（DeepBelief Network）/CNN结果

Hinton 和Salakhutdinov发表了文章，主要着重前馈式NN的非监督预训练来加速后继的监督学习（比较 [A6] ）。这帮助激起了人们关于深度人工网络的兴趣（关键词：受限玻尔兹曼机，深信网络）。同年，通过使用训练模型变形（training pattern deformations）[42, 43]，Ranzato等人的监督式BP训练[A1, A4] 的CNN [A2, A4] 在MNIST 笔迹数字图像数据集基准测试中创下新纪录。

[A9] 2009年：深度学习赢得了第一次竞赛

深度学习赢得了第一次官方国际模式识别竞赛（有秘密测试集）：LSTM RNN同时执行分割和识别 [10, 11] ，在一些2009年ICDAR有联系的笔迹竞赛中取得胜利 [A7] 。

[A10] 2010年：GPUs上的普通反向传播算法产生了优秀的结果

深度但其他方面——没有非监督预训练，无卷积但是有训练模式变形——很标准的神经网络（NN）创下了新的MNIST记录 [17] ，通过一个快速GPU的实现方法 [17]。（一年之后，第一个在MNIST上有人类级别表现的系统产生——MCMPCNN [22, A11]）。

[A11] 2011年：GPU上的MPCNN——第一个超人类表现的视觉模式识别

Ciresan等人介绍了以GPU为基础的监督式最大池化CNN（卷积网络）[21]，今天被大部分（如果不是所有的）在竞争中取得优势的深度神经网络采用。通过使用深而广的多列（Multi-Column，MC）GPU-MPCNN，深度学习系统在视觉模式识别（在秘密的测试集上）上第一次超过人类的表现[25,25a-c]（比人类表现好两倍，比最接近的参赛人工神经网络好3倍，比最好的非神经方法好6倍）。深而广的多列（Multi-Column，MC）GPU-MPCNN是当前深度前馈式神经网络的黄金标准，现在被用于很多应用中。

[A12] 2012年：第一个在物体识别和图像分割上的竞赛的胜利

一个图像扫描[28,28a] GPU-MPCNN [21,A11]成为第一个在大型图片上的视觉物体检测竞赛中获胜的深度学习系统（与仅仅识别或分类相反）：2012年ICPR有丝分裂检测竞赛。一个在电脑视觉社区中流行的MC [A11] GPU-MPCNN变体模型，在ImageNet分类基准测试中创下记录。深度学习系统第一次在纯图片分割竞赛（ISBI 2012）中取胜（又是一个图片扫描GPU-MPCNN）[53,53a,53b]。

[A13] 2013：更多的竞赛和基准测试记录

LSTM创造的TIMIT音素识别新记录 [12] 。使用深度GPU-MCMPCNN的桌面机器在ICDAR中文笔迹识别基准测试（超过3700个类别）中创造了新记录（几乎达到人类表现）[45a]。GPU-MPCNN [54-54b] 赢得了MICCAI2013有丝分裂识别大奖挑战赛。GPU-MPCNN [21] 也帮助取得了在ImageNet分类和PASCAL物体识别 [54e] 中新的最好成绩 [26a] 。更多的竞赛情况在瑞士AI实验室IDSIA和多伦多大学的G.H.的网页中提到。

附作者实验室的成就（非常厉害）

（作为一个机器学习研究人员，我痴迷于合理的信度分配（proper credit assignment））

在2009年，我们的深度学习人工神经网络成为了第一批赢得官方国际模式识别竞赛的深度学习系统（秘密的测试集只有主办方才知道）[A9]；2012年之前，它们共赢了八次[A 12]，包括在第一次大型图片中识别物体的竞赛[54] (at ICPR 2012)和图片分割[53] (at ISBI 2012)。在2011年，它们完成了世界第一个超人类视觉模式识别的结果[A11]。自2012年以来，有了其他的系统的一些变体并赢得了另外的一些竞赛，如[A12,A13]。

然而，深度学习领域研究历史悠久，1965年，Ivakhnenko和 Lapa [71]公布了第一款对于深度监督前馈式多层感知器（supervised deep feedforward multilayer perceptrons）的通用而有效的学习算法。1971年的一篇文章描述了一个通过“数据成组处理法（Group Method of Data Handling）”训练的8层深度网络，这仍然在新千年中很流行。

我自己的第一款深度学习系统要追溯到1991年[1,2]。据我所知，它也是“很深的学习系统”，比深度学习之父Ivakhnenko的那些系统要深度：通过使用非监督预训练来训练很多递归神经网（RNN），它能够在成百上千的非线性操作子（operators）或者神经层上执行信度分配（这样的RNN比标准的前馈式神经元网络更加强大，并能够编码所有的系列输入数据）。

这种基本的想法在今天仍然很流行。每个RNN在非监督情况下训练一段时间来预测下一个输入。从那时起，只有非预期情况下的输入（误差）会传递新的信息并被输入到下一个更高层的RNN中，更高层的RNN会在更慢的、自组织时间尺度上运作。很容易知道没有信息丢失，信息只是得到了压缩（注意到机器学习的很多地方本质上是关于压缩）。经过越来越来深的分层时间记忆模型编码，我们得到冗余度越来越小的输入序列，这在空间（如前馈式神经网络）和时间上压缩了数据。也有连续的变体（continuous variant）[47]。

1993年[2] 的一个古老的具有说明性的深度学习实验对在1200次步骤或者随后的1200个非线性虚拟神经层进行信度分配。然而，初始的、非监督RNN栈的最顶层编码的压缩程度非常高，以至于通过附加监督学习方法的顺序分类成为可能（之前无法成功）。

有一种将高层压缩或者抽取到低层的方式，于是它会部分地折叠分层时间记忆模型。解决方法是重新训练低层RNN来连续模仿（预测）已经训练过的、较慢的、高层RNN的隐藏单元，通过另外附加的可预测性输出神经元[1,2]。这帮助了低层RNN发展成为合适的、很少改变的记忆，这种记忆可能弥补长时间的延迟。

1991的深度学习系统是第一个克服深度学习根本问题的系统，这些问题由我的第一位学生（现在是教授）Sepp Hochreiter识别并分析出来：梯度突然消失或膨胀（explode）问题 [3, 4, 4a, 5A]。后者促成了我们后续在20世纪90年代和21世纪的所有深度学习研究。

通过监督式深度学习LSTM RNN（1997）（例如，[5,6,7,A7]），我们能够最终得到与1991年系统[1, 2]相似的成果，克服了没有任何非监督预训练的深度学习根本问题。另外，LSTM通过the partially unsupervised 1991 chunker [1,2]，也能够学习无法习得的任务。

特别成功的例子是很多通过CTC（Connectionist Temporal Classification）[8]训练的LSTM RNN。2009年有了更快的计算机，并通过我的PhD学生和博士后的工作，如Alex Graves [10]，这成为第一个在官方国际模式识别竞赛中取胜的RNN系统[A9]。据我所知，这也是有史以来第一个深度学习系统（递归与否）赢得这样的竞赛。（事实上，它在三种不同语言有联系的笔迹（connected handwriting）方面赢得了3个不同的ICDAR 2009竞赛，如[11,A9,A13]）。Alex随后去了Geoffrey Hinton的实验室（多伦多大学），在那里我们很多双向LSTMRNN[7]也打破了著名的TIMIT语音识别的记录[12,A13]，尽管之前花费了很多时间在HMM为基础的语音识别研究。CTC-LSTM也第一次在NIST's OpenHaRT 2013评估中帮助评分。在2015年，大型IT公司（谷歌、微软、IBM、百度等等）也用了我们的递归神经网络（特别是LSTM）来提高语音识别、机器翻译、图片捕捉生成、语法分析（syntactic parsing）、文本到语音合成、图片实时谈话头像（photo-realtalking heads）、韵律检测（prosody detection）、视频到文本翻译等等很多其他重要的应用。例如，谷歌发表博文描述了我们的以CTC为基础的LSTM极大的改善了Google Voice（提高了49%）；现在已经在10亿用户的手机中使用了。

著名企业也对这样的分层时间记忆模型很感兴趣。[13, 14]

古老的术语“深度学习”第一次引入到机器学习上是通过Dechter（1986），引入到人工神经网络（NNs）中则是通过Aizenber等人（2000）。后来，它因为深度神经网络而变得特别流行，深度神经网络是最成功的深度学习算法，虽然它的历史更悠久，要向前追溯半个世纪。在2006年，在使用非监督预训练和较不通用的前馈式网络的时代背景下，一个深度学习系统

在“MNIST笔迹数据”这一机器学习中最著名的基准测试[16]中，达到了1.2%的错误率。我们的团队接着展现了在GPU上的、古老但好用的向后传播算法（训练模式扭曲（distortion）但是没有任何非监督预训练），能够提高三倍，将错误率降到0.35%[17, A10]——在那时，这是一个世界纪录（之前标准的网络达到了0.7%；一个反向传播训练（backprop-trained）的卷积神经网络得到了0.39%；除了小的眼跳式的翻译（small saccadic eye movement-like translations）以外，没有扭曲（distortion）的普通的反向传播算法得到了0.95%的准确率）。接着我们替换了我们的标准网络，使用了一个生物学上看起来很合理的框架，这在当时是受到了早期与神经科学相关工作[19a,18,19,16]的启示：深度的，广泛GPU为基础的多列最大池化CNN（Deep and Wide GPU-based Multi-Column Max-Pooling CNN ，MCMP CNN）[19,16,23]，辅以反向传播为基础的、权重分享的卷积层[19,16,23]和赢家通吃的[19a,19]最大池化层[20,24,50,46]（参见55）。MCMPCNN是MPCNN [25a]的决策委员会，它使用了简单的民主输出平均策略（与早期更复杂的组合起来的学习器方法相比[48]）。物体识别[54,54c,54a,A12]和图像分割受益于快速以MPCNN为基础的图像扫描方法[28,28a]。我们的监督GPU-MCMPCNN是在官方国际竞赛（主办方才知道秘密测试集数据）中第一个完成超人类表现的方法[25,25a-c，A11]（与[51]相比），并且在MNIST测试集上是第一个能够与人类竞争的表现[22]。自从2011年之后，它也在常规基础上赢得了很多其他的竞赛[A11-A13]。

我们的GPU-MPCNN[21，A11]被多伦多大学、斯坦福大学和谷歌等采用，如[26,27,A12,A13]。苹果公司，著名智能手机制造商，雇佣了UeliMeier，他是我们赢得ICDAR 2011中国笔迹比赛[11,22]的深度学习小组中的一员。ArcelorMittal，是世界顶级钢铁制造商，使用我们的方法来进行材料缺陷检测，例如[28] 。我们技术最重大的应用是生物医学图像的应用[54]，如癌症诊断或者CT心脏扫描的斑块检测。其他的用户包括一家领军汽车供应厂，和如Deepmind公司，该公司的一个共同创始人是在我们的实验室中受训的PhD之一。

值得注意的是，自2009年之后，众多国际比赛中最成功的深度学习算法是对一个超过40岁算法的使用和延伸[A9-A13]，也就是，Linnainmaa（1970）的监督式高效反向传播算法[A1,60,29a]（与[30,31,58,59,61]相比）或者RNN的BPTT/RTRL方法，如[32-34,37-39]。特别的，在2013年，最先进的前馈式网络是对两种古老概念的以GPU为基础的多列结合：向后传播[A1]应用于类认知机的卷积框架中[A2]（这包括了最大池化层[20,50,46]而不是备选的本地赢者通吃方法[local winner-take-all methods]）。（另外还有来自20世纪90年代和21世纪的技巧，如[41a,41b,41c]）。在很不同的深度递归案例中，监督式系统也作为主导，如[5,8,10,9,39,12,A9,A13]。

特别地，大部分获得大奖的或者保持基准测试记录的深度学习系统现在正使用在我们实验室开发的两种监督方法之一：（1）用CTC（2006）[8]训练的递归LSTM（1997）[A7]，或者（2）前馈式GPU-MPCNN[2011] [21, A11]。然而，在很多应用中，结合两个世界的最好方法——监督学习和非监督预训练——仍然是最有优势的，如在以上描述的1991年的我的系统[1, 2, A6]中。

参考文献

[1] J. Schmidhuber. Learning complex,extended sequences using the principle of history compression, NeuralComputation, 4(2):234-242, 1992 (based on TR FKI-148-91, 1991).

[2] J. Schmidhuber. Habilitation thesis,TUM, 1993. PDF. An ancient experiment with credit assignment across 1200 timesteps or virtual layers and unsupervised pre-training for a stack of recurrentNN can be found here - try Google Translate in your mother tongue.

[3] S. Hochreiter. Untersuchungen zudynamischen neuronalen Netzen. Diploma thesis, TUM, 1991 (advisor J.S.)

[4] S. Hochreiter, Y. Bengio, P. Frasconi,J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learninglong-term dependencies. In S. C. Kremer and J. F. Kolen, eds., A Field Guide toDynamical Recurrent Neural Networks. IEEE press, 2001.

[4a] Y. Bengio, P. Simard, P. Frasconi.Learning long-term dependencies with gradient descent is difficult. IEEE TNN5(2), p 157-166, 1994

[5] S. Hochreiter, J. Schmidhuber. LongShort-Term Memory. Neural Computation, 9(8):1735-1780, 1997.

[6] F. A. Gers, J. Schmidhuber, F. Cummins.Learning to Forget: Continual Prediction with LSTM. Neural Computation,12(10):2451--2471, 2000.

[7] A. Graves, J. Schmidhuber. Framewisephoneme classification with bidirectional LSTM and other neural networkarchitectures. Neural Networks, 18:5-6, pp. 602-610, 2005.

[8] A. Graves, S. Fernandez, F. Gomez, J.Schmidhuber. Connectionist Temporal Classification: Labelling UnsegmentedSequence Data with Recurrent Neural Networks. ICML 06, Pittsburgh, 2006.

[9] A. Graves, M. Liwicki, S. Fernandez, R.Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for ImprovedUnconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysisand Machine Intelligence, vol. 31, no. 5, 2009.

[10] A. Graves, J. Schmidhuber. OfflineHandwriting Recognition with Multidimensional Recurrent Neural Networks.NIPS'22, p 545-552, Vancouver, MIT Press, 2009.

[11] J. Schmidhuber, D. Ciresan, U. Meier,J. Masci, A. Graves. On Fast Deep Nets for AGI Vision. In Proc. FourthConference on Artificial General Intelligence (AGI-11), Google, Mountain View,California, 2011.

[12] A. Graves, A. Mohamed, G. E. Hinton.Speech Recognition with Deep Recurrent Neural Networks. ICASSP 2013, Vancouver,2013.

[12a] T. Bluche, J. Louradour, M. Knibbe,B. Moysset, F. Benzeghiba, C. Kermorvant. The A2iA Arabic Handwritten TextRecognition System at the OpenHaRT2013 Evaluation. Submitted to DAS 2014.

[13] J. Hawkins, D. George. HierarchicalTemporal Memory - Concepts, Theory, and Terminology. Numenta Inc., 2006.

[14] R. Kurzweil. How to Create a Mind: TheSecret of Human Thought Revealed. ISBN 0670025291, 2012.

[15] G. E. Hinton, R. R. Salakhutdinov.Reducing the dimensionality of data with neural networks. Science, Vol. 313.no. 5786, pp. 504 - 507, 2006.

[16] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Backpropagation Applied toHandwritten Zip Code Recognition, Neural Computation, 1(4):541-551, 1989.

[16a] Y. LeCun, B. Boser, J. S. Denker, D.Henderson, R. E. Howard, W. Hubbard and L. D. Jackel: Handwritten digitrecognition with a back-propagation network. Proc. NIPS 1989, 2, MorganKaufman, Denver, CO, 1990.

[17] Dan Claudiu Ciresan, U. Meier, L. M.Gambardella, J. Schmidhuber. Deep Big Simple Neural Nets For Handwritten DigitRecognition. Neural Computation 22(12): 3207-3220, 2010.

[18] D. H. Hubel, T. N. Wiesel. ReceptiveFields, Binocular Interaction And Functional Architecture In The Cat's VisualCortex. Journal of Physiology, 1962.

[19] K. Fukushima. Neocognitron: Aself-organizing neural network model for a mechanism of pattern recognitionunaffected by shift in position. Biological Cybernetics, 36(4): 193-202, 1980.Scholarpedia.

[19a] K. Fukushima: Neural network modelfor a mechanism of pattern recognition unaffected by shift in position -Neocognitron. Trans. IECE, vol. J62-A, no. 10, pp. 658-665, 1979.

[20] M. Riesenhuber, T. Poggio.Hierarchical models of object recognition in cortex. Nature Neuroscience 11, p1019-1025, 1999.

[20a] J. Schmidhuber. A local learningalgorithm for dynamic feedforward and recurrent networks. Connection Science,1(4):403-412, 1989. PDF. HTML. Local competition in the Neural Bucket Brigade(figures omitted).

[21] D. C. Ciresan, U. Meier, J. Masci, L.M. Gambardella, J. Schmidhuber. Flexible, High Performance Convolutional NeuralNetworks for Image Classification. International Joint Conference on ArtificialIntelligence (IJCAI-2011, Barcelona), 2011.

[22] D. C. Ciresan, U. Meier, J.Schmidhuber. Multi-column Deep Neural Networks for Image Classification. Proc.IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012, p 3642-3649,2012.

[23] Y. LeCun, Y. Bottou, Y. Bengio, P. Haffner.Gradient-based learning applied to document recognition. Proceedings of the IEEE,86(11):2278-2324, 1998

[24] S. Behnke. Hierarchical NeuralNetworks for Image Interpretation. Dissertation, FU Berlin, 2002. LNCS 2766, Springer2003.

[25] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. Multi-Column Deep Neural Network for Traffic Sign Classification.Neural Networks 32: 333-338, 2012.

[25a] D. C. Ciresan, U. Meier, J. Masci, J.Schmidhuber. A Committee of Neural Networks for Traffic Sign Classification.International Joint Conference on Neural Networks (IJCNN-2011, San Francisco),2011.

[25b] J. Stallkamp, M. Schlipsing, J.Salmen, C. Igel. INI Benchmark Website: The German Traffic Sign RecognitionBenchmark for IJCNN 2011.

[25c] Qualifying for IJCNN 2011competition: results of 1st stage (January 2011)

[25d] Results for IJCNN 2011 competition (2August 2011)

[26] A. Krizhevsky, I. Sutskever, G. E.Hinton. ImageNet Classification with Deep Convolutional Neural Networks. NIPS25, MIT Press, 2012.

[26a] M. D. Zeiler, R. Fergus. Visualizingand Understanding Convolutional Networks. TR arXiv:1311.2901 [cs.CV], 2013.

[27] A. Coates, B. Huval, T. Wang, D. J.Wu, Andrew Y. Ng, B. Catanzaro. Deep Learning with COTS HPC Systems, ICML 2013.

[28] J. Masci, A. Giusti, D. Ciresan, G.Fricout, J. Schmidhuber. A Fast Learning Algorithm for Image Segmentation withMax-Pooling Convolutional Networks. ICIP 2013.

[28a] A. Giusti, D. Ciresan, J. Masci, L.M. Gambardella, J. Schmidhuber. Fast Image Scanning with Deep Max-PoolingConvolutional Neural Networks. ICIP 2013.

[29] P. J. Werbos. Beyond Regression: NewTools for Prediction and Analysis in the Behavioral Sciences. PhD thesis,Harvard University, 1974

[29a] P. J. Werbos. Applications ofadvances in nonlinear sensitivity analysis. In R. Drenick, F. Kozin, (eds):System Modeling and Optimization: Proc. IFIP (1981), Springer, 1982.

[29b] P. J. Werbos. BackwardsDifferentiation in AD and Neural Nets: Past Links and New Opportunities. InH.M. Bücker, G. Corliss, P. Hovland, U. Naumann, B. Norris (Eds.), AutomaticDifferentiation: Applications, Theory, and Implementations, 2006.

[29c] S. E. Dreyfus. The computationalsolution of optimal control problems with time lag. IEEE Transactions onAutomatic Control, 18(4):383-385, 1973.

[30] Y. LeCun: Une procedured'apprentissage pour reseau a seuil asymetrique. Proceedings of Cognitiva 85,599-604, Paris, France, 1985.

[31] D. E. Rumelhart, G. E. Hinton, R. J.Williams. Learning internal representations by error propagation. In D. E.Rumelhart and J. L. McClelland, editors, Parallel Distributed Processing,volume 1, pages 318-362. MIT Press, 1986

[32] Ron J. Williams. Complexity of exactgradient computation algorithms for recurrent neural networks. Technical ReportTechnical Report NU-CCS-89-27, Boston: Northeastern University, College ofComputer Science, 1989

[33] A. J. Robinson and F. Fallside. Theutility driven dynamic error propagation network. TR CUED/F-INFENG/TR.1,Cambridge University Engineering Department, 1987

[34] P. J. Werbos. Generalization ofbackpropagation with application to a recurrent gas market model. Neural Networks,1, 1988

[35] D. H. Ballard. Modular learning inneural networks. Proc. AAAI-87, Seattle, WA, p 279-284, 1987

[36] G. E. Hinton. Connectionist learningprocedures. Artificial Intelligence 40, 185-234, 1989.

[37] B. A. Pearlmutter. Learning statespace trajectories in recurrent neural networks. Neural Computation,1(2):263-269, 1989

[38] J. Schmidhuber. A fixed size storageO(n^3) time complexity learning algorithm for fully recurrent continuallyrunning networks. Neural Computation, 4(2):243-248, 1992.

[39] J. Martens and I. Sutskever. TrainingRecurrent Neural Networks with Hessian-Free Optimization. In Proc. ICML 2011.

[40] K. Fukushima: Artificial vision bymulti-layered neural networks: Neocognitron and its advances, Neural Networks,vol. 37, pp. 103-119, 2013. Link.

[41a] G. B. Orr, K.R. Müller, eds., NeuralNetworks: Tricks of the Trade. LNCS 1524, Springer, 1999.

[41b] G. Montavon, G. B. Orr, K. R. Müller,eds., Neural Networks: Tricks of the Trade. LNCS 7700, Springer, 2012.

[41c] Lots of additional tricks forimproving (e.g., accelerating, robustifying, simplifying, regularising) NN canbe found in the proceedings of NIPS (since 1987), IJCNN (of IEEE & INNS,since 1989), ICANN (since 1991), and other NN conferences since the late 1980s.Given the recent attention to NN, many of the old tricks may get revived.

[42] H. Baird. Document image defectmodels. IAPR Workshop, Syntactic & Structural Pattern Recognition, p 38-46,1990

[43] P. Y. Simard, D. Steinkraus, J.C.Platt. Best Practices for Convolutional Neural Networks Applied to VisualDocument Analysis. ICDAR 2003, p 958-962, 2003.

[44] I. J. Goodfellow, A. Courville, Y.Bengio. Spike-and-Slab Sparse Coding for Unsupervised Feature Discovery. Proc.ICML, 2012.

[45] D. Ciresan, U. Meier, J. Schmidhuber.Transfer Learning for Latin and Chinese Characters with Deep Neural Networks.Proc. IJCNN 2012, p 1301-1306, 2012.

[45a] D. Ciresan, J. Schmidhuber.Multi-Column Deep Neural Networks for Offline Handwritten Chinese CharacterClassification. Preprint arXiv:1309.0261, 1 Sep 2013.

[46] D. Scherer, A. Mueller, S. Behnke.Evaluation of pooling operations in convolutional architectures for objectrecognition. In Proc. ICANN 2010.

[47] J. Schmidhuber, M. C. Mozer, and D.Prelinger. Continuous history compression. In H. Hüning, S. Neuhauser, M. Raus,and W. Ritschel, editors, Proc. of Intl. Workshop on Neural Networks, RWTHAachen, pages 87-95. Augustinus, 1993.

[48] R. E. Schapire. The Strength of WeakLearnability. Machine Learning 5 (2): 197-227, 1990.

[49] M. A. Ranzato, C. Poultney, S. Chopra,Y. Lecun. Efficient learning of sparse representations with an energy-basedmodel. Proc. NIPS, 2006.

[50] M. Ranzato, F. J. Huang, Y. Boureau,Y. LeCun. Unsupervised Learning of Invariant Feature Hierarchies withApplications to Object Recognition. Proc. CVPR 2007, Minneapolis, 2007.

等共74项参考文献

赋予人工智能记忆的人，带你梳理深度学习核心算法

相关帖子