【VALSE 前沿技术选介 16-25期】Fast Weights to Attend Recent Past 小S
今天要介绍的是一篇 Hinton 二作的论文,《Using Fast Weights to Attend to the Recent Past》[1]。这篇论文与现在很火的 Memory Networks,LSTM,Layer Normalization 都非常有关系。加之之前,与大家分享过最新的一些 Memory Networks 的进展,所以从这篇开始,会分两到三次总体介绍这边的相关工作。
我们知道,经典的 Recurrent Neural Networks(RNN)中,hidden states 就可以被称为一种“memory”,这种 memory 每个 timestep 都改变,像一种短时记忆。而后来改进的 LSTM,更是直接翻译过来中文就是 long short term memory,则更强调一种 memory 的概念,里面因为有了 gate 的设计,可以计算 memory 的一种变化值,一种增量。也就因此,LSTM 比 RNN 能保存相对更多的 memory。这两种 memory 其实在我们神经生物上,都有相对应的概念——也就是短时记忆和长时记忆。短时记忆可以被长时记忆,尽管有”长短“之分,其实只是一种(长期)不需要被记住的记忆和(长期)需要被记忆的区别。也就是说,无论是 RNN 还是 LSTM 中的 memory,都是一种相对改变起来比较缓慢的 memory cell——被这篇论文[1] 称为 slow weights。
即他们采用了 Layer Normalization[2] 的方式来完成最终的 fast weights 网络。这一步被作者指出非常重要。
[1] Jimmy Ba, Geoffrey Hinton, et al. "Using Fast Weights to Attend to the Recent Past". arXiv preprint 2016.
[2] Jimmy Ba, et al. "Layer Normalization". 2015.