【VALSE前沿技术选介16-05期】

程一-计算所 · 发表于 2016-3-8 13:31:26

http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=402128283&idx=1&sn=367ce76b31f0ecc3e1c01493af49c250#rd

【VALSE前沿技术选介16-05期】

今天要介绍的这篇论文很 neat，也很 work（亲测有效）。众所周知，RNN 在很多时候的效果不如 LSTM，比如对于 long-term information 的建模；其次，RNN 的 training 也相对不稳定。这篇文章就是提出了一种 additional loss penalty，加在 RNN 本身的 cost function 中就可以。这种 loss penalty 因为是针对 memory 的 activation 的，同时又是 norm 的形式，所以它们给这种 penalty 起名叫 norm-stabilizier，而论文标题也起作《Regularizing RNNs by Stabilizing Activations》。

说了半天，不如先来看看到底是怎样的一个 penalty/cost。 QQ截图20160308132841.png

这个 cost 形式很简单，其实就是针对两次相邻的 hidden activations 的 norm 做了 regularization。但是这个看似简单的甚至有点 heuristic 的 penalty 却并不是完全拍脑袋想出来的。它主要来自于作者的一个观察和一个思考。第一个观察是，既然大家都知道 LSTM 相对 RNN 稳定一点，performance 好一点，那么是为什么呢？于是他们把 LSTM 的 memory cells 给 study 了一下，发现虽然理论上 LSTM 的 cell norm 应该是可以随着 timestep 一直增长的，但是实际上并没有！也就是说 during training, 似乎保持一种 norm stability 是 LSTM 表现好的秘诀。与此同时，他们有另一个思考。虽然 stability 是很早就被研究者们注意到的秘诀，但是究竟是 hidden state 保持 stability 好呢还是 transition matrix 保持 stability 呢？是 state representation 自身保持 stability 好呢还是其 norm 形式保持 stability 好呢？为此，他们认为还是直接在 hidden activation 上保持 norm stability 好。

说到这里就不得不提其他的去优化 RNN 表现的工作。首先是，一些工作中，直接对于 activation 进行了其他方面的 regularization，比如 Baidu Research Lab 在大规模 Speech 任务中证实很有效的 clipped ReLU[1]，使得 RNN 的表现超过了 LSTM。但是[1] 和其类似的工作都是直接针对 activation 进行特殊的 regularization，并没有针对 activation 的不同 timestep 之间的 difference，也更不是 norm。另一些相关工作则更相似一点，就是针对 activation 的 difference，之差，进行 penalty；比如 EMNLP 2015 Best paper 之一[2] 中的公式（13）里额外添加的一个针对 memory cell 的 decay regularization。只不过，今天要介绍的这篇工作的作者还是强调，difference of activations 和 difference of norms of activations 有很大的区别——为此他们设计了实验证明这件事情。

在实验部分的 Section 2.2.1 中，他们给出了其他可能的 7种 cost penalty on activations。最后证明还是这种针对 difference of norms of activations 的 cost term 最好。 QQ截图20160308133003.png

这个结论也是侧面印证了他们的观察吧，norm stability 很可能是 LSTM 表现好的秘诀之一。更直观的结果他们也在论文的最后 plot 了出来，可以看到 LSTM 的 memory cell norms 虽然理论上应该持续变大，却一直保持 stability。另外，通过实验，作者发现这种简单的 norm-stabilizier 的 cost term 对于使用 RNN 的 character-level language model 和 TIMIT 的 speech recognition task 都很有帮助。即使是对于 LSTM，额外加入这个 cost term，也会有提升。
QQ截图20160308133046.png

总结来说，这篇论文提出的 additional cost for RNN training，非常有效地避免了 overfitting，甚至在某些时候（实验中）beat 掉了 dropout 等 trick。被 ICLR 2016 accept，值得一试。

[1] Awni Hannun, Carl Case, Jared Casper, et al. Deep Speech: Scaling up end-to-end speech recognition. arXiv preprint 2014.

[2] Tsung-Hsien Wen, Milica Gasic, Nikola Mrksic, et al. Semantically Conditioned LSTM-based Natural Language Generation for Spoken Dialogue Systems. EMNLP 2015.