VALSE

查看: 7263|回复: 0

【VALSE前沿技术选介16-19期】

[复制链接]

124

主题

124

帖子

2274

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2274
发表于 2016-7-22 14:48:02 | 显示全部楼层 |阅读模式
http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect




【VALSE前沿技术选介16-19期】Recurrent Highway Networks


好久不见大家。今天给大家推荐的是来自大牛 Jürgen Schmidhuber 的工作,《Recurrent Highway Networks》[1]。另外这篇工作也和曾经将 LSTM 的模型的各种 variant 做横向对比的 LSTM Odyssey[2] 是出自同一个团队。这篇论文为一些在 RNN 方面的 trick 做了理论上的统一,并且提出了一种将 RNN 在与 time 的方向相垂直的 space 方向(论文中采用这个词,但并一定准确)上增加 depth 的新模型——即 Recurrent Highway Networks。一些同学可能已经能从名字中看出端倪,这篇论文就是使用了 Highway Networks[3] 的 architecture 来进行纵向扩展。

那么先说说,我们为什么要让 RNN 做一些纵向上的扩展,这所谓的“纵向”又是什么呢?大家都知道 RNN,是在时间轴上做一种 micro time steps 的 tick 循环,从而有一种 time 方向上的 depth,如果这个我们叫做“横向的” depth。那么这篇论文[1] 则是希望进行与这个方向垂直的,一种 space 方向上的扩展。这个 space 是说,在 recurrent state transition 上增加 depth——为“纵向”的 depth——起名为 recurrence depth。这个 depth 怎么增加呢?就是用 Highway Networks 的方式,增加一个 deep net 去计算从 (h_t, x_t) 到 h_{t+1} 的转移。说到这里,是不是这样做的原因已经很明白了?因为众所周知的 RNN 甚至 LSTM 梯度信息传递的困难,大家总是希望能有更 efficient 或者更 effective 的方式,去把 gradient information flow 在两个 state 之间进行传递。这篇论文[1] 的出发点也是如此。

有了出发点,怎样入手呢?由于这篇论文[1] 的作者曾经对 LSTM variant 做过很深入的研究[2],他们甚至找到了一个比较统一的理论框架,去解读 RNN 这种模型在 gradient information flow 问题上的各种边界情况。他们首先定义了 temporal Jacobian 如下:
然后利用一个叫做 Geršgorin circle theorem (GCT) 的定理,得到了 Jacobian 的 spectral radius、recurrent weight matrix R 和 graident vanishing/exploding 的关系。
虽然这个定理比较生僻,但是图示和 intuitive 的理解很容易。大家甚至可以从 Bengio 在 ICML 2016 Back-to-the-future Workshop 上给的 talk 中获得一些启发。如果我们要稳定地去存储 1 bit information,我们需要做的就是 spectral radius 小于1:
而这又可以和我们的 recurrent transition matrix R 做好关联。多个 spectral radis 小于1 的 matrices 连乘就相当于一个 spectral radius 指数型收敛于0 的 matrix:

于是乎,就像这篇论文[1] 的结论一样,gradient vanishing problem 的出现,就是当我们用一些标准差接近0(zero-mean Gaussian)的方式去为 recurrent transition matrix R 做初始化和使用 L1/L2 weight regularization 的 trick 时,一般就会使得 spectral radius 小于1。而当我们用标准差比较大的方式去做这件事,就正好相反啦,就会出现 gradient exploding problem。那么一个边界情况是啥呢,就是我们正好用 identity matrix(或者 scaled identity matrix)做 R 的初始化,就像[4] 论文提出的那样,这时候 specturm 就更容易落在1这个中心附近,gradient 也就不容易出现 vanishing/exploding。所以稍微总结一下,这个 RNN 的 gradient information flow,是和 recurrent transition matrix R 的 Jacobian eigenvalue 有很大关系的,而这个 eigenvalue 的数值很容易被我们的初始化影响。
但是 eigenvalue 的数值,不只是会被初始化影响,还会在 training 的过程中继续改变呀,所以直接把 R 初始化成 identity matrix(IRNN)的方法,并不能完全保证良好的 gradient information flow。这也是为啥一般这种时候,我们会采用比较小的学习率的原因。所以这篇论文[1] 还是想在除了初始化以外的地方,去改进 gradient information flow 的机制。他们另辟蹊径,在计算 recurrent state transition 时使用 highway networks 做 deep net,并把这种改进的 RNN architecture 叫做 Recurrent Highway Networks(RHN)。如下,一个拥有 recurrence depth = L 的 RHN 层:

这里的 t_l 和 c_l 就是对应 highway networks[2] 中的 transform gate 和 carry gate。


除了上面这种图示,我们还可以把 RHN 与其它常见的 LSTM variant 做对比。个人感觉,当我们的 recurrence depth L=1 时,这个特殊情况的 RHN 与 GRU 非常相似,只不过 GRU 多一个 reset gate。而与 LSTM 相比的话,LSTM 多的是 output gate,以及合并后的 input 和 forget gate,还有一个 output activation function。所以说到这里,RHN 的“优势”和特点就很明显了。首先是,与 highway networks 结合的它,使得它可以将信息无转化的在 hidden state 间传递(carry gate)。第二,它不像 GRU 和 LSTM 一样,需要通过 activation function,而这会带来很大的不同。说完这些 variant 的对比,就不得不说到这篇论文[1] 的不足之处。它和 GRU 以及一些相关 LSTM variant 的区别讨论不足,实验对比也不足。比如在实验部分根本没有加入 GRU。作者在网上承诺将在下一个版本内补上。

接下来就是把刚才利用 GCT 定理的分析和作者提出的 RHN 架构结合在一起的时候啦。作者发现,利用 GCT 定理,RHN 的优点有以下几个:(1)首先就跟 highway networks 一样,RHN 的 transform 和 carry gates 让它变得更灵活一点;(2)这个灵活性是作者认为他们的 RHN 比别人的表现更好的原因。也就是说,当应对复杂的 complex sequences modeling 的时候,它更灵活,又好 training,那不就相当于它的 representation ability 和 optimization ability 都更强么?

最后就是实验啦,实验是它的弱项。对比不够充分,而且在使用的优化方法上也不够有说服力。对比不充分是它没有和非常相似的 GRU 或者 IRNN 做对比。以及它既然对比了 Grid-LSTM,却没有更深入的分析 RHN 和 Grid-LSTM 的区别(甚至没有 cite),实验的结果都是直接 copy 自 Grid-LSTM 的论文。第二是,它的优化方法采用的是 Momentum SGD,而不是 Adam 这些 learning rate 可以调整的优化方法。那么显然,这个对于 RHN 的 optimization ability 比别人更好,是不太有说服力的。

综上,推荐这篇论文的原因主要是它从另一个简单的方式将 RNN 在 recurrence depth 上进行了改造,使得 RNN 的建模更加灵活和强大。但它提出的 RHN 到底多强大,也就是这种改造方法,比起 Grid-LSTM 等相似方法,到底能好出多少,还需要更多的分析和实验。





[1] Julian Georg Zilly, Rupesh Kumar Srivastava, Jan Koutník, Jürgen Schmidhuber. "Recurrent Highway Networks". 2016 arXiv preprint.
[2] Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, Jürgen Schmidhuber. "LSTM: A Search Space Odyssey". 2015 arXiv preprint.
[3] Rupesh Kumar Srivastava, Klaus Greff, and Jürgen Schmidhuber. "Highway networks". arXiv preprint arXiv:1505.00387, 2015.
[4] Q. V. Le, N. Jaitly, and G. E. Hinton. A Simple Way to Initialize Recurrent Networks of Rectified Linear Units. ArXiv e-prints, April 2015.






回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-11-21 23:20 , Processed in 0.019010 second(s), 23 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表