【VALSE前沿技术选介16-22期】

程一-计算所 · 发表于 2016-8-30 17:07:59

http://mp.weixin.qq.com/s?__biz= ... e=0#wechat_redirect

【VALSE前沿技术选介16-22期】Excitation Backprop

今天要推荐给大家的是一篇 ECCV 2016 的论文，《Top-down Neural Attention by Excitation Backprop》[1]。论文[1] 将过去的 top-down neural attention 成功“泛化”到 probabilistic 版本，并基于此提出并实现了一种叫 contrastive attention 的机制，使得学出来的 attention maps 更加 diverse 和 discriminative。

如上文所述，Top-down neural attention 并不是本文[1] 首创。但这个 idea 十分直观，即我们希望能让神经网络在学习过程中的注意力更加有选择性（selective），这种选择性的一种实现就是 top-down，或者说层次化（hierarchical）的——而这种实现也十分贴近我们真正的生物视觉机制。基于此想法被提出的 model 中，就包含了 Seletive Tuning attention model[2]。为了实现这种 top-down 机制，[2] 采用了一种 deterministic（相当于 binary）的 Winner-Take-All（WTA）的方法，从而可以选择出与这个 top-down 信号最相关的神经元。

这篇论文[1] 的第一个贡献，便是将这种 deterministic 的方法，泛化到了 probabilistic 的版本，使得学出来的 attention map 不再是 binary 的。这种 attention map 其实也可以叫做 soft attention map，它的好处也很明显，就是可以去捕捉更加细微的一些特征和变化等等。这一点，也为这篇论文[1] 的第三个贡献，提出的 contrastive attention 打下了基础。

QQ截图20160829155901.jpg

那么先说这种 probabilistic WTA（pWTA) 是怎么实现的。pWTA 用 stochasitc sampling process 建模而成，对于每（某）一个神经元 a_i 和上层神经元 a_j，它就可以通过如下的公式计算它的 Marginal Winning Probability（MWP）。为了计算 MWP，本文提出了 Excitation Backprop 的方法，也算是本文的第二个贡献。这个方法依靠两个假设：（1）对于 activation neuron 来说，他们经过变换偏置和非线性化等等后的 response 是非负的；（2）他们的 response 与他们对于 feature 的感知（detection）是正相关的。有了这个假设，也就自然有了如下的公式：
QQ截图20160829155948.jpg

有了 Excitation Backprop，本文就可以将 pWTA 的计算变成 layer-wise 且非常高效（one-pass）。这个第二个贡献，Excitation Backprop，和第一个贡献 pWTA，共同为第三个贡献提供了可能性。那么接下来要继续说第三个贡献。第三个贡献叫做 contrastive attention。虽然说，有了 pWTA 后得到的 soft attention map 能捕捉更加细微的 feature 和变化，但是有可能捕捉到后的东西会带来干扰信号。比如下面这个例子：

QQ截图20160829160034.jpg

可以看到，因为斑马的信号太强了，使得斑马和大象的 attention map 很相似，导致对于大象的检测会失效。这背后的原因还是有些 neuron 的激活太过于强，使得它永远在 WTA 的过程中获胜（dominant neurons always win）。解决办法很简单……

QQ截图20160829160202.jpg

为啥说 constrastive attention map 依赖于前两个贡献 pWTA 和 Excitation Backprop 呢，因为首先 pWTA 就像一种 normalization，使得相减的一对 map 是合理的（不会出现 scale 啊等等问题）；第二，Excitation Backprop 的假设使得计算后的一对 map 的 contrastive attention 还是正值。
实验部分，这篇论文[1] 主要测试了 pointing 这个 task（只要找到 object 但不管指的具体是 object 的哪个部分）。为了给出一些直观的结果，还做了一定的 visualization，如下：

QQ截图20160829160650.jpg

综上，这篇论文的三个贡献，第一个贡献非常直接，将以前工作中的 WTA 泛化到了 pWTA；第二是为了在 CNN 等 NN 架构中计算 pWTA，提出了 Excitation Backprop 方法；第三是基于前两者，提出并实现了 contrastive attention 机制，使得学到的 attention map 更加 diverse 和 discriminative。

References:
[1] Jianming Zhang, Zhe Lin, Jonathan Brandt, Xiaohui Shen, Stan Sclaroff. "Top-down Neural Attention by Excitation Backprop". ECCV, 2016. (oral)
[2] Tsotsos et al. "Modeling Visual Attention via Selective Tuning". Artificial Intelligence, 1995.

【VALSE前沿技术选介16-22期】

相关帖子