【VALSE前沿技术选介16-22期】

程一-计算所 发表于 2016-8-30 17:07:59

http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651123132&idx=1&sn=a35780164f2867bae75d3f508b3a2d79&scene=0#wechat_redirect

【VALSE前沿技术选介16-22期】Excitation Backprop

今天要推荐给大家的是一篇 ECCV 2016 的论文，《Top-down Neural Attention by Excitation Backprop》。论文将过去的 top-down neural attention 成功“泛化”到 probabilistic 版本，并基于此提出并实现了一种叫 contrastive attention 的机制，使得学出来的 attention maps 更加 diverse 和 discriminative。

如上文所述，Top-down neural attention 并不是本文首创。但这个 idea 十分直观，即我们希望能让神经网络在学习过程中的注意力更加有选择性（selective），这种选择性的一种实现就是 top-down，或者说层次化（hierarchical）的——而这种实现也十分贴近我们真正的生物视觉机制。基于此想法被提出的 model 中，就包含了 Seletive Tuning attention model。为了实现这种 top-down 机制，采用了一种 deterministic（相当于 binary）的 Winner-Take-All（WTA）的方法，从而可以选择出与这个 top-down 信号最相关的神经元。

这篇论文的第一个贡献，便是将这种 deterministic 的方法，泛化到了 probabilistic 的版本，使得学出来的 attention map 不再是 binary 的。这种 attention map 其实也可以叫做 soft attention map，它的好处也很明显，就是可以去捕捉更加细微的一些特征和变化等等。这一点，也为这篇论文的第三个贡献，提出的 contrastive attention 打下了基础。

那么先说这种 probabilistic WTA（pWTA) 是怎么实现的。pWTA 用 stochasitc sampling process 建模而成，对于每（某）一个神经元 a_i 和上层神经元 a_j，它就可以通过如下的公式计算它的 Marginal Winning Probability（MWP）。为了计算 MWP，本文提出了 Excitation Backprop 的方法，也算是本文的第二个贡献。这个方法依靠两个假设：（1）对于 activation neuron 来说，他们经过变换偏置和非线性化等等后的 response 是非负的；（2）他们的 response 与他们对于 feature 的感知（detection）是正相关的。有了这个假设，也就自然有了如下的公式：

有了 Excitation Backprop，本文就可以将 pWTA 的计算变成 layer-wise 且非常高效（one-pass）。这个第二个贡献，Excitation Backprop，和第一个贡献 pWTA，共同为第三个贡献提供了可能性。那么接下来要继续说第三个贡献。第三个贡献叫做 contrastive attention。虽然说，有了 pWTA 后得到的 soft attention map 能捕捉更加细微的 feature 和变化，但是有可能捕捉到后的东西会带来干扰信号。比如下面这个例子：

可以看到，因为斑马的信号太强了，使得斑马和大象的 attention map 很相似，导致对于大象的检测会失效。这背后的原因还是有些 neuron 的激活太过于强，使得它永远在 WTA 的过程中获胜（dominant neurons always win）。解决办法很简单……

为啥说 constrastive attention map 依赖于前两个贡献 pWTA 和 Excitation Backprop 呢，因为首先 pWTA 就像一种 normalization，使得相减的一对 map 是合理的（不会出现 scale 啊等等问题）；第二，Excitation Backprop 的假设使得计算后的一对 map 的 contrastive attention 还是正值。
实验部分，这篇论文主要测试了 pointing 这个 task（只要找到 object 但不管指的具体是 object 的哪个部分）。为了给出一些直观的结果，还做了一定的 visualization，如下：

综上，这篇论文的三个贡献，第一个贡献非常直接，将以前工作中的 WTA 泛化到了 pWTA；第二是为了在 CNN 等 NN 架构中计算 pWTA，提出了 Excitation Backprop 方法；第三是基于前两者，提出并实现了 contrastive attention 机制，使得学到的 attention map 更加 diverse 和 discriminative。

References:
Jianming Zhang, Zhe Lin, Jonathan Brandt, Xiaohui Shen, Stan Sclaroff. "Top-down Neural Attention by Excitation Backprop". ECCV, 2016. (oral)
Tsotsos et al. "Modeling Visual Attention via Selective Tuning". Artificial Intelligence, 1995.

页: [1]

VALSE's Archiver

【VALSE前沿技术选介16-22期】