【VALSE前沿技术选介16-22期】
http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651123132&idx=1&sn=a35780164f2867bae75d3f508b3a2d79&scene=0#wechat_redirect【VALSE前沿技术选介16-22期】Excitation Backprop
今天要推荐给大家的是一篇 ECCV 2016 的论文,《Top-down Neural Attention by Excitation Backprop》。论文 将过去的 top-down neural attention 成功“泛化”到 probabilistic 版本,并基于此提出并实现了一种叫 contrastive attention 的机制,使得学出来的 attention maps 更加 diverse 和 discriminative。
如上文所述,Top-down neural attention 并不是本文 首创。但这个 idea 十分直观,即我们希望能让神经网络在学习过程中的注意力更加有选择性(selective),这种选择性的一种实现就是 top-down,或者说层次化(hierarchical)的——而这种实现也十分贴近我们真正的生物视觉机制。基于此想法被提出的 model 中,就包含了 Seletive Tuning attention model。为了实现这种 top-down 机制, 采用了一种 deterministic(相当于 binary)的 Winner-Take-All(WTA) 的方法,从而可以选择出与这个 top-down 信号最相关的神经元。
这篇论文 的第一个贡献,便是将这种 deterministic 的方法,泛化到了 probabilistic 的版本,使得学出来的 attention map 不再是 binary 的。这种 attention map 其实也可以叫做 soft attention map,它的好处也很明显,就是可以去捕捉更加细微的一些特征和变化等等。这一点,也为这篇论文 的第三个贡献,提出的 contrastive attention 打下了基础。
那么先说这种 probabilistic WTA(pWTA) 是怎么实现的。pWTA 用 stochasitc sampling process 建模而成,对于每(某)一个神经元 a_i 和上层神经元 a_j,它就可以通过如下的公式计算它的 Marginal Winning Probability(MWP)。为了计算 MWP,本文提出了 Excitation Backprop 的方法,也算是本文的第二个贡献。这个方法依靠两个假设:(1)对于 activation neuron 来说,他们经过变换偏置和非线性化等等后的 response 是非负的;(2)他们的 response 与他们对于 feature 的感知(detection)是正相关的。有了这个假设,也就自然有了如下的公式:
有了 Excitation Backprop,本文就可以将 pWTA 的计算变成 layer-wise 且非常高效(one-pass)。这个第二个贡献,Excitation Backprop,和第一个贡献 pWTA,共同为第三个贡献提供了可能性。那么接下来要继续说第三个贡献。第三个贡献叫做 contrastive attention。虽然说,有了 pWTA 后得到的 soft attention map 能捕捉更加细微的 feature 和变化,但是有可能捕捉到后的东西会带来干扰信号。比如下面这个例子:
可以看到,因为斑马的信号太强了,使得斑马和大象的 attention map 很相似,导致对于大象的检测会失效。这背后的原因还是有些 neuron 的激活太过于强,使得它永远在 WTA 的过程中获胜(dominant neurons always win)。解决办法很简单……
为啥说 constrastive attention map 依赖于前两个贡献 pWTA 和 Excitation Backprop 呢,因为首先 pWTA 就像一种 normalization,使得相减的一对 map 是合理的(不会出现 scale 啊等等问题);第二,Excitation Backprop 的假设使得计算后的一对 map 的 contrastive attention 还是正值。
实验部分,这篇论文 主要测试了 pointing 这个 task(只要找到 object 但不管指的具体是 object 的哪个部分)。为了给出一些直观的结果,还做了一定的 visualization,如下:
综上,这篇论文的三个贡献,第一个贡献非常直接,将以前工作中的 WTA 泛化到了 pWTA;第二是为了在 CNN 等 NN 架构中计算 pWTA,提出了 Excitation Backprop 方法;第三是基于前两者,提出并实现了 contrastive attention 机制,使得学到的 attention map 更加 diverse 和 discriminative。
References:
Jianming Zhang, Zhe Lin, Jonathan Brandt, Xiaohui Shen, Stan Sclaroff. "Top-down Neural Attention by Excitation Backprop". ECCV, 2016. (oral)
Tsotsos et al. "Modeling Visual Attention via Selective Tuning". Artificial Intelligence, 1995.
页:
[1]