【VALSE前沿技术选介16-14期】

程一-计算所 · 发表于 2016-5-30 10:44:20

http://mp.weixin.qq.com/s?__biz= ... 79b963b1dccce0e8#rd

今天给大家介绍的两篇文章是来自于百度研究院关于Fine Grained Classification的研究[1, 2]。这两篇文章都关注于怎样使用Attention和Reinforcement Learning来有效定位Fine GrainedClassification中物体的part. 其中[1]只是用了图片的label信息，[2]在[1]的基础上增加了attribute作为监督得到更好的结果。下面将详细介绍这两篇文章的内容。

这两篇文章的基本思想都是想通过attention找到对结果重要的part，然后通过RL算法按顺序选取这样的attention。在[1]中，由于只有label作为监督信息，所以下面目标函数中的两项都与分类有关：

其中第二项为标准的cross entropy分类误差，第一项为选择的attention区域的reward，具体定义为：

即在所有N个训练样本，T个选择的区域上expected reward的平均，而expected reward定义为：

这个积分中，第一项为选择A_{n, t}区域为当前attention的概率，第二项为该区域对应的reward。这些目标函数的定义比较直接。关键的问题在于，如何定义合适的reward函数可以选择到对于最终分类任务有意义的区域，同时避免每次选择到同样的区域？如何优化这个有对不连续变量积分（求和）的目标函数？

对于第一个问题，作者给出了一个递进式的reward定义方式，避免出现多次选择重复区域：

即在第一时刻，选择的区域只要能够分类正确即可，但在以后选择的区域，在分类正确这个要求之上还要求这个区域对应的分类loss要比之前的更低。这也就要求选择的区域要越来越准确。

对于第二个问题，对付这样问题的一个常见解决办法是Monte Carlo积分，即Monte Carlo Policy Gradient（REINFORCE）方法。即按照每个区域被选中的概率采样大量的区域出来，对其对应的reward取平均。这样就可以将枚举积分的形式转换为直接求和的方式。

在测试时，作者首先通过attention网络，找出重要part，然后将part对应的区域crop和resize后再通过CNN进行分类后平均。不过在具体实现中，作者只使用了两步attention近似。实验中，作者在各种fine grained标准数据集上均取得了不错的结果，这里就不再贴过来了，有兴趣的读者可以直接看paper。下面为实际测试的一些结果，可以看到即使两步的attention一般可以抓到判别信息比较强的部分。

在第二篇文章中，作者希望通过更多的监督信息来检测重要的part，即通过每张图片包含的attribute。如下图所示，这里和上一篇文章的结果也做了比较，可以看到使用了attribute后可以抓住更diverse的特征。这个想法和ICCV15中的一篇paper [3]有异曲同工之妙，都是希望通过attribute学习到一些label里不能捕捉的信息。只不过[3]没有使用attention和RL这样的机制实现。

这篇文章在具体实现上将part localizer和最终的label classifier分为两步实现。首先通过预测attribute预测part localizer，然后将不同part的feature和global feature连接在一起训练label classifier来预测最终的label。因此reward也做出相应的改变：由于很难从一个part预测出所有的attribute，所以作者对reward的标准进行了放宽：只要loss小于当前batch平均loss的一半或是在当前batch top k小的都可以reward设置为1。不过在这里去掉了第一篇文章里的递进关系，我个人比较疑惑这样定义reward的话为何不直接定义更为直接的label，RL的作用又在哪里？最后算法依旧在标准数据集上进行了测试，在part localization和fine grained classification两个任务上都取得了一定的改进。

综上所述，这两篇文章在通过attention和RL这个方向做part localization做出了很有益的尝试，不过文中reward定义的方式比较tricky，还有在实验中与weakly supervised类算法的对比上并不充分，不过瑕不掩瑜，这两篇文章还是提供了很好的思路。这个思路对于很多常见的weakly supervisedlearning的任务也是有很大借鉴意义，希望在不远的未来看到更多的尝试。

[1] Liu, X., Xia, T., Wang, J., & Lin, Y. (2016). FullyConvolutional Attention Localization Networks: Efficient Attention Localizationfor Fine-Grained Recognition. arXiv preprint arXiv:1603.06765.

[2] Liu, X., Wang, J., Wen, S., Ding, E., Lin, Y.(2016) Localizingby Describing: Attribute-Guided Attention Localization for Fine GrainedRecognitionarXiv preprint arXiv: 1605.06217

[3] Yang, S., Luo, P., Loy, C. C., & Tang, X. (2015). Fromfacial parts responses to face detection: A deep learning approach. In ICCV2015

【VALSE前沿技术选介16-14期】

相关帖子