http://mp.weixin.qq.com/s?__biz= ... 79b963b1dccce0e8#rd
今天给大家介绍的两篇文章是来自于百度研究院关于Fine Grained Classification的研究[1, 2]。这两篇文章都关注于怎样使用Attention和Reinforcement Learning来有效定位Fine GrainedClassification中物体的part. 其中[1]只是用了图片的label信息,[2]在[1]的基础上增加了attribute作为监督得到更好的结果。下面将详细介绍这两篇文章的内容。
这两篇文章的基本思想都是想通过attention找到对结果重要的part,然后通过RL算法按顺序选取这样的attention。在[1]中,由于只有label作为监督信息,所以下面目标函数中的两项都与分类有关: 其中第二项为标准的cross entropy分类误差,第一项为选择的attention区域的reward,具体定义为: 即在所有N个训练样本,T个选择的区域上expected reward的平均,而expected reward定义为: 这个积分中,第一项为选择A_{n, t}区域为当前attention的概率,第二项为该区域对应的reward。这些目标函数的定义比较直接。关键的问题在于,如何定义合适的reward函数可以选择到对于最终分类任务有意义的区域,同时避免每次选择到同样的区域?如何优化这个有对不连续变量积分(求和)的目标函数? 对于第一个问题,作者给出了一个递进式的reward定义方式,避免出现多次选择重复区域: 即在第一时刻,选择的区域只要能够分类正确即可,但在以后选择的区域,在分类正确这个要求之上还要求这个区域对应的分类loss要比之前的更低。这也就要求选择的区域要越来越准确。 对于第二个问题,对付这样问题的一个常见解决办法是Monte Carlo积分,即Monte Carlo Policy Gradient(REINFORCE)方法。即按照每个区域被选中的概率采样大量的区域出来,对其对应的reward取平均。这样就可以将枚举积分的形式转换为直接求和的方式。 在测试时,作者首先通过attention网络,找出重要part,然后将part对应的区域crop和resize后再通过CNN进行分类后平均。不过在具体实现中,作者只使用了两步attention近似。实验中,作者在各种fine grained标准数据集上均取得了不错的结果,这里就不再贴过来了,有兴趣的读者可以直接看paper。下面为实际测试的一些结果,可以看到即使两步的attention一般可以抓到判别信息比较强的部分。 在第二篇文章中,作者希望通过更多的监督信息来检测重要的part,即通过每张图片包含的attribute。如下图所示,这里和上一篇文章的结果也做了比较,可以看到使用了attribute后可以抓住更diverse的特征。这个想法和ICCV15中的一篇paper [3]有异曲同工之妙,都是希望通过attribute学习到一些label里不能捕捉的信息。只不过[3]没有使用attention和RL这样的机制实现。
这篇文章在具体实现上将part localizer和最终的label classifier分为两步实现。首先通过预测attribute预测part localizer,然后将不同part的feature和global feature连接在一起训练label classifier来预测最终的label。因此reward也做出相应的改变:由于很难从一个part预测出所有的attribute,所以作者对reward的标准进行了放宽:只要loss小于当前batch平均loss的一半或是在当前batch top k小的都可以reward设置为1。不过在这里去掉了第一篇文章里的递进关系,我个人比较疑惑这样定义reward的话为何不直接定义更为直接的label,RL的作用又在哪里?最后算法依旧在标准数据集上进行了测试,在part localization和fine grained classification两个任务上都取得了一定的改进。
综上所述,这两篇文章在通过attention和RL这个方向做part localization做出了很有益的尝试,不过文中reward定义的方式比较tricky,还有在实验中与weakly supervised类算法的对比上并不充分,不过瑕不掩瑜,这两篇文章还是提供了很好的思路。这个思路对于很多常见的weakly supervisedlearning的任务也是有很大借鉴意义,希望在不远的未来看到更多的尝试。
[1] Liu, X., Xia, T., Wang, J., & Lin, Y. (2016). FullyConvolutional Attention Localization Networks: Efficient Attention Localizationfor Fine-Grained Recognition. arXiv preprint arXiv:1603.06765.
[2] Liu, X., Wang, J., Wen, S., Ding, E., Lin, Y.(2016) Localizingby Describing: Attribute-Guided Attention Localization for Fine GrainedRecognitionarXiv preprint arXiv: 1605.06217
[3] Yang, S., Luo, P., Loy, C. C., & Tang, X. (2015). Fromfacial parts responses to face detection: A deep learning approach. In ICCV2015
|