VALSE

查看: 5018|回复: 0

【VALSE前沿技术选介16-14期】

[复制链接]

124

主题

124

帖子

2260

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
2260
发表于 2016-5-30 10:44:20 | 显示全部楼层 |阅读模式
http://mp.weixin.qq.com/s?__biz= ... 79b963b1dccce0e8#rd

今天给大家介绍的两篇文章是来自于百度研究院关于Fine Grained Classification的研究[1, 2]。这两篇文章都关注于怎样使用Attention和Reinforcement Learning来有效定位Fine GrainedClassification中物体的part. 其中[1]只是用了图片的label信息,[2]在[1]的基础上增加了attribute作为监督得到更好的结果。下面将详细介绍这两篇文章的内容。

这两篇文章的基本思想都是想通过attention找到对结果重要的part,然后通过RL算法按顺序选取这样的attention。在[1]中,由于只有label作为监督信息,所以下面目标函数中的两项都与分类有关:
QQ截图20160530104026.jpg
其中第二项为标准的cross entropy分类误差,第一项为选择的attention区域的reward,具体定义为:
QQ截图20160530104101.jpg
即在所有N个训练样本,T个选择的区域上expected reward的平均,而expected reward定义为:
QQ截图20160530104133.jpg
这个积分中,第一项为选择A_{n, t}区域为当前attention的概率,第二项为该区域对应的reward。这些目标函数的定义比较直接。关键的问题在于,如何定义合适的reward函数可以选择到对于最终分类任务有意义的区域,同时避免每次选择到同样的区域?如何优化这个有对不连续变量积分(求和)的目标函数?
对于第一个问题,作者给出了一个递进式的reward定义方式,避免出现多次选择重复区域:
QQ截图20160530104211.jpg
即在第一时刻,选择的区域只要能够分类正确即可,但在以后选择的区域,在分类正确这个要求之上还要求这个区域对应的分类loss要比之前的更低。这也就要求选择的区域要越来越准确。
对于第二个问题,对付这样问题的一个常见解决办法是Monte Carlo积分,即Monte Carlo Policy Gradient(REINFORCE)方法。即按照每个区域被选中的概率采样大量的区域出来,对其对应的reward取平均。这样就可以将枚举积分的形式转换为直接求和的方式。
在测试时,作者首先通过attention网络,找出重要part,然后将part对应的区域crop和resize后再通过CNN进行分类后平均。不过在具体实现中,作者只使用了两步attention近似。实验中,作者在各种fine grained标准数据集上均取得了不错的结果,这里就不再贴过来了,有兴趣的读者可以直接看paper。下面为实际测试的一些结果,可以看到即使两步的attention一般可以抓到判别信息比较强的部分。
QQ截图20160530104244.jpg
在第二篇文章中,作者希望通过更多的监督信息来检测重要的part,即通过每张图片包含的attribute。如下图所示,这里和上一篇文章的结果也做了比较,可以看到使用了attribute后可以抓住更diverse的特征。这个想法和ICCV15中的一篇paper [3]有异曲同工之妙,都是希望通过attribute学习到一些label里不能捕捉的信息。只不过[3]没有使用attention和RL这样的机制实现。
QQ截图20160530104318.jpg
这篇文章在具体实现上将part localizer和最终的label classifier分为两步实现。首先通过预测attribute预测part localizer,然后将不同part的feature和global feature连接在一起训练label classifier来预测最终的label。因此reward也做出相应的改变:由于很难从一个part预测出所有的attribute,所以作者对reward的标准进行了放宽:只要loss小于当前batch平均loss的一半或是在当前batch top k小的都可以reward设置为1。不过在这里去掉了第一篇文章里的递进关系,我个人比较疑惑这样定义reward的话为何不直接定义更为直接的label,RL的作用又在哪里?最后算法依旧在标准数据集上进行了测试,在part localization和fine grained classification两个任务上都取得了一定的改进。

综上所述,这两篇文章在通过attention和RL这个方向做part localization做出了很有益的尝试,不过文中reward定义的方式比较tricky,还有在实验中与weakly supervised类算法的对比上并不充分,不过瑕不掩瑜,这两篇文章还是提供了很好的思路。这个思路对于很多常见的weakly supervisedlearning的任务也是有很大借鉴意义,希望在不远的未来看到更多的尝试。

[1] Liu, X., Xia, T., Wang, J., & Lin, Y. (2016). FullyConvolutional Attention Localization Networks: Efficient Attention Localizationfor Fine-Grained Recognition. arXiv preprint arXiv:1603.06765.

[2] Liu, X., Wang, J., Wen, S., Ding, E., Lin, Y.(2016) Localizingby Describing: Attribute-Guided Attention Localization for Fine GrainedRecognitionarXiv preprint arXiv: 1605.06217

[3] Yang, S., Luo, P., Loy, C. C., & Tang, X. (2015). Fromfacial parts responses to face detection: A deep learning approach. In ICCV2015



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|Vision And Learning SEminar

GMT+8, 2024-4-19 00:56 , Processed in 0.027785 second(s), 27 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表