18-01期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-1-16 14:22:27

中国科学技术大学周文罡教授2018年1月10日VALSE Webinar 成功举办.

周文罡，中国科学技术大学副教授，于2011年在中国科学技术大学电子工程与信息科学系获得博士学位，随后在德州大学圣安东尼奥分校计算机科学系开展博士后工作。在计算机视觉与多媒体检索领域共发表学术论文80余篇，其中包括顶级期刊IEEE T-PAMI，IEEE T-IP，IEEE T-MM和计算机视觉顶级会议IEEE CVPR和ACM Multimedia等。先后获ACM ICIMCS 2012最佳论文奖，2013年中科院优秀博士学位论文奖，2016年中国科协青年人才托举工程。担任过IEEE T-PAMI, IEEE T-IP, IEEE T-CSVT, IEEE T-MM, CVPR, ACM MM, ICCV, ECCV等主流期刊和会议审稿人。

周文罡教授Webinar的题目为：数据压缩与处理中结构化建模与学习方法.

在报告中，周文罡教授首先回顾了近年来深度学习在计算机视觉任务中的发展与应用。在大多数情况下，深度学习是在有监督条件下进行的。然而在图像检索领域，由于目标种类数量难以估计，很难预先搜集到足够的训练样本数据。因此，图像检索领域中大多采用从预训练模型中进行激活函数调节的策略。针对上述不足，周文罡教授对伪监督范式下深度学习方法进行探索，并将其应用到图像检索问题中。周教授从不同角度分别提出三种算法，并通过实验验证了所提伪监督深度学习方法在图像检索任务中的有效性。

问答部分：

问题1：CIE方法的收敛性问题?

回答：我们的目标函数无法直接证明其收敛。考虑到我们的方法主要是基于参考特征空间的图像近邻结构来优化修正另外一个特征空间的图像特征表达，我们通过控制最近邻的范围以及特征修正方法（见下一个问题的回答）来限制图像特征修正的范围，这样经过迭代，每个图像的特征向量需要被修正的概率急剧降低，从而在一定程度上保证优化过程的收敛。我们的实验结果（CNN索引表的大小岁迭代次数的变化情况）也验证了这一点。

问题2：CIE特征修正示例中矩阵相乘物理意义？

回答：我们把图像特征向量的每一维想象成一个(virtual) visual word，如果向量的某一维不为0，意味着相应的visual word在这个图像中存在。如果两幅图像在SIFT空间互为最近邻，那么我们要在CNN空间拉近他们，可以通过让他们在CNN 空间共享更多的virtual visual word。基于这个想法，我们可以检查两幅图像的CNN特征在某一维上是不是存在一个为0、一个非0，如果存在的话，则让0的那一项通过加权变为非零。这个策略也可以有效防止对特征的过分修正，对这个方法的迭代优化收敛也是有帮助的。

问题3：SIFT如何生成index matrix?

回答：我们首先训练一个基于SIFT特征的视觉码本。给定一副图像，提取数百甚至数千个SIFT特征，然后对每个特征进行量化，进而将一副图像表达为视觉单词直方图向量，这个向量就构成了SIFT index matrix中的一列。

问题4：Collaborative index embedding (CIE)方法如何处理大规模数据库?

回答：CIE方法的离线计算复杂度介于 O(α∙M)和O(α∙M^2)之间。当图像数据库规模较大时，CIE的离线处理时间会非常长。考虑到CIE方法关注的是图像近邻结构，当图像数据库很大时，可以先用聚类方法将图像数据库分为若干组，控制每组图像的规模，然后在对每组图像进行CIE处理，这样可以在保证精度的同时控制计算复杂度。

问题5：Distance metric learning方法在大规模图像检索中的应用?

回答：在图像检索中，其基本问题是如何度量图像间的相关度，这可分解为图像表征学习和距离测度学习。直观地讲，为提高相关性度量质量，我们可以优化图像标注学习，也可以优化距离测度学习。然而，与其他视觉任务不同，图像检索面对的数据库规模大，对检索相应时间苛刻，因此一般采用简单的距离测度，比如L1距离或L2距离，这样方便通过施加稀疏性约束来引入倒排索引结构。所以，在很多图像检索方法中，相对于距离测度学习，大家一般更关注在图像表征学习上。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。