18-05期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-3-27 11:16:12

澳大利亚阿德莱德大学刘凌峤老师2018年3月21日VALSE Webinar 成功举办。

刘凌峤，现为阿德莱德大学讲师（lecturer）。他在澳大利亚国立大学取得博士学位。其主要研究兴趣为计算机视觉与机器学习。他在计算机视觉和机器学习顶级会议（如CVPR, ICCV, NIPS, ECCV)以及期刊（如TPAMI, IJCV)上发表论文共30余篇。他于2016年获得由澳大利亚研究理事会颁发的Discovery Early Career Researcher奖。

刘凌峤老师Webinar的题目为：类别标签的语义信息在视觉识别模型中的应用。

在报告中，刘凌峤老师首先回顾了类别标签在传统计算机视觉任务中的使用方式，在一般计算机识别系统里。类别标签仅作为一种区别类与类的标记。而实际上，类别标签也包含了丰富的语义信息。这些语义信息可以被用来帮助识别系统取得更好的性能。针对上述发现的问题，刘老师介绍了如何应用该思路的两个识别系统案例。其中一个用类别标签来提取图像与标签吻合的视觉信息并用来帮助图像搜索。另一个利用类别标签的语义信息来解决视觉关系检测问题。

问答部分：

问题1：第二个工作的实验结果中的Spatial+C方法指的是什么呢?

回答：第二个工作里的spatial+c指的是用spaital feature为特征context based classifier为分类器的方法。

问题2: 您的工作1中，注意力机制如何作用于测试数据？

回答：在工作1中，我们把一个给定标签所对应的词向量带入到网络。网络会完成图像特征的提取，包括示例图像和待测试的图像。一旦特征提取完成，便可以用简单的距离度量比如欧式距离或者cosine angle来做相似性测量。

问题3：老师第一个工作的三部分训练是一起训练的吗还是分开训练的，训练的框架基于tensorflow还是caffe？

回答：三部分是一起end-to-end学的。我们是用pytorch训练的。

问题4：第二个工作的context是怎么利用的，能否再解释一下？

回答：第二个工作中，算法的输入是两个detection bounding box以及detection的结果，要求算法判断这两个bounding box之间的关系。我们会把detection结果所提供的object subject物体类别转换成其对应的词向量送给网络，在网络中生成对应的attention模块参数或者分类器参数。然后做前向运算得到识别结果。

问题5：训练中的词向量怎么准备呢？

回答：我们使用的是网上已经训练好的词向量。

问题6：老师好，对于图像检索问题，要使用标签的语义信息，就必须知道查询图像的标签和类别吧？

回答：原则上是的。但是也可以吧图像标签扩展到其他图像meta信息，比如相关的文本。

问题7：老师好，请问这个类别标签的语义信息可以用在跨媒体检索上吗？应该怎么用？

回答：可以的。以文本到图像的搜索为例。可以在抽取图像特征的时候，也把句子当作语义标签，然后用工作1里面的attention机制来抽取图像特征，之后再把图像和文本特征投到share space上。

问题8：老师您好，multi-attention能否再解释以下？

回答：multi-attention的产生方法为使用多个文本通路产生多个h，然后每一个做一次weighted sum-pooling得到一个图像特征。最后把这些特征串起来。

问题9：老师请问下在分类时语义标签代替one-hot会有好的效果吗？

回答：可以的，在这种情况下，分类器会回归一个类的词向量。这个方法有人考虑过，相关论文为 DeViSE: A Deep Visual-Semantic Embedding Model。

问题10：相似的上下文信息的认为predicate相似，如何做到不相似的上下文信息还可以把他们的predicate输出相似，例如cat playing yarn 与man playing fooball。

回答：如果上下文不相似，则不需要要求他们的predicate classifier相似，比如上面例子中对应的图像应该是不同的。

问题11：刘老师您好，工作1 分类层训练中采用的label是(1,0,0,0,0,...) 还是（1，-1，-1，-1，..),使用这两种标签有什么差别吗？

回答：这两种表示方法没有本质的区别。

问题12：后续工作您觉得还有哪些可挖的点吗？

回答：对于工作1, 可以挖掘的是使用更宽泛的语义标签，比如句子。也可以把dynamic classifier的概念引入来做dynamic fc layer。对于工作2, 比较直接的扩展是把这个方法与比如用CRF或者LSTM的方法结合形成一个完整的visual relationship detection的框架。

问题13：相似的语义信息要怎么保证不混淆呢？

回答：这个问题我具体理解为如果两类的predicate所对应的上下文信息接近时，怎样保证估计的predicate classifier不混淆。由于我们的dynamic classifier里面除了受上下文信息控制的r之外，还有一个静态的classifier。这个classifier可以用来强调不同predicate之间的区分性，保证不混淆。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：杨阳（电子科技大学）

VODB协调理事：禹之鼎（NVIDIA Research）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G、H群已满，除讲者等嘉宾外，只能申请加入VALSE I群，群号：480601274），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。