18-12期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-5-14 18:33:13

新加坡南洋理工大学张含望教授2018年5月9日VALSE Webinar 成功举办。

Dr. Hanwang Zhang is Nanyang Assistant Professor at Nanyang Technological University, Singapore. He was a research scientist at the Department of Computer Science, Columbia University, USA and a senior research fellow at the School of Computing, National University of Singapore, Singapore. He has received the B.Eng (Hons.) degree in computer science from Zhejiang University, Hangzhou, China, in 2009, and the Ph.D. degree in computer science from the National University of Singapore in 2014. His research interest includes computer vision, multimedia, and social media. Dr. Zhang is the recipient of the Best Demo runner-up award in ACM MM 2012, the Best Student Paper award in ACM MM 2013, and the Best Paper Honorable Mention in ACM SIGIR 2016. He is also the winner of Best Ph.D. Thesis Award of School of Computing, National University of Singapore, 2014.

张含望教授Webinar的题目为：Towards X Visual Reasoning.

In the talk Dr. Hanwang Zhang introduced the interests of detecting objects and classifying them into a fixed vocabulary of lexicon. With the maturity of these low-level vision solutions, we are hunger for a higher-level representation of the visual data, so as to extract visual knowledge rather than merely bags of visual entities, allowing machines to reason about human-level decision-making. In particular, we wish an "X" reasoning, where X means eXplainable and eXplicit. He first explores three existing topics about 1). visual relationship detection, a fundamental technique for visual knowledge extraction, 2). referring expression grounding, a comprehensive task for object localization, and 3). sequence-level image captioning, a reinforcement learning based image captioning framework with a context-aware policy network that can reason where to look. Then, he look ahead some ongoing research about design-free module network for VQA and scene dynamics for scene graph generation.

问答部分：

问题1：有关最后caption的任务，相当于是在每一步输出句子的时候加入了一定的信息？利用了增强学习的反馈？第三个工作？

回答：增强学习最近在image captioning的任务中有很成功的应用。原因在于句子的生成本质上是一个序列决策过程，比如第一个单词的生成质量会影响整个句子的生成质量。目前基于增强学习的captioning模型只关注在语言决策网络上（language policy network）, 即RNN句子生成网络；而视觉决策网络（visual policy network）还是原先的visual attention机制。我们的工作是让视觉决策网络考虑历史attention纪录，从而能够对生成除名词以外的词汇起到帮助，比如动词，形容词以及量词。

问题2：请问translation embedding提到的subject+relation=object怎么区分同主语不同宾语的情况呢？人+骑=马和人+骑=大象显然是不一样的？

回答：1）主语宾语用了不同的模型参数，所以“人”和“马”搭配与“人”和“大象”搭配不同。2）由于translation有方向性，也会造成不一样。

问题3：请问在应用RL的论文中，rewards是如何定义的？

回答：在image captioning中，reward可以定义为最终生成的句子的评分，比如blue4, meteor, cider和spice等。

问题4：这个和show attend and tell的attention区别在哪里？

回答：同第一个问题。

问题6：现在有好的fusion方法吗？

回答：你应该指的是multimodal fusion。比较常用的有先统一纬度，然后normalize，最后按位相乘或相加；也可以简单的直接拼接起来。没有哪个是最好的，要具体问题具体调试。

问题7：你现在怎么看待从一句话生成相应的图片信息？

回答：目前生成generic类别图片的还是很困难的。具体参见：Jonson et al. Image Generation from Scene Graphs. CVPR’18。

问题8：老师，现在caption还有那些方面可以研究,现在比如在百度用一些关系复杂的句子搜图片还是不准确，这个应该怎么改善,这方面未来就是vqa.然后是推理吗？

还有从句子生成图像，比如李飞飞学生做的那篇，这个对于我们研究生可以做吗？

回答：搜索实质就是Q&A. 当然需要推理。我认为当底层cv技术越来越值得信赖后，大家都会转向推理的。现在做的少，只是因为底层信息还不够鲁棒。从句子生成一般类别的图片是很有意思的工作，当然可以继续做下去。

问题9：现在这个领域对生成速度还不太在意是吗？

回答：我不是专门做生成模型的，不太了解。但我认为在质量不能保证之前，谈速度毫无意义。

问题10：您觉得segmentation的信息可能对relationship的识别有帮助么？

回答：当然有帮助。请你关注今年eccv的person in context workshop.

问题11：视觉推理做用来做hashtag 效果如何

回答：任何复杂的分类问题都需要推理，我认为生成hashtag算是这一类问题。

问题12：visual relation extract后，有应用到其他具体领域么？

回答：目前还没有。主要的原因还是visual relation detection或者是scene graph generation目前效果还不值得信赖，还不能作为下游任务的输入。

问题13：caption最大的缺点什么?_?或者不足有哪些？

回答：最大的缺点还是评测机制很难做到全自动，客观。除了这个我认为没有不足，这个问题还是一个很经典的多模态问题。

问题14：您好，您的工作里有用到视觉注意相关的东西么？

回答：有，visual attention本质上就是视觉推理的一种。Hard attention本质就是决策问题；soft attention可以理解为deterministic sampling。目前来讲，后者比前者效果要好，更稳定。主要原因有两点：1）hard attention问题要用到决策梯度下降(policy gradient)，这个不稳定。2）决策梯度下降要用到好的初始化模型，往往需要用到label，而visual attention没有label。

问题15：视觉推理和传统的符号推理怎样有机地融合？

回答：目前我还没做这方面的研究。但我认为如果要结合符号推理，底层视觉表示必须要足够值得信赖。目前object已经比较值得信赖了，但relation还不是很准。

问题16：explainable的方法有用于visual领域外的case吗？

回答：可以。可解释AI是主要研究问题之一。

问题17：老师，实物之间的relation描述在神经网络是如何获取的，比如“坐”这个动作的学习？是依赖于已有语言模型吗？

回答：我今天讲的relation 模型都是纯视觉模型，不依赖于语言模型。我认为，语言模型或任何外部先验知识，都可以用在视觉模型上，这个不冲突。

问题18：caption评价机制可能的改进方向？

回答：spice已经是比较好的改进了。我认为改进的方向和翻译评价机制的方向一样：信，达，雅。

问题19：请问如何标定雷达生成的图像和摄像头生产的图像？

回答：并不了解。

问题20：scene graph的产生，在训练的时候，subject,relationship,object之间的message passing（dynamic）是如何定义的？

回答：目前的定义方式都是hidden vector，由subject/object和relationship 节点产生（注意，这里relationship不是边，而是节点）。请参见 Xu et al. “Scene Graph Generation by Iterative Message Passing”. CVPR’17. 但是这样的relationship会导致过多的节点。我们目前的工作直接利用relationship作为message，也就是把relationship看成是边。

问题21：目前generation model一般只适用于与fine-graind的数据生成如果要生成多类别的图片有什么好的改进方向吗？

回答：我不是做生成的。不过我认为想要生成一般类别的图片，一定要先生成结构信息，然后再往里面填像素。就像我们写文章一样，要先列提纲，再写具体的内容。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：张姗姗（南京理工大学）

VODB协调理事：张兆翔（中科院自动化研究所）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。