18-16期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-6-19 17:56:22

腾讯AI Lab马林博士2018年6月6日VALSE Webinar 成功举办。

Lin Ma is now a Principal Researcher with Tencent AI Lab, Shenzhen, China. Previously, he was a Researcher with Huawei Noah's Ark Lab, Hong Kong from Aug. 2013 to Sep. 2016. He received his Ph.D. degree in Department of Electronic Engineering at the Chinese University of Hong Kong (CUHK) in 2013. He received the B. E., and M. E. degrees from Harbin Institute of Technology, Harbin, China, in 2006 and 2008, respectively, both in computer science. His current research interests lie in the areas of deep learning, computer vision, especially the multimodal deep learning between vision and language.

马林博士Webinar的题目为：Image/video Captioning.

在报告中，马林博士首先用例子生动地介绍了image/video captioning的基本定义，随后介绍了其在计算机视觉任务中的应用和研究方向等。在涉及到image/video captioning的任务中，大多都采用了CNN网络对原视频帧或者原图片进行编码，随后用RNN进行解码后进行有监督的学习。马林博士通过引入ARNet加强RNN输出的隐状态的关联度，联合了编解码网络从而提高了image/code captioning任务的性能。受到dual learning的启发，提出了RecNet，用于从解码器输出的sentence重构出原始视频帧特征向量，同时利用到了前向和反向的信息流，进一步提升了性能。最后，马林博士还介绍了其在Dense Video Caption方向上所做的工作，在进行captioning的同时实现视频帧侯选框的提取，以便定位视频中某个事件发生的开始和结束时刻，并且对视频帧候选框产生自然语言的描述。

问答部分：

问题1：ARNet的base net是否需要预训练吗？

回答：作者做过实验，是需要预训练，然后再进行fine tune可以取得更好的结果。作者也进行过不预训练的实验，提升效果不明显。作者觉得可能是因为整个网络的参数比较多，如果直接端到端的话可能参数太多，训练难以收敛，并且search space太大，因此还是进行分阶段训练比较好。

问题2：ARNet中预训练和fine tune的数据集是一样的吗？

回答：是一样的，数据集都是一样的。其实不应该叫预训练，其实是encoder和decoder上先做一个比较好的结果后再fine tune，可以称之为分阶段训练。

问题3：code是否开源？

回答：ARNet是开源的，相应的地址：

https://github.com/chenxinpeng/ARNet

其他工作还在整理，大概会在CVPR结束后挂到网上。

问题4：Bidirectional SST融合为什么用乘法而不是加法？

回答：作者在实验的过程中也用过加法，但是结果是乘法性能更好点，应该可以有更复杂的方式，可以做更多的尝试。

问题5：增加ARNet会不会带来参数增加，收敛速度怎么样？

回答：对于Encoder和Decoder来说参数是一致的，在ARNET上加了个LSTM肯定会带来参数增加。收敛速度因为做了预训练，因此做fine tune速度和前面是差不多的，所以速度还是不会变慢太多的。

问题6：Image caption的不足有哪些，有哪些未来工作可以做？

回答：目前的模型基本上都是用encoder和decoder来做，如果用了RL可能会有小提升，但是可能出现metric很高但是给出的描述可能还是太朴素，描述的东西太少的情况。作者认为未来可以考虑是否可以做些semantic的处理，比如不只是输出中性信息，还可以输出有些诙谐的带有感情的信息等。

问题7：Video caption和video classify的区别，是否可以借鉴？

回答：可以，两者都是基于video的表示的问题，前者是基于表示进行generation，而后者是discrimination.不管是哪个都要求有很好的video表示能力，因此两者是相辅相成的。对于image captioning, 很多情况下用Inception的cnn网络很多时候比vgg的好，因为就是inception的图像表示能力较好。

问题8：Batchsize是否对ARNET有影响吗？

回答：没有进行实验，未来可以进一步实验，一般来说batchsize越大效果好些。

问题9：是否可以应用前面多个隐状态到ARNet？

回答：做了简单实验，没有比单个的好，但是可能是做的时候不够细致，因为那时候做的补充实验只是简单拼接，作者觉得考虑前面多个隐状态应该是有帮助的。

问题10：ARNet的设计为什么选用另一个LSTM来重构而不是一个多层感知器？

回答：做过实验，但是效果没有不如LSTM，作者觉得是存在动态信息，不能简单用多层感知器处理。

问题11：对于video caption抽取帧是固定还是fine tune的？

回答：在整个过程中都没有fine tune后面的cnn部分而且数据集非常小，因此是固定的。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：沈复民（电子科大）

VODB协调理事：林倞（中山大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。