17-28期VALSE Webinar会后总结

程一-计算所 · 发表于 2017-12-8 15:30:24

中科院自动化研究所黄岩博士 2017年12月6日VALSE Webinar 成功举办.

黄岩，助理研究员。2012年获电子科技大学学士学位，2017年获中科院大学博士学位。2017年7月加入中科院自动化研究所模式识别国家重点实验室工作。研究方向为深度学习、计算机视觉与模式识别。目前已在相关领域顶级会议和期刊上发表多篇文章，包括TPAMI, TIP, TMM, NIPS, ICCV, CVPR等。曾获得CVPR 2014-Deep Vision Workshop最佳论文奖、ICPR 2014最佳学生论文奖、RACV 2016最佳墙报奖、中科院院长特别奖、百度奖学金等奖项。

黄岩博士Webinar的题目为：利用多模态注意和视觉属性来增强图像文本匹配.

在报告中，黄岩博士首先回顾了图像文本匹配的研究历程，然后介绍了使用多模态注意机制和视觉属性增强图像文本匹配的新方法。报告收到了听者的广泛关注。

问答部分：

问1：请问,CCA是典型相关分析（统计方法），经过deep learning(神经网络)再次学习之后，和不经过CCA，直接进行神经网络学习有什么区别？有什么优缺点？
答：经过深度网络学习的CCA相当于是联合做特征学习和度量学习，因此学习的特征更适合用于度量学习。

问2：LSTM本来是对时序的数据进行学习，图片有上下文关系，但是没有明确、有语义的时序关系，请问为什么LSTM可以这样做？有什么替代方法么？谢谢
答：LSTM本质上就是相邻词、短语的产生，在这一过程中是基于图像表示作为输入的，因此图像表示可以学习到词之间、短语之间的关联关系。

问3：请问全局的上下文信息是怎么得到的？
答：这里简单的使用CNN最后全连接层输出作为图像的全局上下文信息。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

活动参与方式：
1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过文字或语音与讲者交互；
2、为参加活动，需加入VALSE QQ群，目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237。申请加入时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M
3、为参加活动，请下载安装Windows QQ最新版，群视频不支持非Windows的系统，如Mac，Linux等，手机QQ可以听语音，但不能看视频slides；
4、在活动开始前10分钟左右，主持人会开启群视频，并发送邀请各群群友加入的链接，参加者直接点击进入即可；
5、活动过程中，请勿送花、棒棒糖等道具，也不要说无关话语，以免影响活动正常进行；
6、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；
7、建议务必在速度较快的网络上参加活动，优先采用有线网络连接。