17-24期VALSE Webinar会后总结

程一-计算所 · 发表于 2017-11-30 16:04:28

The Johns Hopkins University谢凌曦、上海交大方浩树、马里兰大学韩欣彤、南开大学范登平于2017年10月11日VALSE Webinar 成功举办。

Lingxi Xie obtained his B.E and Ph.D. degree from Tsinghua University in 2010 and 2015, respectively. He is currently a post-doctoral researcher in the Johns Hopkins University. He moved there from the University of California, Los Angeles. From 2013 to 2015, he was a research intern at Microsoft Research Asia. He was a visiting researcher at the University of Texas as San Antonio in 2014. Lingxi has been working on computer vision and multimedia information retrieval, especially in the area of image classification, image retrieval and object detection. He is also interested in the theory and application of deep learning. Lingxi obtained the best paper award on ICMR 2015.

谢凌曦Webinar的题目为： Adversarial Examples for Semantic Segmentation and Object Detection.

It has been well demonstrated that adversarial examples, i.e., natural images with visually imperceptible perturbations added, generally exist for deep networks to fail on image classification. In this paper, we extend adversarial examples to semantic segmentation and object detection which are much more difficult. Our observation is that both segmentation and detection are based on classifying multiple targets on an image (e.g., the basic target is a pixel or a receptive field in segmentation, and an object proposal in detection), which inspires us to optimize a loss function over a set of pixels/proposals for generating adversarial perturbations. Based on this idea, we propose a novel algorithm named Dense Adversary Generation (DAG), which generates a large family of adversarial examples, and applies to a wide range of state-of-the-art deep networks for segmentation and detection. We also find that the adversarial perturbations can be transferred across networks with different training data, based on different architectures, and even for different recognition tasks. In particular, the transferability across networks with the same architecture is more significant than in other cases. Besides, summing up heterogeneous perturbations often leads to better transfer performance, which provides an effective method of black-box adversarial attack.

方浩树，上海交通大学本科生，目前是卢策吾教授领导的MVIG组成员，将于2018年毕业。

方浩树Webinar的题目为：RMPE: Regional Multi-Person Pose Estimation.

在报告中，方浩树同学首先回顾了多人姿态估计的背景及之前常见方法在这一问题上存在的问题。之后介绍了其ICCV论文中提出的基于两步法的新框架。在这一框架中，他分别介绍了空间对称网络和由pose引导的样本生成器来解决单人姿态检测器对人的位置敏感的问题，还介绍了参数化的pose nms来解决额外检测的问题。通过引入这三个组件，RMPE框架能很好地解决多人姿态估计的问题，在MPII和COCO数据集上均取得state-of-the-art的结果。在17年的COCO关键点定位竞赛中，RMPE框架取得优于去年冠军8个mAP的成果。

问答部分：

问题1：在做骨骼检测的时候，遮挡是如何处理的呢？

回答：单人姿态检测器可以处理遮挡问题，它只对居中的人有激活。

问题2：pose nms 两个pose判断是否是同一个人？

回答：通过我们定义的距离函数估计两个pose的距离，当距离小于一定的阈值就认为是一个人。

韩欣彤，2013年获得上海交通大学学士学位，现攻读美国马里兰大学博士学位，主要研究方向是视频/图像概念理解，视频分析，计算机视觉。

韩欣彤Webinar的题目为：Automatic Spatially-aware Fashion Concept Discovery.

在报告中，韩欣彤主要提出了一种自动的具有空间结构化信息的视觉信息概念挖掘方法。通过来自购物网站的弱标注的图像-文本数据，构建图像和语义之间的嵌入式空间关系。然后，对每个文本的属性，生成具有空间结构的表征。这些表征进一步用于把属性聚类成多个小组，进而把视觉-语义陷入式空间分解成多个语义子空间。这个方法可以非常有效地提升结构化浏览和属性反馈式产品检索。实验结果证明了方法的有效性。

问答部分：

问题1：检索时候复杂度？

回答：o(n) 。

问题2：这个是针对检索的应用吗？

回答：1是能实现结构化的concept发现，2是能进行检索。

问题3：属性的位置信息可以获得吗？

回答：是train好joint embedding以后，用了classification map定位属性信息。

问题4：医学领域有类似word2vec类似的word embedding的工具吗？

回答：这是比较general的工具，只要用医学的数据训练，就可以得到可用于医学的工具。

问题5：只能同时看两个属性吗？

回答：2D只能看2个属性，主要看visualization方法。

问题6：颜色的种类支持多少种？比如只是简单的常见的pink等支持更细的颜色吗？比如橄榄绿、草木绿

回答：和训练数据有关。

问题7：是对什么进行聚类，图片不是已经有了每个label吗，

回答：是对concept进行聚类，不是对图片进行聚类。

问题8：请问步骤1和3的CNN基本结构有何特殊要求？实时性如何

回答：没有特殊要求，只要需要在fine tune之前，要加global pooling层。

问题9：请问数据是从哪里爬取得？

回答：是一个美国Lyst.com 网站。

问题10：这个heatmap图计算处的是图片的显著性图？

回答：可以得到针对短袖的针对性显著性图。

问题11：embedding不是图片和属性的embedding嘛，为什么还要再对属性进行聚类？

回答：如果只有embedding，是做不到结构化属性embedding的。

问题12：目前可以针对中文描述吗？

回答：如果有中文word2vec，是可以实现dataset。

范登平，2015年获得广西师范大学硕士学位，现为天津南开大学博士生，主要研究方向为显著性检测、计算机视觉。

范登平Webinar的题目为：Structure-measure: A New Way to Evaluate Foreground Maps.

在报告中，范登平介绍了一个新的有效而且容易计算的显著性评价指标，可以计算非二值化前景图像之间的结构化相似性。这个方法同时评估了非二值化前景图像和ground-truth之间在区域和目标两个级别的结构化相似性，并用实验证明了上述方法的有效性。

问答部分：

问题1：S-measure可否作为loss函数？

回答：正在做，可以的。

问题3：在一些弱监督的情况，可能没有groundtruth，这时候有没有什么办法能评价获得的foreground map的好坏呢

答：这需要图像质量评价的领域，是未来工作，但是很难作。

问题4：uniform这一项含义是什么？

答：代表均匀含义。

录像视频在线观看地址： http://www.iqiyi.com/u/2289191062

活动参与方式：

1、VALSE Webinar活动全部网上依托VALSE QQ群的“群视频”功能在线进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过文字或语音与讲者交互；

2、为参加活动，需加入VALSE QQ群，目前A、B、C、D、E、F群已满，除讲者等嘉宾外，只能申请加入VALSE G群，群号：669280237。申请加入时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M

3、为参加活动，请下载安装Windows QQ最新版，群视频不支持非Windows的系统，如Mac，Linux等，手机QQ可以听语音，但不能看视频slides；

4、在活动开始前10分钟左右，主持人会开启群视频，并发送邀请各群群友加入的链接，参加者直接点击进入即可；

5、活动过程中，请勿送花、棒棒糖等道具，也不要说无关话语，以免影响活动正常进行；

6、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

7、建议务必在速度较快的网络上参加活动，优先采用有线网络连接。

17-24期VALSE Webinar会后总结

浏览过的版块