18-08期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-4-16 16:14:32

北京大学施柏鑫教授、南洋理工大学万人杰博士2018年04月11日VALSE Webinar 成功举办。

施柏鑫，分别于2007年、2010年、2013年从北京邮电大学、北京大学、日本东京大学获得工学学士、工学硕士、博士（信息科学与技术）学位。2017年5月入选中组部“千人计划”青年项目，同年11月加入北京大学信息科学技术学院数字媒体所任研究员、博士生导师，“相机智能”课题组负责人。入职北大之前，2013至2016年曾先后在麻省理工学院媒体实验室、新加坡科技设计大学、新加坡南洋理工大学从事博士后研究，2016至2017年曾在日本国立产业技术综合研究所人工智能研究中心任研究员。曾获2015年国际计算摄像学大会（ICCP）第二最佳论文，发表于2015年国际计算机视觉大会（ICCV）的论文作为当年最优秀论文之一（1700选9）被邀请投稿至计算机视觉国际期刊（IJCV）。担任亚洲计算机视觉大会ACCV18、国际机器视觉应用会议MVA17领域主席。

Renjie Wan is currently a fourth-year PhD student from Nanyang Technological University in Singapore, under the supervision of Prof. Alex C. Kot and Prof. Boxin Shi. Prior to that, he received his Bachelor degree from the University of Electronic Science and Technology of China in 2012. His research interest is the computational photography.

施柏鑫教授和万人杰博士Webinar的题目为：A concurrent deep learning model to remove reflections.

在报告中，施柏鑫教授首先介绍了从透过玻璃成像的图像中去除不必要的反射在计算机视觉任务中的广泛应用，回顾了当前领域的主要方法和研究进展。万人杰博士之后介绍了他们在CVPR 2018以及ICCV2017的两个工作。万博士强调了数据驱动的方法在研究现实世界中反射性质的重要性，并介绍了一种并行反射去除的模型。同时为了评价提出方法的有效性，建立了一个大规模评测数据集，展示了在开放场景下不同应用中的有效性。

问答部分：

问题1：在low level深度学习中，保护图像的细节很重要，怎么定量的度量残差图像中的细节？

回答：我们使用SSIM Loss 和L1 Loss来度量残差。

问题2：multi scale 在网络中发挥了什么作用？

回答：第一，在传统的reflection removal以及图像修复的一些方法中，multi-scale的思路已经被广泛的应用，同时也显示出在不同的尺度下的图片会表现出不同种类的特征，受此启发，我们考虑了multi-scale的结构；第二，从效果来看， multi-scale的结构可以节省空间，同时图像变小后也可以减少计算的时间；第三，将图像downsample以后可以增加整体网络整体的感受野(receptive field size)。

问题3：做数据集需要多少时间？

回答：准备材料一个半月，拍摄数据2-3个月，CVPR被拒后又花了一个月补充数据，总计半年时间。

问题4：为什么要加下面的gradient的网络？实验部分有没有证明加上是更好的？

回答：添加gradient的网络主要是为了更好的利用到low-level的信息，将gradient prior嵌入到图像重建的过程中，实验部分证明此设计会加快网络的收敛速度。

问题5：有没有考虑用unsupervised learning 的方法去做reflection removal？

回答：axiv上有一篇使用了unpaired-data 来做reflection removal，但现在现在还没有人用unsupervised learning去做。

问题6：最后的结果好不好有什么具体的数值指标吗，光看图片效果感觉不够？

回答：我们的文章中已经采用了SSIM等指标来进行评价，具体可以参考我们的文章，同时在我们的ICCV2017的文章中有具体讨论，也可以参考。

问题7：在low level深度学习中，如果没有groundtrue图像该怎么办？例如在一些特殊的医学图像中，没有办法获得groundtrue图像？

回答：groundtruth很重要，而如何生成这样的能够模拟出真实环境的图片又是一门非常重要的学问了。目前来看GAN可以部分弥补没有groundtruth的缺陷。

问题8：把背景与反射图总结为三个结构模型（景深内，景深外等），想问如果改变光圈大小，影响景深，会不会改变这个结构？影响了怎么处理？

回答：我们在讨论景深内和景深外这些情况的时候，都是保证背景层的物体永远位于景深范围内，所以改变光圈大小，虽然会改变景深，但是对于背景层的影响较小，对反射物体的影响较大，在我们的假设情况以内也并不会改变我们总结的这个结构。但是由于现实世界的情况比较多样，这些模型并不能够涵盖所有的情况，所以我们才拍摄了这个wildscene 的数据。

问题9：反光会不会对图片的边缘检测有一定的影响？

回答：高光会有影响。Reflection removal这个问题存在的前提是背景的信息多少还存在一些，而在高光部位数值达到255，这个时候其实背景层的信息都不存在了，问题其实也退化成了一个image inpainting的问题。

问题10：混合图像=背景图像+反射图像吗？

回答：混合图像不能简单的等价于背景图像与反射图像的加和，通过观察我们发现这种加和关系还需要在背景图像和反射图像前面乘上某些系数，这个系数一般在每一个位置都是不相同的，但是在一些方法中，为了简化处理往往是为图片选取统一的系数。

问题11：试过使用Resnet作为backbone（骨干）吗？你觉得适合使用ResNet吗？

回答：ICCV2017的paper当中使用了resnet，取得了不错的结果。我们使用过，但是效果没有达到最好。

问题12：loss function 的设计中的系数选取有没有什么原则？

回答：SSIM Loss权重较大，可以使得最后的结果更符合human perception；L1loss权重较小，设置L1Loss的原因，主要是因为单纯使用 SSIM Loss 会导致一定的颜色偏移。

问题13：Loss SSIM+loss L1 和DCgan 的loss对比如何？

回答：我们没有和DCgan对比过。

问题14：是不是应该考虑环境的光照啊？

回答：环境光照这个问题很有意思。如果外面的背景是黑的（例如夜晚），玻璃就会变成一个类似于镜子的情况，反射会变的非常强烈；而如果外面的背景非常明亮（例如白天），反射相对而言就会弱很多。

问题15：gradient inference network 的ground-truth是用什么提取的，sobel算子还是？一张彩色图怎么提取的一通道的gradient map？

回答：我们先将一张彩色图片转换为灰度图片，然后使用matlab的imgradientxy函数得到Gx和Gy。最后的gradient= sqrt(Gx.^2+Gy.^2)。

问题16：之前做显著性检测，考虑过彩色空间的变换，这个您考虑过吗？

回答：RGB换到另外一个色彩空间的这一个想法，我们在deep learning中没有做过。但是我们之前的ICIP中有考虑过颜色空间转换这一个问题，有兴趣的话可以参考。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：朱鹏飞（天津大学）

VODB协调理事：章国锋（浙江大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。