18-20期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-7-26 17:27:44

日本国立信息学研究所助理教授郑银强2018年7月11日VALSE Webinar成功举办。

郑银强，于2013年在东京工业大学取得博士学位。现担任日本国立信息学研究所助理教授，综合研究大学院大学兼职助理教授，并将于今年十月升任副教授。其长期从事三维重建，同时定位和地图构建及光谱成像方面的研究。连续多年在计算机视觉领域重要国际会议（ICCV，CVPR，ECCV）和医学成像领域重要国际会议MICCAI上发表学术论文，总计30余篇。其获邀担任知名国际会议MVA2017和DICTA2018的领域主席。在实用化方面，郑老师已申请日本-美国专利5项，其中4项已经在商业化产品或产品原型中得到应用和实证。

郑银强老师Webinar的题目为：数据驱动、面向光谱重建的最优相机响应曲线的自动选择和设计。

在报告中，郑银强老师首先介绍了光谱数据获取的常用成像方法及其在面对动态场景时的局限性。针对这一问题，基于空间域或者光谱域的部分信息进行完整光谱图重建是近年的研究热点。本次报告着重于后者，即如何通过机器学习的方法从三通道图重建高光谱图并从成像硬件角度来改进重建精度。郑老师以最新提出的一种基于卷积神经网络的重建方法为基础，系统评价了相机响应曲线对于重建精度的影响。接着，通过在重建网络前面加入相机响应曲线的选择网络和设计网络，实现了最优响应曲线的自动选择和自动设计。最后，通过定制干涉滤光片，在物理层面实现了上述最优的响应曲线，并搭建了第一台数据驱动的、面向光谱重建的最优相机原型。

问答部分：

问题1：ICCV17那篇RGB恢复光谱为什么用BRF不用全链接？ECCV18以及后面的光谱重建文章用CNN有什么依据吗？RBG到多光谱的映射感觉应该只跟像素本身有关？

回答：ICCV17的论文是我们组在利用RGB图进行光谱重建的第一个研究工作。鉴于光谱数据已经通过非线性流形降维映射到三维隐空间，在直觉上，建立RGB空间到这个三维隐空间的映射是比较容易的任务，因此，当时只用了BRF浅层神经网络。最近我们主要采用CNN深层网络。除了CNN在计算机视觉各个领域取得巨大成功这个因素以外，我们意识到相机的颜色成像过程其实是一个卷积过程，因此，相机响应曲线的选择和设计等任务都可以在CNN框架下完成，非常优美自然。RGB到光谱的逆映射是欠定的，所以单个像素分别做光谱重建的稳定性较差。CNN中以patch为单位进行重建，这有助于提高重建的稳定性以及局部区域的一致性。

问题2：请问cnn做光谱恢复是把图像裁成多大的patch？是几十还是几百？

回答：目前我们在训练过程中采用随机分块，块的尺寸是几十以内。块尺寸对于重建的影响还没有做完整的评价。

问题3：网络输入是频率数据吗？cnn能处理图像频率数据吗？

回答：在做响应曲线选择和设计时，网络输入和输出时同一张光谱图。

问题4：请问下您说的数据库比较少，但dense net和resnet都比较深度，请问下如何训练处理这个问题，在请教下权重是sparse的是权重sparse还是输出sparse.用TF哪个工具呢？

回答：目前我们采用的网络大概数十层，并不是特别深。同时，深度学习时，训练数据少于网络参数的情况也常常出现。因此，目前数据库少，主要是指图像涉及的光照种类少，场景比较单一。在做响应曲线选择时，我们要求线性组合的权重稀疏。最理想的情形是权重的L0范数为1。尽管我们使用的是L1范数，实际结果表明，权重具有很强的稀疏性和定位指向性。

问题5：请问下有没有基于数据驱动和cnn的结合？

回答：应该说CNN都是数据驱动的。我们认为，数据驱动硬件设计上面，我们是领先的。

问题6：请问下sparse是l1约束，还是类似dropot.剪切权重，请问下重建用了反卷积，和带孔卷积吗？

回答：相机响应曲线选择时，权重是稀疏的，用的L1约束。三通道单个传感器的响应曲线设计时，我们用dropout去构造带马赛克的三通道图。但是，这里不涉及权重及其稀疏性的概念。

问题7：如果加入特征金子塔，融合低到高的特征做重建会不会更好？

回答：我们没有试验过，金字塔结构或许有帮助。

问题8：现在训练好的模型只能重建一种谱下采样得到的数据吗，模型的普适性如何？接着问一下，我指的下采样是下采样谱响应函数？

回答：报告中最先提到的CNN重建网络是针对一个特定的响应曲线。接着，我们评价了不同的响应曲线对于重建精度的影响。在相机曲线选择和设计阶段得到的重建网络，是针对选出来的（或者设计出来的）最优响应曲线的，因此不具有普适性。这也是我们需要做物理实现的原因。

问题10：有考虑用GAN做重建吗？

回答： 原则上来说，GAN也可以用于光谱重建。但是，我们还没有具体的实验结果。

问题11：从已有高光谱库中学习光谱特征，最后根据多光谱图像得到高光谱图像相当于是光谱域的超分辨，空间分辨率对高光谱图像中学习的光谱特征和重建精度的影响大不大？不同空间分辨率下学习得到的高光谱图像光谱特征应该不太一样？

回答：在空间分辨率较低时，会出现一个像素包含多种材料的问题。所以，采用高空间分辨率图像进行训练，然后用低空间分辨率图进行验证，有可能会出现问题。我们也计划在接下来的工作中，对这一问题进行仔细调查。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

PPT下载地址：

http://vision.ouc.edu.cn/valse/slides/20180711/FilterDesign_VALSE_20180711_Zheng.pdf

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：付莹（北京理工大学）

VODB协调理事：左旺孟（哈尔滨工业大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。