18-10期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-5-4 10:02:43

南京理工大学谢晋教授2018年4月25日VALSE Webinar 成功举办。

谢晋，南京理工大学计算机学院教授，江苏省特聘教授。在西北工业大学获得的学士和硕士学位，在香港理工大学计算机系获博士学位。在加入南理工之前，他在阿布扎比纽约大学担任research scientist。他的研究兴趣包括图像分析、计算机视觉和机器学习。目前，他专注于基于凸优化和深度学习的三维计算机视觉研究，包括三维形状分析，三维物体检测和3D场景理解。他曾在包括CVPR、ECCV、AAAI、ACM MM、IEEE TPAMI、TIP等顶级会议和期刊上发表论文。他曾担任CVPR、ICCV、ECCV、ACM MM、ICPR和ACPR的program committee member，曾担任ACPR 2017的special issue chair，曾担任Pattern Recognition期刊的客座编辑。

谢晋教授Webinar的题目为：Deep learning based 3D shape representation.

在报告中，谢晋教授首先回顾了近年来基于深度学习的三维模型的特征表示方法。三维模型的特征表示一般可分为基于热扩散的表示方法、基于体素的表示方法、基于投影的表示方法。通过引入深度神经网络，谢晋教授对如何抽取基于深度学习的三维模型特征进行了探索，并将其应用到三维模型的检索和匹配问题中。谢教授从不同角度分别提出了三种三维模型的特征表示方法，并通过实验验证了所提出的特征表示方法在三维模型检索和匹配任务中的有效性。

问答部分：

问题1: 老师您好，请问2D和3D shape matching 问题的主要差别在哪？两者在构建descriptor 的时候一些主流的方法都是在考虑哪些特征？

回答: 2D shape 主要是指二维图像的轮廓，3D shape主要是指三维模型。三维模型不同于二维图像的地方在于三维模型只包含有几何结构信息，而没有图像的纹理和颜色信息，也不存在图像的像素值。主流方法都是通过学习的方法来抽取特征，具体抽取哪些特征取决于具体的任务。

问题2: 老师您好，我发现近两年对3D shape matching 研究比较火，而对2D shape的研究比较少，是因为2D shape研究遇到瓶颈了吗？

回答: 3D shape matching本质上是研究三维模型的特征表示方法。最近研究比较多主要是因为三维成像传感器的发展，比如Kinnect和Lidar, 有大量的三维模型产生。同时也有不少应用需求，比如无人驾驶。

问题3: 老师，您好，能讲一下多视角融合有哪些方法吗？

回答: 就三维模型表示而言，多视角融合主要有max-view pooling 和weight-view pooling的方法。

问题4: 请问可以直接用3D Shape 做人脸识别吗？

回答: 有的。但是一般结合3D shape 和二维人脸一起来做。

问题5: 谢老师您好，请问得到model的HKS后是怎么提取高维特征的呢？有没有考虑到HKS输入的序列性问题？

回答: 我是通过HKS来构造直方图来得到三维模型的表示，这样不存在输入序列性的问题。

问题6: HKS主要用于图形学吗？点云大多用什么呢

回答: HKS主要用于三维模型Mesh结构的特征抽取。对点云数据来说，基于深度学习的特征抽取是当下研究的一个热点。

问题7: 谢老师，您好！深度学习这个工具目前主要应用在分割，配准和检索等分类问题，请问在如何应用到网格变形等非分类问题中？

回答: 可以使用VAE或者GAN这类生成模型来做。

问题8: 现在3D shape matching都是把3D模型转为2D多视角去matching的么？有没有直接对3D模型识别的方法么？

回答: 基于热扩散的方法就是直接对三维模型进行matching的。

问题9: 我想问一下，就您自己觉得基于热核特征、体素或投影的三种方法，哪个更有具有优势？基于体素的方法您怎么看？

回答: 三种方法都各有优缺点。基于体素的方法，最大的问题的计算复杂度比较高。

问题10: 目前3D 物体识别，特别是自动驾驶中车辆和行人的物体识别检测中，通常会把点云转换成深度图，利用Faster RCNN图像物体识别的方法来做，有没有可以直接利用3D 数据进行物体分类的。

回答: 有的，参考CVPR18上的文章。

问题11: 请问引入wasserstein距离有什么优点吗？直接用fisher判别分析效果好吗？

回答: 它不仅要计算bin-to-bin的距离还要计算cross-bin的距离，对噪声和outlier 比较鲁棒。我的方法中没有直接用Fisher判别分析，而是通过正则项加到目标函数中。

问题12: 请问常用3d数据集训练一般需要怎样的GPU够用？

回答: 普通的用于深度学习的GPU即可。如果是体素的表示方法，可能需要比较特殊的GPU。

问题13: 请问能介绍一下3D model生成有什么方案吗？

回答: 一般通过体素和投影的方法来生成3D model。

问题14: 怎么解目标函数？有现成的方法吗？

回答: 现有的深度学习工具包， Tensorflow和Pytorch都能自动求导。

问题15: 人脸形状和一般物体最大的不同在于哪里呢？

回答: 人脸形状有固定的结构，而一般物体是没有的。

问题16: 用深度学习去学3D descriptor，对于学出来的descriptor的可解释性，您有什么理解？

回答: 目前基于深度学习的3D descriptor还在探索中，目前还没有看到解释性这一块的研究。

问题17: 请问有些文章里提及的2.5D是指RGBD吗？

回答: 一般是。

问题18: 三维人脸模型中除了深度，曲率还有哪些比较适合于人脸的描述的，据您的了解

回答: 一般是通过深度神经网络来描述人脸特征。

问题19: 3D shape的描述方法，能否转换到2D shape？怎么做？

回答: 由于表示方法不一样，2D shape 可以直接参考图像中的深度特征表示方法。

问题20: 最近的iclr上的球形卷积网络不知道您关注了没，您有什么评价

回答: 这个方法是可以应用到三维形状的特征表示上的。

问题21: 3D shape retrieval之前，是不是先做一些配准会提高性能呢？

回答: 是的。

问题22: 哈希的优化过程怎么求导

回答: 参考基于深度学习的哈希方面的论文。

问题23: 三维人脸形状和一般三维物体形状的区别主要在于哪呢，据此在设计深度网络可能会有什么不同吗

回答: 这个主要取决于具体的任务。

问题24: 请问目标函数的设计如何保证是可微的？

回答: 常用的目标函数比如contrastive loss, 都是可以求导的，至少有subgradient。

问题25: 请问，MVCNN提供的等30度间隔的12个视角图像是怎么生成的？是在他个github上的matlab代码吗，目前有个思路可能需要对比更多视角，但是不知道怎么生成

回答: 通过render的方法生成的，但是这个方法并不能生成任意视角的图像。可以参考其他投影或者render的方法。

问题26: 深度图或者热图，相比于普通灰度或者rgb图，在您的工作中设计网络中有没有什么不同之处，比如pooling尺寸

回答: 没有考虑，这个主要取决于具体的任务。

问题27: 3D物体的局部特征提取有什么好的办法吗？

回答: 有一些手工的特征，比如heat kernel signature, wave kernel signature 都是可以用于3D 物体的局部特征抽取。现在也有不少基于学习的方法来抽取三维物体的局部特征。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：张林（同济大学）

VODB协调理事：张兆翔（中科院自动化所）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399），直播链接会在报告当天（每周三）在VALSE微信公众号和VALSE QQ群发布；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前10分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请勿送花、打赏等，也不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知。