18-25期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-8-20 17:07:45

香港中文大学杨巍博士2018年8月15日VALSE Webinar 成功举办。

杨巍博士于2018年7月在香港中文大学刚通过博士答辩。硕士期间在中山大学林倞实验室发表了一作的CVPR文章。博士期间在顶级计算机视觉顶级会议IEEE CVPR和ICCV发表一作文章4篇，其中一篇是口头报告（oral）的文章。担任过IJCV, PR, TCSVT, CVPR, ICCV, ECCV, IJCAI等主流期刊和会议审稿人。

杨巍博士Webinar的题目为：基于深度学习的人体姿态识别。

在报告中，杨巍博士首先介绍了人体姿态识别的问题定义和问题的挑战。然后针对人体姿态识别的尺度变化大的问题介绍了多尺度的深度模型(PRM)。当前大量网络结构（如ResNext, GoogleNet, Inception v2, Inception v4, DenseNet, PolyNet）使用了多个分支，已有的参数初始化方法不适用于多分支结构的网络结构。针对这个问题，杨博士提出了新的参数初始化方法。在人体姿态识别，语义分割和图像分类中都证明了这些方法的有效性。接着杨巍博士介绍了基于已有的室内图像和3D人体标注，如何利用对抗网络来使用室外只有2D人体标注以得到对室外复杂场景下3D人体姿态进行识别的方法。

问答部分：

问题1：Cifar-10 只有相同尺寸的图片，如何验证Multi-Scale 的算法？

回答：这里的多尺度并非指图像分辨率的不同，而是指图像中目标物体尺度的变化。Cifar 数据集被广泛应用于验证图像分类算法的有效性。在我们的工作中，也用该数据集来初步验证我们提出算法的有效性。

另一方面，由于 Cifar 数据集的图像分辨率过低，数据量有限，为了进一步验证算法有效性，我们在 ImageNet-1K, PASCAL VOC 2012 Segmentation, 以及 COCO detection 等公共数据集上进行了实验，并验证了算法有效性。相关实验结果会在近期公开，欢迎大家持续关注。

问题2：请问你们采用的是top-down还是bottom-up的思路？

回答：在 Posetrack Challenge 2017 中，我们的团队采用的是两者相结合的思路。实现细节可以参考文章：

Towards Multi-Person Pose Tracking: Bottom-up and Top-down Methods（Sheng Jin, Xujie Ma, Zhipeng Han, Yue Wu, Wei Yang, Wentao Liu, Chen Qian, Wanli Ouyang）ICCV PoseTrack Workshop, 2017 .

文章链接：

https://posetrack.net/workshops/iccv2017/pdfs/BUTD.pdf

问题3：请问bottom-up的还有前途么？

回答：Top-down 的方法通常先在图像中检测出人体，然后再使用单人人体姿态估计的方法检测出每个人的关键点。而 bottom-up 的方法通常先检测出图像中所有身体关键点，再将关键点聚集为不同的人体。就目前已发表的文章而言，top-down 的方法在准确率方面比较占有优势，某种程度上得益于目标检测方法和担任人体姿态估计方法的发展。但 bottom-up 的方法如果设计巧妙，是能够获得更优的计算效率的。因此个人认为不能说 bottom-up 的方法没有前途。

问题4：请问多人低分辨率图像可以有什么好的trick？

回答：低分辨率问题在其他视觉任务中也会遇到，因此我们可以借鉴其他任务的经验，如近期的目标检测方法 Zoom Out-and-In Network，通过放大或缩小特征分辨率，来实现多尺度目标检测，这个思路也是可以应用于人体姿态估计问题中。

问题5：所以我可以理解成这个 (3D) 网络就是结合了pose estimation和single image depth prediction么？

回答：可以理解为一个2D pose estimation 的网络再结合了每一个关键点的 depth prediction.

问题6：对于3Dskeleton，现在不使用图片的方法甚至已经刷到了MMJPE 51.9，现在还有往下做的必要吗？

回答：个人感觉现在的数据集背景单一，动作简单，已经出现了过拟合的情况。期待近期会有新的数据集出现。

问题7：对于2Dskeleton来说，对于比较小的图片来说，受限于图片大小检测的效果往往不理想，有没有比较好的解决方法？

回答：这个问题可以参照小物体目标检测的方法。

问题8：openpose是bottom-up的方法， lucewu用的是top-down的，两种方法没什么可比性。而且，刚刚说的是第二组方法是为了单人而设计的，如果强行搞到多人，速度肯定会差很大？

回答：赞同。个人认为不能只通过方法的准确率来评价方法的优劣，而要结合特定的应用场景（是效率优先还是准确率优先）来选择合适的算法。

问题9：在视频人体估计中，如果人体的颜色跟周围的颜色相似，或者人体颜色过暗，应该怎么才处理？

回答：一般这一类情况可以归为 cluttered background. 类似的情况还有背景出现跟人体类似的结构（如人腿旁边有颜色类似的桌子腿）。一般情况下会通过人体的空间几何位置关系的约束来处理。

问题10：在利用视频做pose估计方面有什么建议吗？

回答：一个直观的方向是考虑帧间预测的一致性，以往也有一些用光流等额外信息来辅助视频人体姿态估计的工作，如：

Pfister T, Charles J, Zisserman A. Flowing convnets for human pose estimation in videos[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 1913-1921.

问题11：请问PRM-ABCD有什么区别吗？

回答：PRM-ABCD 的区别在于是否共用输入特征，以及特征融合时是才用相加还是拼接。具体细节及实验分析请参考我们 ICCV 17 的文章：

Learning Feature Pyramids for Human Pose Estimation（Wei Yang , Shuang Li, Wanli Ouyang, Hongsheng Li, Xiaogang Wang）International Conference on Computer Vision (ICCV) 2017

问题12：请问对于检测问题，训练集采用不同分辨率的多尺度图像训练好，还是对于模型进行多尺度的优化比较好？

回答：这两者是可以相结合的，通常来说都会带来结果的提升。

问题13：用depth信息来提升rgb的2D human姿态估计有没有意义或者方法？

回答：深度信息能够简化人体姿态估计的难度，微软的 Kinect 摄像头就能够提供图像深度信息，也有许多工作是在 Kinect 收集的数据集上进行算法的设计和实验的。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

PPT链接：

http://vision.ouc.edu.cn/valse/slides/20180815/Slides%20-%2018-25%20VALSE%20Webinar%20-%202018.8.15%20-%20human-pose-estimation-%20Wei%20Yang%20-%20CUHK.pdf

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：欧阳万里（香港中文大学）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。