18-31期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-10-22 12:23:41

日本奈良先端科学技术大学院大学伍洋博士2018年10月10日VALSE Webinar 成功举办。

伍洋，日本奈良先端科学技术大学院大学，特任助理教授，NAIST国际机器人与视觉联合研究室（与CMU联合创建）实际负责人（科研与运营）。分别于2004年和2010年获得西安交通大学学士和博士学位，师从郑南宁教授（院士）。2007年至2008年获首批CSC公派联合培养奖学金资助于美国宾夕法尼亚大学机器人研究室访学，师从图像分割领域著名模型NCut的创立者Jianbo Shi教授。2011年至2014年在日本京都大学担任日本文部科学省公共安全领域重大产学研结合项目的特任研究员。2014年7月至8月于英国伦敦大学学院大数据研究所任特邀访问学者。2014年12月至今担任现职，在金出武雄(Takeo Kanade)教授的指导下工作。研究方向主要集中在基于图像或视频的内容理解（检测，跟踪与识别），尤其关注与人相关的应用。当前正在从事的研究包括人物身份识别，人与人以及人与机器之间交流与交互的视觉理解，人手和人体的姿态估计，动作和行为识别等。其中人手姿态估计在首届全球公开挑战赛中获得手物交互单项冠军。指导的访问学生的工作获得ICPR 2018 Piero Zamperoni最佳学生论文奖和AutoML2018 Workshop最佳论文奖。

伍洋博士Webinar的题目为：Understanding humans: identity, communication, state, and more.

伍洋博士在本报告中，首先讨论了在日常生活中，机器对人体活动理解的重要性，对近年来的工作进行了一个回顾。人体活动理解大致可以分为identity, communication和state/action三个大方向进行。其中，行人重识别ReID是identity的一个代表分支，目前存在着诸多如视角方向，人体移动，遮挡等主要挑战，提出了利用GAN将不同的投影学习出典范视角类型进行识别，提高了识别性能。在communication和state/action上，伍洋博士团队采集了一个双人交互对话的数据集，其中设置有穿戴式摄像头和固定摄像头等多种传感器对对话双方和交互过程中人体姿态进行数据采集，研究人与人交流过程中人体头部的实时姿态检测与识别，预期将用于盲人视觉理解辅助技术的研发。此外，伍洋博士团队还在研究人手和人体的姿态估计和动作分析等，有多项工作在报告中介绍。

问答部分：

问题1：捕获人的头部运动，头部运动的数据是采用固定摄像头拍摄的吗？

回答：是的，团队也尝试过穿戴式摄像头，但是我们发现要去除摄像头的自运动很复杂，实际视频中甚至会出现对谈者的头部因穿戴者自身头部运动过大而移出穿戴式摄像头成像范围的情况，非常影响相机去除自运动的性能，因此目前的算法实验都是在固定摄像头所拍摄数据上进行的。期待未来可以在穿戴式摄像头的场景中继续努力取得进展。

问题2：关于ReID目前已经有了很多研究工作，您觉得目前的研究难点和未来趋势是什么？

回答：目前已发表的大部分研究还是在标准数据库上比性能，但其实这些研究离实际应用还很遥远。ReID中有很多其他问题很值得研究，比如夜晚用红外相机成像的问题或者人群混杂的情况下的严重遮挡问题等。在研究这些重要问题方面，英国伦敦玛丽女王学院的龚邵刚老师和国内中山大学的郑伟诗老师组的很多工作都很值得参考。另外可以进行跨数据集的迁移学习模型尝试等。

问题3：PN-GAN生成图像的质量有定量衡量指标吗？比如inception score？

回答：最后还是根据人眼的直观感觉进行的，我们目前并没有用定量的指标，因为这个GAN是为后续的reid服务的，我们主要还是用最后的识别效果作为评判标准。当然，从我们的实验中也发现生成的图像的视觉感觉质量越好，往往ReID的效果也更好。所以还是值得去探讨引入定量指标的。

问题4：用GAN做pose生成时，是否仅对图像中的人的pose生成，会不会将图像中其他物体或背景也发生变换？

回答：其他物体也是会跟着变换，比如背着包的人的包。但你会发现有些能够生成有些不能生成，这是因为目前我们的模型设计的时候是没有考虑这些物体的，完全依赖于训练数据本身的特点。比如这样的包经常以这样的姿态出现就容易被生成出来，反之如果这个包在数据中很少出现可能就生成不了。

问题5：某个数据集上训练得到的行人重识别模型在其他数据集上表现很差，您觉得背后的原因是什么呢？

回答：跨数据库的方法现在做的是不太好的。目前原因还是模型过拟合于某些数据库了，而且数据库也比较小。不过最近已经有不少工作在关注这个问题了，比如中科院自动化所组织的ECCV2018上的一个有关ReID的Tutorial，最后就有总结这方面的最新进展。其中有的做得好的跨库模型甚至可以做出比在原数据库上直接训练更好的结果。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

PPT链接：

http://vision.ouc.edu.cn/valse/slides/20181010/Understanding%20humans_20181010_refined.pdf

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：姬艳丽（电子科大）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。