18-26期VALSE Webinar会后总结

程一-计算所 · 发表于 2018-9-13 17:14:29

新加坡国立大学赵健博士2018年08月22日VALSE Webinar 成功举办。

赵健，新加坡国立大学在读博士，于2012年获得北京航空航天大学自动化专业学士学位（导师：董邵鹏，袁梅），于2014年获得国防科技大学计算机科学与技术专业硕士学位（导师：陈旭灿），目前受中国留学基金委资助在新加坡国立大学工程学院电子与计算机工程系LV组攻读博士学位（导师：冯佳时，颜水成）。迄今已发表学术论文20余篇，包括以下顶级期刊/会议：T-PAMI，T-IP，NIPS，CVPR，IJCAI，ECCV，ACM MM，BMVC。曾获得ICCV 2017 MS-Celeb-1M大规模人脸识别Hard Set竞赛、Random Set竞赛与Low-Shot Learning竞赛三项冠军，CVPR 2017 LIP人物解析竞赛与人物姿态估计竞赛两项亚军，美国国家标准技术研究所（NIST） 2017 IJB-A非受限条件下的人脸验证与人脸鉴别两项竞赛冠军。曾担任T-MM，T-IFS，CSSP，NIPS，ACM MM，AAAI，ICLR等本领域主流期刊/会议的审稿人。曾组织CVPR 2018群体场景下人物图像理解Workshop以及相应的细粒度多人解析与姿态估计竞赛。曾担任ECCV 2018计算机视觉紧致、高效特征表示学习Workshop程序委员会成员。其研究领域涉及深度学习、模式识别、计算机视觉与多媒体分析，研究课题主要专注于基于深度学习的人物图像理解的模型与算法研发，应用于人脸识别、图像生成与人物解析。

赵健博士Webinar的题目为：基于深度学习的人物图像理解：人脸识别与人物解析。

在报告中，赵健博士首先介绍了人物图像理解的背景及需求，回顾了近年来深度学习算法和技术在计算机视觉领域的进展和局限。在涉及到视频监控、安防、电子商务、群体行为分析以及自动驾驶等现实场景下，人物图像理解的性能尚不尽如人意。有关问题还需不断付出努力、投入研究，不断做出改进与完善，寻求更优解决方案。为此，赵健博士的研究课题主要专注于基于深度学习的人物图像理解研究，主要分为两个层面展开：人脸识别，用于探索人物的身份信息；人物解析，用于探索人物的细粒度语义信息。对于非受限条件下的人脸识别、对姿态鲁棒的人脸识别以及大规模和小样本条件下的人脸识别问题，赵健博士分别详细讲解了他们提出的有效解决办法，并通过定性的和定量的实验结果验证了所提出的算法在自然场景下进行准确人脸识别的有效性；为了更加精确、详细地进行群体场景下的人物理解，赵健博士及联合作者首次提出多人解析任务、相应的数据集、评测标准与参考方法，并组织了CVPR 2018群体场景下人物图像理解Workshop以及相应的细粒度多人解析与姿态估计竞赛，为业界相关技术的发展与进步做出了突出贡献。同时，对于非实例级人物解析与多人解析问题，赵健博士分别详细讲解了他们提出的有效解决办法，并通过定性的和定量的实验结果验证了所提出的算法在自然场景下进行细粒度多人解析的有效性。

问答部分：

问题1：多人解析中的Nested对抗网络采用的GPU平台和Deep Learning库是什么？

回答：为了有效解决现实场景下的多人解析问题，我们提出了一个新型的嵌套式对抗网络Nested Adversarial Network (NAN)，网络的实现是基于公开的TensorFlow平台，网络的训练采用4块12G内存的NVIDIA GeForce GTX TITAN X GPU，网络的测试采用NVIDIA GeForce GTX TITAN X GPU和Intel Core i7-4930K CPU，主频为3.40GHz。我们已经在Github上release了我们两个版本的多人解析数据集、标注工具，以及NAN和评测部分的实现代码，链接是https://github.com/ZhaoJ9014/Multi-Human-Parsing_MHP，欢迎大家参考和关注。

问题2：在ICCV 2017的那篇文章中使用了启发式融合策略做不同模型的特征融合，能详细讲一下是怎么做的吗？CVPR 2017 Neural Aggregation Network for Video Face Recognition中使用的是Attention做的特征融合，这两种融合方法的主要区别在哪里？

回答：我们首先将每个模型的confidence score normalize到0-1，并将性能表现最好的模型作为主模型，其余模型作为辅助模型。然后我们把辅助模型的预测结果与主模型预测结果一致的confidence score相加，并将得到的confidence score进行由高到低的排序，把整个测试数据划分为多个split。最后一个split具有最低的confidence score，处于每个模型决策分类面的边缘，我们把这些cases视为hard cases。测试阶段的大部分hard cases均来自于query与gallery差距较大的情况。我们认为这些hard cases来自于Novel Set，为了在Novel Set获得更好的性能表现，我们把最后一个split的预测替换为gallery的结果并把相应的confidence score加1。CVPR 2017 Neural Aggregation Network for Video Face Recognition基于注意力机制对属于每个人物的来自于多个视频及图片对应的特征表示进行融合，得到对应的单一特征表示进而用于识别。这篇文章的方法是在特征表示的级别进行多模型的融合而我们的方法是在confidence score级别进行多模型的融合。

问题3：非配合的人脸识别应用还有多少距离？譬如网上追逃的应用？

回答：为了解决非配合的人脸识别即自然场景下的人脸识别问题，我们主要需要克服以下几个难点：一、能够结合人物的面部结构整体特征与五官局部特征进行快速、准确的匹配和检索。二、对不同的关照明暗变化、模糊、表情、化妆、遮挡、姿态、年龄等情况下仍能够获得具有足够鲁棒性的特征表示，保证识别结果准确、稳定。三、对于低分辨率、化妆、遮挡、极端姿态、跨年龄等情况能够有效进行对应的中性人脸的恢复，为其他应用提供辅助决策。为此，自然场景下的人脸识别系统将需要融合并集成解决上述问题的关键技术模块并进行协同优化。目前，相关算法技术尚存在一定的差距，未来将主要从网络结构、损失函数、网络学习优化机制以及训练数据等层面侧重进行改进。

问题4：网络这么复杂，优化会不会非常慢？

回答：网络的每个部分及损失函数都为我们最终要解决的实际问题发挥了积极有效的作用，我们在paper中做了详细的定性的和定量的控制变量分析，验证了网络设计的合理性与有效性。通过我们提出的有效的训练、优化策略，我们的网络可以较快、较稳定地收敛。在测试阶段，仅需要经过前向传递即可得到所需结果。

问题5：ICCV 2017针对大规模数据训练分组需要注意些什么？

回答：为了保证每组的各个模型能够快速、有效地学到所辖人物的身份信息，在进行分组时需要确保每组的人物身份随机采样、数量适中，对每组数据进行数据清理、数据增强及必要的预处理，确保数据分布均衡。

问题6：人脸识别数据增强的方法蛮多的，除了您提到的方法以外，还有没有其他有效的尝试或者建议？

回答：人脸识别的数据增强，除了采用生成模型生成虚拟数据对真实数据进行数据扩充和data balance外，还包括旋转、平移、缩放等仿射变换，增加噪声、blur以及random crop等方法。

问题7：Human Parsing在Person Re-Id中有应用吗？

回答：人物解析可以提供人物的精确空间位置信息与细粒度的语义信息，在行人再识别中是有应用的，代表性的工作有CVPR 2015 Transferring a Semantic Representation for Person Re-Identification and Search等。

问题8：Human Parsing能进一步变成跟踪吗？

回答：跟踪一类的应用对系统实时性要求较高，目前的人物解析算法和技术虽然可以提供十分精细、准确的人物空间位置信息，但是在处理速度上还需要做出进一步的改进和优化。

问题9：小样本那个工作提到把小样本从训练数据中去除了，能再解释一下吗？

回答：比赛主办方提供的小样本学习训练集中每个人物可用的训练数据非常少，很难训练出具有优秀表现力的模型来准确识别大量人物的身份信息。为了解决这个问题，我们通过在Challenge 1中将Challenge 2的小样本数据排除掉来构建一个与测试集无交集的额外的训练数据集来增强网络的泛化性能。

问题10：赵博士，您是如何创造或者改造神经网络的？思路是怎样的？

回答：当面对一个具体问题时，我会首先对大量的相关工作进行充分地了解和分析，详细了解这个问题的难点、技术瓶颈以及相关工作的局限和可以继续去做出改进和优化的方向，然后在实际解决问题的过程中不断去尝试新的想法，侧重不同的方面和需求去设计、调整网络结构和损失函数，在性能表现、泛化性能、鲁棒性和速度等方面做出比较好的权衡。

问题11：人脸识别可研究的问题有哪些？或者它的发展趋势？

回答：人脸识别中的非受限（包括表情、姿态和年龄的变化、遮挡、化妆及分辨率影响等）以及大规模和小样本条件下的人脸验证与人脸鉴别，3D信息与2D信息相结合的人脸识别，人物面部结构整体特征与五官局部特征相结合的人脸识别，属性（姿态、年龄、性别、表情等）可控的人脸生成，人脸识别系统的抗攻击、抗入侵，活体检测等都是值得研究和探索的方向。

问题12：样本不平衡问题能再解释一下吗？

回答：在实际场景下，比如我们的视频监控拍摄到的人脸通常都处于非受限的条件下，其中包含了很多不同程度的变化，比如多种姿态、表情、遮挡、光照、清晰度等等，给人脸识别系统和相关应用增加了很大的难度。那么其中影响识别准确性较大的可能就是姿态的变化了。但是很多包含人脸姿态变化的公开数据集包括我们自己收集的数据都难免存在一些bias，虽然整个数据集cover了很大姿态范围的人脸数据，但是某些姿态的人脸数据比较多，某些姿态的数据比较少，数据分布极为不平衡，直接采用这样的数据来训练分类模型用于特征提取的话，就会导致模型在样本较多的姿态和pattern下表现比较好，在样本较少的姿态和pattern下表现得比较差。为了解决这个问题，我们提出了一个基于3D模型辅助的双代理生成对抗网络作为一种新型的数据增强方法，生成预定角度的侧脸数据来平衡pose distribution。据我们所知，这是在人脸识别领域较早的采用虚拟数据做数据增强并获得性能提升的工作。

问题13：姿势分析存在哪些可研究问题？

回答：Face方面，对姿态鲁棒的人脸识别可以侧重解决两个方面的问题：姿态鲁棒的特征表示学习与姿态可控的人脸生成（包括侧脸生成与正脸恢复）。Human方面，人物姿态估计包括非实例级人物姿态估计与多人姿态估计，可以与人物解析相结合，相互促进，也可以结合graph来解决。

问题14：多人解析模型中多个网络之间的连接较多，其根本原因是什么？

回答：为了解决多人解析这个问题，我们提出了一个嵌套式对抗网络Nested Adversarial Network, NAN。NAN包含三个基于生成对抗网络的子网络，分别用于语义显著性预测、非实例级人物解析与实例级人物聚类。相比于多人解析，每个子网络分别要处理的任务都得到了简化，因而更易于实现。子网络之间相互依赖，形成因果嵌套式结构并通过对抗训练来实现相互促进。这种嵌套式网络结构可以确保梯度有效反向传递到各个模块，从而使得整个网络可以端到端地进行训练。在测试阶段，NAN仅需要经过一次前向传递过程而无需采用复杂的前处理和后处理。具体而言，第一个子网络的生成器以原始RGB图片作为输入，来预测与人物相关的部分，忽略与人物无关的部分，我们将这个语义显著性预测建模为前背景分割任务，判别器用于鉴别semantic saliency map的real or fake，通过对抗训练对生成器施加约束使生成结果更加真实并减少artifact，此外生成器部分还通过semantic saliency loss进行优化。第一个子网络预测的semantic saliency map会作为后续模块的输入，来提供语义显著性的先验信息，降低训练难度并使结果更加准确。第二个子网络将原始RGB图片与第一个子网络输出的semantic saliency map合并作为输入，预测细粒度的instance-agnostic parsing map，这个结果会作为第三个子网络的输入，来从全局角度为实例级人物聚类提供语义层面的引导。第二个子网络的判别器会同时鉴别前两个子网络生成器预测结果的real or fake，通过对抗训练对第二个子网络的生成器施加约束使生成结果更加真实并减少artifact，此外生成器部分还通过global parsing loss进行优化。由于嵌套结构的铰链式梯度反传路径，在第二个子网络进行优化的同时，第一个子网络的参数也会得到进一步的微调。第三个子网络将原始RGB图片与第一个子网络输出的semantic saliency map和第二个子网络输出的instance-agnostic parsing map合并作为输入，同时预测图片中人物的数量以及每个像素点所属人物的bounding box的位置，从而可以通过简单的聚类算法得到instance-aware clustering map。为了使位置信息预测更加准确，我们引入了一个多尺度融合模块来融合网络的浅层、中层及深层的信息，以提供局部和全局的context information。第三个子网络的判别器会同时鉴别所有子网络生成器预测结果的real or fake，通过对抗训练对第三个子网络的生成器施加约束使生成结果更加真实并减少artifact，此外生成器部分还通过pixel-wise instance location loss和instance number loss进行优化。由于嵌套结构的铰链式梯度反传路径，在第三个子网络进行优化的同时，前两个子网络的参数也会得到进一步的微调。

问题15：用Human Parsing的结果进行行为识别，能否提供一些思路呢？

回答：人物解析可以提供人物的精确空间位置信息与细粒度的语义信息作为支持和引导，从而可以从全局（人物整体）和局部角度（人物的各个身体部位）对人物进行详细、精确地分析，进而通过融合多个角度的信息进行行为识别的决策。

录像视频在线观看地址：

http://www.iqiyi.com/u/2289191062

PPT链接：

http://vision.ouc.edu.cn/valse/slides/20180822/VALSEWebinar.pptx

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：郭裕兰（国防科大）

活动参与方式：

1、VALSE Webinar活动依托在线直播平台进行，活动时讲者会上传PPT或共享屏幕，听众可以看到Slides，听到讲者的语音，并通过聊天功能与讲者交互；

2、为参加活动，请关注VALSE微信公众号：valse_wechat 或加入VALSE QQ群（目前A、B、C、D、E、F、G群已满，除讲者等嘉宾外，只能申请加入VALSE H群，群号：701662399）；

*注：申请加入VALSE QQ群时需验证姓名、单位和身份，缺一不可。入群后，请实名，姓名身份单位。身份：学校及科研单位人员T；企业研发I；博士D；硕士M。

3、在活动开始前5分钟左右，讲者会开启直播，听众点击直播链接即可参加活动，支持安装Windows系统的电脑、MAC电脑、手机等设备；

4、活动过程中，请不要说无关话语，以免影响活动正常进行；

5、活动过程中，如出现听不到或看不到视频等问题，建议退出再重新进入，一般都能解决问题；

6、建议务必在速度较快的网络上参加活动，优先采用有线网络连接；

7、VALSE微信公众号会在每周一推送上一周Webinar报告的总结及视频（经讲者允许后），每周四发布下一周Webinar报告的通知及直播链接。