20170614-11 VALSE CVPR2017专场重磅来袭

2017-6-7 17:40| 发布者: 程一-计算所| 查看: 9121| 评论: 0

摘要: 一年一度的视觉盛宴CVPR2017即将在上演，为了更好的促进学术交流，我们VALSE Webinar将在本月连续举行CVPR Pre-Conference专场，奉上最新鲜的CVPR2017论文，提前引燃本年度的CVPR热潮。第一场6月14日（星期三）晚上2 ...

一年一度的视觉盛宴CVPR2017即将在上演，为了更好的促进学术交流，我们VALSE Webinar将在本月连续举行CVPR Pre-Conference专场，奉上最新鲜的CVPR2017论文，提前引燃本年度的CVPR热潮。

第一场6月14日（星期三）晚上20：00-22：00，将由4位作者报告今年CVPR2017上的论文：

报告嘉宾1：Luan Tran（美国密歇根州立大学）

报告时间：2017年06月14日（星期三）晚上20：00-21：00（北京时间）

报告题目：Disentangled Representation Learning GAN for Pose-Invariant Face Recognition

主持人：严骏驰（IBM，华东师范大学）

报告摘要：

姿态差异是自动人脸识别问题所面临的重要挑战，为了解决这一问题，本文结合了传统人脸识别中的非正脸图像正面化和姿态鲁棒特征表示两中不同的思路，提出基于生成对抗网络的非耦合表示（disentangled representation）学习框架DR-GAN。同传统的生成对抗网络相比，DR-GAN具有如下三方面的创新

1. 生成器由编码器（encoder）和解码器（decoder）组成，可以使DR-GAN学习到同时具备生成性和判别性的特征表示，并用于人脸生成和人脸识别。

2. 通过提供给解码器一个姿态编码，并在判别器中增加姿态估计约束，DR-GAN学习到的特征表示显式地分离了人脸的姿态变化特征。

3. DR-GAN采用某个人的一张或者多张人脸图像作为输入，生成一个统一的身份特征表示，并可以生成针对该人的任意数量的不同姿态下的合成图像。

同其它方法相比，DR-GAN在控制环境和野外数据库上的大量定量和定性的评估实验都说明其具有更强的表示学习和旋转大姿势人脸图像的能力。

报告人简介：

Luan Tran，美国密歇根州立大学计算机科学与工程系博士生，导师为 Xiaoming Liu教授，主要的研究方向包括深度学习、机器学习以及他们在计算机视觉领域的应用，发表多篇顶级会议论文。

报告嘉宾2：禹之鼎（Carnegie Mellon University）

报告时间：2017年06月14日（星期三）晚上20：00-21：00（北京时间）

报告题目：CASENet: Deep Category-Aware Semantic Edge Detection

主持人：严骏驰（IBM，华东师范大学）

报告摘要：

边缘信息在一系列计算机视觉问题中有广泛应用，例如语义分割，物体识别，双目视觉以及object proposal generation等。边缘检测问题近期被再次深入研究，通过深度学习取得了相当的进展。尽管传统边缘检测已经是个非常有挑战性的二分类问题，带有类别信息的语义边缘检测本身则是一个更难的多类别问题。针对这个问题，我们采用一种建模方法，使得处在属于多个语义类别的轮廓或连接点上的边缘像素可以属于多个类别。我们为此提出一种新的基于残差网络（ResNet）的端对端深度语义边缘学习架构，以及一种网络顶层的多类激活信息共享底层特征的跨层连接结构。同时，还提出了一种多标签损失函数来监督网络的学习。实验证实我们提出的架构和方法对边缘学习问题有很大帮助，并在SBD和Cityscapes等标准数据集上显著超越过去的最好方法。

报告人简介：

Zhiding Yu is a 5th year Ph.D. candidate with the Department of ECE, Carnegie Mellon University. He graduated from the Elite Class of EE, South China University of Technology in 2008 with B.Eng. degree, and obtained the M.Phil. degree from the Department of ECE, Hong Kong University of Science and Technology in 2012. His main research interests include structured prediction for scene understanding, object detection, clustering and image segmentation. He was twice the recipient of the HKTIIT Post-Graduate Excellence Scholarships (2010/2012). He is a co-author of the best student paper in International Symposium on Chinese Spoken Language Processing (ISCSLP) 2014, and the winner of best paper award in IEEE Winter Conference on Applications of Computer Vision (WACV) 2015. He did several interns at Adobe Research, Microsoft Research Redmond and Mitsubishi Electric Research Laboratories respectively in 2013, 2015 and 2016. His intern work on facial expression recognition at Microsoft Research won the First Runner Up at the EmotiW-SFEW Challenge 2015 and was integrated to the Microsoft Emotion Recognition API under Project Oxford.

报告嘉宾3：柯炜（中国科学院大学）

报告时间：2017年06月14日（星期三）晚上21：00-22：00（北京时间）

报告题目：SRN: Side-output Residual Network for Object Symmetry Detection in the Wild

主持人：张健（King Abdullah University of Science and Technology)

报告摘要：

对称轴可用于指导目标区块分解、图像分割、前景提取和文字检测等相关的计算机视觉任务，有重要的研究价值。传统的对称轴检测往往处理一些二值图像或者结构比较简单的自然场景图像，限制性较大。本文通过发布一个更具有挑战性的数据集和设计一种端到端的目标对称轴检测方法，试图将对称轴检测往复杂的自然场景中推进一小步。一方面，我们基于PASCAL VOC的语义分割数据集重新标定了一个目标对称轴数据集。该数据集名为Sym-PASCAL，其因为多目标、目标多姿态、遮挡和复杂背景而极具挑战性。另一方面，我们提出了侧输出残差网络（Side-output Residual Network，SRN）检测目标对称轴。侧输出残差网络中的残差单元（Residual Units，RUs）可以促使卷积神经网络的侧输出拟合标注真实值与残差单元输出的残差。通过将卷积神经网络每级侧输出上的残差单元由深到浅依次堆叠在一起，侧输出残差网络中的残差流沿着堆叠方向依次减小，能够有效地检测出目标对称轴上的点。实验表明，Sym-PASCAL由于采用了复杂的自然场景数据，相比于其它数据集更加具有挑战性。与此同时，本文提出的侧输出残差网络在各个对称性检测数据集上也达到很高的检测性能。Sym-PASCAL和侧输出残差网络均可通过https://github.com/KevinKecc/SRN下载。

报告人简介：

柯炜，中国科学院大学博士生，导师为叶齐祥教授。研究方向为行人检测、目标检测和边缘\对称性检测。他于2016年受留学基金委资助，在芬兰奥卢大学联合培养一年。在此之前，他于2011年毕业于北京航空航天大学自动化科学与电气工程学院，获得学士学位。

报告嘉宾4：刘昊淼（中国科学院计算技术研究所）

报告时间：2017年06月14日（星期三）晚上21：00-22：00（北京时间）

报告题目：Learning Multifunctional Binary Codes for Both Category and Attribute Oriented Retrieval Tasks

主持人：张健（King Abdullah University of Science and Technology)

报告摘要：

本文提出了一种多功能哈希学习（Dual Purpose Hashing, DPH）框架来同时解决实际应用中可能遇到的多种以图搜图任务，例如根据查询图像的类别或者属性进行检索。考虑到当前互联网图像数据的海量规模，哈希作为一种在存储和计算上都很高效的近似算法，在图像检索领域具有很好的应用前景；然而，目前已有的大多数哈希算法在设计过程中都只考虑了保持一种相似性，因此当面临多种检索任务需求的时候，通常需要使用多个模型。为了提高检索的效率，同时利用多个任务之间的关联性，本文提出一种新的哈希算法，使用CNN学习同时保持类别和视觉属性这两种相似性的二值编码。由于同时具有类别标签和完整属性标签的样本较少，只使用这些数据训练模型容易导致过拟合的问题，因此本文设计了可利用部分标注信息的网络损失函数，以充分挖掘网上大量的易于获取的部分标注数据对模型进行训练。基于这样一种框架，新图像的二值编码可以通过对网络中特定层输出进行量化而得到，而且我们可以轻易地从二值编码中恢复出图像的视觉属性信息，从而可以进行多种不同的检索任务。在CFW网络人脸数据库和ImageNet大规模物体数据库上的实验显示：我们的方法在类别检索和视觉属性检索这两个任务上均达到了与当前最优方法可比的性能，而在类别附加属性的联合检索任务中，超越已有方法的检索性能且二值编码更紧致高效。

报告人简介：

刘昊淼，本科毕业于北京工业大学，目前为中国科学院计算技术研究所智能信息处理实验室VIPL课题组在读博士生，师从陈熙霖研究员。目前研究方向包括大规模图像检索、物体分类等，在ICCV和CVPR发表相关研究工作论文3篇。

特别鸣谢本次Webinar主要组织者：

VOOC责任委员：苏航（清华大学），高陈强（重庆邮电大学）

VODB协调理事：曹汛（南大）

收藏邀请

上一篇：20160720-23专题: Applications to High-level Vision Tasks by Deep Learning下一篇：20170621-12 VALSE CVPR2017专场

20170614-11 VALSE CVPR2017专场重磅来袭

最新评论

相关分类