【VALSE前沿技术选介16-10期】
http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=402584442&idx=1&sn=32fc7f4ba41d5024922e6122f0bdf013#rd【VALSE前沿技术选介16-10期】今天介绍另一篇图像生成的文章,其提出的 DeePSiM 已经开始被 Fei-Fei Li 等 Vision 大组用了起来。这篇文章,可以看做两位作者对于之前自己的另一份很有影响力的工作《Inverting Convolutional Networks with Convolutional Networks》的延续。
在上一篇 Invert 的工作中,两位作者主要想探讨的是通过 CNN 学出来的 image feature 是否可以用来 re-generate (invert) 原始的 natural images。通过大量的实验和分析,两位作者得到了一些很重要的观察和结论。其中一个观察是,他们发现尽管这些 feature 确实可以在一定程度上 invert 出 image 来,并且在 high-level layer 的 feature 里仍然能保留一些 color 等重要信息——可是 re-generated 出来的 image 都比较 blurry。这里可以分析出两个事情,一个事情是,尽管 feature space-image space 之间的映射不是一对一的,也就是说不同的 image(无论 natural 与否)都可能得到同样的 feature mapping,但是却仍然可以 invert 出看起来不错的 natural image——也就是说 invert reconstruction 是有局限性的,只会倾向于生成 natural image(这个结论在 DeePSiM 中没有出现,而是在 invert 论文中提到了)。另一个事情是,得出的 image 虽然 natural 但很 blurry,那么具体的 values of features 是没什么用的,而且说明即使是在 feature space 的 reconstruction loss 可能也不适合做 image generation——常用的 squared Euclidean 会 average detail 信息,得到模糊的图片。
所以,只是从 image space 的 per-pixel loss 走到 feature space loss 也是不够的。于是就有了这篇 DeePSiM 的工作。所谓的 DeePSiM 是“a class of losses”,其实就是几个 loss 的 weighted sum,具体可以见公式(1)。用 feature loss 替代 element-wise loss(per-pixel) 的思想和把多个 loss 结合在一起的思想并不新鲜——在之前已有人提出了将 AutoEncoder 和 GAN 结合在一起的工作。但是,这篇工作的贡献(和区别)在于,他们将这种多个 loss 结合的方式提炼到了更 general 的框架层面,从而 comparator 不再必须是 discriminator 的一部分——使得这种 loss 不再局限于 VAE 模型和单向 image generation 应用。http://mmbiz.qpic.cn/mmbiz/ZCzUCpTsR3eEJYcPdql78ufp895HqibZb7sPtQST7q9a4pL4PIEx9XQibonUftcRsuicd27wj3CxMibiaBF4wRnzw1A/0?wx_fmt=png
具体来看公式(1)中的几种 loss。最重要的就是 feature loss,L_feat。这个 loss 实现了将 image space 转到 feature space,可是就像之前分析的单有 feature loss 是不行的——只会得到很多 artifacts。为此,他们继续加入了 GAN 的 adversarial loss 来为生成的 image 提供一种 trained prior。最后,也是他们的一个小创新,就是第三种 loss。他们并没有完全抛弃 image space information,而是将 class information 作为 image loss,L_img 加入到了 DeePSiM 中来。这一点上很像 conditional GAN,而且过去的实验表明,class of image 这个信息对于 generation 从 nonsense 变到 sensible 是很重要的。所以最后,这三种 loss 对应的三个框架 component 就是,一个 generator 用于实现 generation function,L_feat 对应于 comparator 计算 feature space 的 information,L_adv 对应 GAN 中的 discriminator 用于 training objective,而 L_img 作为辅助去 stable 整个 training 过程。http://mmbiz.qpic.cn/mmbiz/ZCzUCpTsR3eEJYcPdql78ufp895HqibZbSkvJz8lFLHBUuQlUpffu6tjZAjV5nCxBAz6DRqBO9rxOiaNq31l2C9Q/0?wx_fmt=png
那么,在实验部分他们也是做的比较 extensive。实验的重点肯定是验证新的 loss DeePSiM 更有效:http://mmbiz.qpic.cn/mmbiz/ZCzUCpTsR3eEJYcPdql78ufp895HqibZb7qfSEJ7MqQkHhpBmqjSUNzzPrfGc61SGI3I5c3CGTzaQR3iaJs6fMuw/0?wx_fmt=png
为此,他们用了很多种 CNN 结构,并设计了三种 application:image autoencoder,image generation with (modified) VAE,invert image generation(iterative re-encoding)。比较有趣的是 interative re-encoding,就是反复进行 image->encode->feature->invert image generation->encode->feature...这样的过程。只不过,实验中个人不太理解和希望改进的点是:(1)image generation with modified VAE 中,VAE 改造的方法不是很 straightforward,他们将 VAE 中的目标逼近 latent vector z,变成了两个更细致的 \mu 和 \sigma,这样改造出的 KL divergence 是否会过于 favor to CNN;(2)image inversion 的过程主要是为了看学到的 feature 到底多大程度的保留了 image properties。在作者之前的工作中,就有 imply 其实 top-5 的 activations 可能就能非常好的做好 reconstruction——希望能做这样的实验,像 knowledge distillation 一样。http://mmbiz.qpic.cn/mmbiz/ZCzUCpTsR3eEJYcPdql78ufp895HqibZb6j5cTTX8o6Q2LQzEiaApp07iaR5W7gvBJnFTIIWDzfQ9LomUdlUiaLs0w/0?wx_fmt=png
最后总结一下,这篇论文中提出的 Perceptual Loss 并不能说是一个非常新的想法,但是这篇文章整体上的各种分析还是比较有深度,作为了解这边工作的一个突破口是很好的。另一方面,Fei-Fei Li 组最近也有一篇将 Perceptual Loss generalized 到 image transformation 这个 general task 上的工作。大家有兴趣也可以看看。
Alexey Dosovitskiy, Thomas Brox. Generating Images with Perceptual Similarity Metrics based on Deep Networks. 2016. arXiv preprint: 1602.02644. Alexey Dosovitskiy, Thomas Brox. Inverting Convolutional Networks with Convolutional Networks. CVPR 2016. Anders Boesen Lindbo Larsen et al. Autoencoding beyond pixels using a learned similarity metric. 2015. arXiv preprint: 1512.09300. Emily Denton et al. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks. 2015. arXiv preprint: 1506.05751. Justin Johnson, Alexandre Alahi, Li Fei-Fei. Perceptual Losses for Real-Time Style Transfer and Super-Resolution. 2016. arXiv preprint: 1603.08155.
页:
[1]