【VALSE前沿技术选介16-21期】

程一-计算所 发表于 2016-8-18 11:06:20

http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651123107&idx=1&sn=5cd0b2acc3af5a3493ee754eedb731de&scene=0#wechat_redirect

【VALSE前沿技术选介16-21期】黑客的自动驾驶之路
今天给大家介绍的文章来自于前段时间的一个风云人物，George Hotz。这位大名鼎鼎的黑客曾经拳打PS3，脚踢iOS。最近的一个大新闻是宣称搞出了一套成本1000美金的自动驾驶kit，并带着Bloomberg的记者在高速上转了一圈。这篇文章便是来自这位黑客的一位暑期实习生的工作，介绍了他们最新在自动驾驶方面的技术并开源了他们的数据和代码。文章的题目是”Learning a Driving Simulator”
首先澄清一个误区，这篇文章很多国内媒体在报道的时候，声称这个就是在给Bloomberg demo时使用的算法，但是我在全文中并没有找到这样的claim。只是在提供的7个半小时的数据下面，提到了一句这7个半小时的数据足够训练给Bloomberg的demo了，并没有提到那个demo就是用文章中描述的算法，希望大家不要以讹传讹。
言归正传，介绍一下这篇文章的内容。这篇文章描述了一个基于视觉的自动驾驶的尝试，其核心的一个思想是：根据提供的训练数据，给定当前的状态，预测和模拟训练数据中司机的行为。如果这个算法可以完美预测出人类司机将要进行的动作，那么这个算法其实也就可以完成驾驶这项任务了。所以，基于这个思想，文章中提出了一套基于Deep Learning系统，可以完成这个预测工作。
在具体实现上，作者将整个流程分为了representation learning和driver action prediction两个stage。作者特意提到直接做end to end学习的问题在于视频数据维数非常高以及相邻时间高度correlate。所以学习过程会变得十分困难，如果没有合适的regularization，模型会学习到直接将当前时刻action作为下一时刻prediction的trivial solution。所以作者提出首先学习一个mid-level的representation，然后再基于这样的representation进行预测。流程图如下：

在学习representation中，作者采取了Variational Autoencoder + Generative Adverserial Network的无监督学习方法。VAE将输入图片encode到2048维的表示，然后将这个向量作为GAN的seed，生成图片并计算loss，从而联合训练这两部分。这个选择基于的几点考虑如下：1) VAE比普通的AE能更好model数据的uncertainty，这样如果遇到之前没有见到过的场景（即在data density比较低的区域），可以方便通过检查latent variable的方差来判断，从而避免盲目蛮干的情况。2) VAE可以保障学习到的latent variable的分布基本服从高斯分布，从而避免在latent space中出现不连续的表示，从而使得后续的预测模型难以学习。3) 恰恰是因为上面提到的这一点，在原始的图片空间中，这样的高斯性并不成立，所以作者的解决方案是通过GAN来作为学习目标，即学习一种generator，让对应的discriminator分辨不出这是真实图像还是生成图像。
在有了这样的表示之后，随后的预测工作就变成了一个标准的时序预测问题。作者使用了RNN作为预测，这部分并没有什么特殊的，所以不展开详述。
下面说下我个人对这样做自动驾驶套路的一些看法。当然从学术角度来看，这样一个尝试还是非常有价值的，但是我个人对这种思路实际投入实际应用还是十分不信任的。自动驾驶是一个非常复杂的系统工程，各个组件之间需要有多重冗余作为安全性的保障。这往往涉及到多传感器结果之间的融合和交叉验证。甚至仅仅在视觉模块内，也会有这样的多重保障。例如，车辆检测的模块可能会漏检造成危险，但是如果这时辅以双目摄像头的深度估计，或者道路分割的结果，仍然可以保障安全。然而通过VAE+GAN的方式做representation learning，严重损失了多重保障性这一个重要的性质，试图用一个统一的模型解决所有问题虽然看起来很美，但是可靠性仍然存疑。另一方面，我对无监督的representation learning这里也存有疑问。这样任务无关的学习方式虽然让可以利用数据量大大上升，但是很可能会损失一些对驾驶决策很有帮助的细节特征。最后一点，由于VAE本身的限制，输入图像大小被限制在了160×80这样非常低的分辨率上，这使得一些小物体变得难以辨认，会对整个系统的正确性和稳定性造成影响。综上三点考虑，我觉得这仍然是一个实验性质的尝试，离真正的实用还有相当的距离。

页: [1]

VALSE's Archiver

【VALSE前沿技术选介16-21期】