【VALSE前沿技术选介16-21期】
http://mp.weixin.qq.com/s?__biz=MzA3Mjk0OTgyMg==&mid=2651123107&idx=1&sn=5cd0b2acc3af5a3493ee754eedb731de&scene=0#wechat_redirect【VALSE前沿技术选介16-21期】黑客的自动驾驶之路
今天给大家介绍的文章来自于前段时间的一个风云人物,George Hotz。这位大名鼎鼎的黑客曾经拳打PS3,脚踢iOS。最近的一个大新闻是宣称搞出了一套成本1000美金的自动驾驶kit,并带着Bloomberg的记者在高速上转了一圈。这篇文章便是来自这位黑客的一位暑期实习生的工作,介绍了他们最新在自动驾驶方面的技术并开源了他们的数据和代码。文章的题目是”Learning a Driving Simulator”
首先澄清一个误区,这篇文章很多国内媒体在报道的时候,声称这个就是在给Bloomberg demo时使用的算法,但是我在全文中并没有找到这样的claim。只是在提供的7个半小时的数据下面,提到了一句这7个半小时的数据足够训练给Bloomberg的demo了,并没有提到那个demo就是用文章中描述的算法,希望大家不要以讹传讹。
言归正传,介绍一下这篇文章的内容。这篇文章描述了一个基于视觉的自动驾驶的尝试,其核心的一个思想是:根据提供的训练数据,给定当前的状态,预测和模拟训练数据中司机的行为。如果这个算法可以完美预测出人类司机将要进行的动作,那么这个算法其实也就可以完成驾驶这项任务了。所以,基于这个思想,文章中提出了一套基于Deep Learning系统,可以完成这个预测工作。
在具体实现上,作者将整个流程分为了representation learning和driver action prediction两个stage。作者特意提到直接做end to end学习的问题在于视频数据维数非常高以及相邻时间高度correlate。所以学习过程会变得十分困难,如果没有合适的regularization,模型会学习到直接将当前时刻action作为下一时刻prediction的trivial solution。所以作者提出首先学习一个mid-level的representation,然后再基于这样的representation进行预测。流程图如下:
在学习representation中,作者采取了Variational Autoencoder + Generative Adverserial Network的无监督学习方法。VAE将输入图片encode到2048维的表示,然后将这个向量作为GAN的seed,生成图片并计算loss,从而联合训练这两部分。这个选择基于的几点考虑如下:1) VAE比普通的AE能更好model数据的uncertainty,这样如果遇到之前没有见到过的场景(即在data density比较低的区域),可以方便通过检查latent variable的方差来判断,从而避免盲目蛮干的情况。2) VAE可以保障学习到的latent variable的分布基本服从高斯分布,从而避免在latent space中出现不连续的表示,从而使得后续的预测模型难以学习。3) 恰恰是因为上面提到的这一点,在原始的图片空间中,这样的高斯性并不成立,所以作者的解决方案是通过GAN来作为学习目标,即学习一种generator,让对应的discriminator分辨不出这是真实图像还是生成图像。
在有了这样的表示之后,随后的预测工作就变成了一个标准的时序预测问题。作者使用了RNN作为预测,这部分并没有什么特殊的,所以不展开详述。
下面说下我个人对这样做自动驾驶套路的一些看法。当然从学术角度来看,这样一个尝试还是非常有价值的,但是我个人对这种思路实际投入实际应用还是十分不信任的。自动驾驶是一个非常复杂的系统工程,各个组件之间需要有多重冗余作为安全性的保障。这往往涉及到多传感器结果之间的融合和交叉验证。甚至仅仅在视觉模块内,也会有这样的多重保障。例如,车辆检测的模块可能会漏检造成危险,但是如果这时辅以双目摄像头的深度估计,或者道路分割的结果,仍然可以保障安全。然而通过VAE+GAN的方式做representation learning,严重损失了多重保障性这一个重要的性质,试图用一个统一的模型解决所有问题虽然看起来很美,但是可靠性仍然存疑。另一方面,我对无监督的representation learning这里也存有疑问。这样任务无关的学习方式虽然让可以利用数据量大大上升,但是很可能会损失一些对驾驶决策很有帮助的细节特征。最后一点,由于VAE本身的限制,输入图像大小被限制在了160×80这样非常低的分辨率上,这使得一些小物体变得难以辨认,会对整个系统的正确性和稳定性造成影响。综上三点考虑,我觉得这仍然是一个实验性质的尝试,离真正的实用还有相当的距离。
页:
[1]