用视觉替代激光雷达，可能吗？特斯拉为何不用激光雷达？

yingujun 2020-09-23 7151

电子说

1.2w人已加入

描述

在自动驾驶的感知领域，行业内分成了立场鲜明的两派——视觉派和激光雷达派。特斯拉是视觉派最坚定的守护者，甚至不惜用一切最恶毒的形容词将激光雷达贬到一无是处。但按照埃隆·马斯克一贯的作风，在“诅咒”某些事情的背后，他一定也在“敬畏”某些事情。

当一个系统想要变得可靠，一个关键原则是把这个系统做“冗余”。因此，汽车行业里的多数人，都在为这个极度需要可靠的物件做加法。

但特斯拉恰恰相反，它不断地在为汽车做减法：大幅降低车辆线束长度、大幅减少车身零部件数量、大幅压缩生产制造工序。所有这一切都是从技术快速落地的商业化考虑——足够便宜，用户才能接受。

如果秉持同样的出发点，就不难理解埃隆·马斯克多次在公开场合对激光雷达无下限的贬低：

2015年10月——激光雷达毫无意义，对于自动驾驶汽车来说没有必要。

2017年4月——激光雷达很差劲，他们会抛弃激光雷达，记住我的话，这是我的预测。

2018年2月——激光雷达昂贵、丑陋、没有必要。

2019年4月——激光雷达就像人身上长了一堆阑尾，阑尾本身的存在基本是无意义的，如果长了一堆的话，那就太可笑了。任何依赖激光雷达的公司都可能无疾而终。

当然，从事实的结果来讲，马斯克有足够的资本藐视激光雷达，因为依靠视觉方案的特斯拉是目前公认这个星球上将量产辅助驾驶做到最好的公司。

但是，埃隆·马斯克真的就将激光雷达踩在脚底了吗？恰恰相反，他清楚地认识到视觉与激光雷达的优劣势，同时不断推动让视觉方案做到本只能由激光雷达做到的事情。

特斯拉为何不用激光雷达？

理论上说，视觉与激光雷达是完美的互补体。

视觉方案中的图像传感器能以高帧率、高分辨率获取周围复杂的环境信息，且价格便宜。但图像传感器是一种被动式传感器，其本身并不发光，成像质量受到环境亮度影响较大，在恶劣环境下完成感知任务的难度会大幅提升。

激光雷达是一种主动式传感器，通过发射脉冲激光并探测目标的散射光特性获取目标的深度信息，具有精度高、范围大、抗干扰能力强的特性。但是，激光雷达获取的数据稀疏无序、难以直接利用，且激光单色的特性让其无法获取颜色和纹理信息。

所以，基于可靠性的考虑，行业中多数人在研究的是如何将视觉与激光雷达所获得的信息进行融合，实现更加精确的环境感知。

但在马斯克看来，无论是汽车还是道路，都是人类为人类设计的。既然人类可以通过视觉收集信息+大脑处理信息的方式进行安全驾驶，那就意味着自动驾驶也可以通过同样的方式实现。如果强行加入一个激光雷达作为“超人感官”，就好比人在行走时拿着一根拐杖。

显然，拐杖不是创新，而是限制创新。

另一方面，激光雷达的高成本，以及因为加入激光雷达后造成电气系统的复杂，不符合特斯拉一贯做减法的造车理念。

视觉的瓶颈在算法，激光雷达的瓶颈在原理。显然，视觉具有更大的开发潜力，也拥有理论上更高的上限。做对的事情，不做容易的事情，也是一直以来马斯克的作风。

至于在公开场合频繁唱衰激光雷达，就权当是特斯拉及埃隆·马斯克出色公关水平的一种体现。

特斯拉如何克服视觉劣势？

从2D平面图像推断精确的3D立体实景，实际上是非常困难的。

以下图中这辆MPV为例，如果只看左侧的2D图像，似乎用视觉和激光雷达标注的形状都是准确的，但是如果放在3D的场景中，就会发现使用视觉方案标注的形状不仅偏长、偏窄，而且缺少了汽车的侧面。

因为在2D图像中，很容易找到车辆的左前角和右后角，但是左后角却没有明显的特征，由于车辆尾部的倾斜、向上收窄，就会造成对整体宽度的低估。同时，依靠发动机舱盖超出车顶的部分估算车长，也会导致在纵深方向上的高估。

而这还仅仅是一个在高亮度环境下相对规则的物体，如果环境变暗，或是加入更多的遮蔽物、障碍物，情况会变得更加极端。比如在黑暗树荫中的二轮车，纯视觉方案很难分辨。

因此，从根本算法上解决视觉信息的准确处理，就是特斯拉自动驾驶体系的绝对核心技术。

实现自动驾驶功能，更多的是技巧、记忆和经验，而不只是推理和计算，深度学习的算法就是为了提高自动驾驶的成熟程度。特斯拉完善视觉算法的一大优势，就是通过海量的车主驾驶数据，进行神经网络训练，从而不断覆盖更多的工况与场景，达到视觉算法无限接近人类判断的目的。

这一方面取决于特斯拉自动驾驶硬件的高算力，另一方面是特斯拉在“模式识别模型”领域的绝对领先——超大的数据规模、多样化的数据覆盖度、真实的数据场景。归根到底，全世界超过百万辆的特斯拉车主，都是特斯拉自动驾驶算法训练的众测者。

这里不得不提的就是特斯拉独有的“影子模式”，这是特斯拉在不影响算法训练的速度与准确性的基础上，大幅降低因数据量过大造成训练成本提升的关键。

藏在驾驶员背后的“影子”，始终在观察外部环境与驾驶员的动作。如果在某个特定场景中驾驶员的操作与“影子”预想的一致，那么数据不会被上报；如果“影子”发现它的判断与驾驶员操作不相符，那么这次的数据就会被送到特斯拉的服务器中，并对算法进行修正性训练，达到一定程度后再次下发到车辆中。

这个过程中，驾驶员不会有任何感知，但特斯拉事实上已经完成了“模式识别-算法学习-反馈-升级-应用”的闭环。正是在无数次的训练后，特斯拉不断提升视觉方案的精度，克服视觉方案固有的劣势，并且将算法优势变成牢不可破的技术门槛。

用视觉替代激光雷达，可能吗？

特斯拉最终希望达到的目的，是让其视觉处理能力达到激光雷达的可见性，在行业中被称为“伪激光雷达”。

激光雷达通过每个激光点的距离，实时还原环境。而特斯拉则是要去预测每个像素的深度，然后将其投射出来，从而复制激光雷达的功能。

分析2D图像的每个像素，将其还原成真实的3D场景，毫无疑问其中的核心能力，依然是图像处理的算法以及支持这一算法的高算力硬件，也是特斯拉将其视觉方案进一步升级的体现。

这就不难理解，为何特斯拉一定要将其自动驾驶系统的研发深入到芯片级。

在特斯拉公开展示的通过“伪激光雷达”还原的3D地图中，明亮环境下已经非常接近于激光雷达的效果，但相信这只是一个阶段性成果，更多的场景仍然有待考察。“伪激光雷达”这项从2018年才开始在学术界有可见报道的研究，对特斯拉同样是一个极具探索挑战的问题。

但如果特斯拉要依靠纯视觉方案解决L4乃至L5级别的完全自动驾驶，通过强大的计算能力解决2D图像到3D实景的转换，是必须要攻克的难关。

写在最后

如果一个人还在使用指南针和地图，此时你给他一个GPS，意味着只是提供了解决问题的一个极有价值的工具，但却没有解决问题。激光雷达是那个解决问题的工具，但是视觉方案也许能从一个新的维度解决问题。

是视觉方案变强大的速度更快，还是激光雷达降价的速度更快？无人能给出答案，所以才会产生今天的行业路线纷争，每一种路线的践行者都坚信自己会是最终的胜利者。在无比自信的马斯克身上，这点体现得尤为明显。
责任编辑:pj

打开APP阅读更多精彩内容