特斯拉现在推崇一种称为“虚拟激光雷达”或“伪激光雷达”的技术

描述

绿色立体盒是对地面真实汽车的探测。黄色为激光雷达显示点云。粉色点云由独立训练的深度估算器生成,位于绿盒之外,因此非常不准确。通过端到端的深度估算和三维目标物体检测,得到了更准确的蓝色点云。(图片来源:论文《用于基于图像的3D目标物体检测的端到端“虚拟激光雷达”》)


据麦姆斯咨询报道,特斯拉创始人埃隆·马斯克(Elon Musk)反对自动驾驶车辆采用激光雷达(LiDAR)的态度众所周知,他认为依赖激光雷达就像行走依赖拐杖一样,因此他从未打算在特斯拉中使用激光雷达。然而目前这个观点仍具有争议性,未来表现如何还有待历史来评判。

特斯拉现在推崇一种称为“虚拟激光雷达”或“伪激光雷达”(pseudo-LiDAR)的技术。该技术涉及到构建工具来进行摄像头图像采集(三维立体或二维)并计算出图像中每个像素的距离信息。激光雷达则是通过计算光脉冲抵达目标物体并返回所需的时间来确定与每个像素之间的距离。

在今年2月份的Scaled Machine Learning大会上,特斯拉就分享了如何仅用几个摄像头获得传统激光雷达精度的技术。通过将视觉传感器(摄像头)收到的视觉信息进行3D渲染、用人工智能(AI)软件将车道线、交通、行人等信息与进行匹配,最终使车辆作出决策。目前,特斯拉将计算机视觉提升到了前所未有的水平,不仅能够分析图像,而且还能够分析图像中的单个像素。随着时间推移,这样做也许能够复制传统激光雷达的大部分功能,这意味着可以利用已经为激光雷达处理开发的所有软件解决方案,或将进一步提高特斯拉在3D物体探测方面的技术水平。
 

另一方面,人类可以通过大脑来估算距离。我们知道目标物体有多大,知道它们是如何移动的,因此我们知道距离它们有多远。同时,人类还拥有一些“天赋”,如人眼的立体视觉特性,但只适用于中等距离。还有一个天赋是“运动视差”,视线在视野中横向移动时见到的物体的运动方向和速度具有差异性,这也为我们提供了判断远近的信息。

这么看来,人的大脑就可以完全胜任这项任务了,事实上,开车时闭上一只眼睛也能够估算距离。目前,人们正在尝试通过神经网络来构建机器学习技术,从而判断与图像之间的距离。这就是“虚拟激光雷达”技术。

最早提出“虚拟激光雷达”概念的,要追溯到2018年一篇来自康奈尔大学的技术论文,该论文提出了一种新方法来缩短纯视觉技术架构与激光雷达间的性能差距。

该论文通过改变立体摄像头目标检测系统的3D信息呈现形式,将基于图像的立体视觉数据转换为类似激光雷达生成的3D点云,通过数据转换切换成最终的视图格式。

在那之后的两年,康奈尔大学等又陆续发表了基于该方法的视觉深度估计、目标识别、3D Packing等论文。有研究者发现,采用其新方法之后,该摄像头在目标物体检测方面的性能已接近激光雷达。以鸟瞰图来分析摄像头捕捉到的图像,可以将目标检测准确率提升2倍,从而使立体摄像头成为激光雷达的可行替代方案,且其成本要低很多。

训练“虚拟激光雷达”并不是非常困难的,但通常,训练需要提供足够多的标记图像。一辆测试车上可能装有昂贵的激光雷达,因此可以开车四处获取与激光雷达“地面真实”距离数据相结合的训练数据。通过激光雷达计算出的真实距离来显示神经网络中的大量图像,这样它就能很好地自行计算出距离。这种技术是“无监督学习”的变体,因为不需要提前对数据进行人工标记,比监督学习成本低很多,因此,如果神经网络发展得好,那就应该是这样的。同时,还可以训练模拟器数据来改善模型。

另一种有效的训练方法是依赖于现实世界中以可预测的方式改变距离的物体。例如,当你看到物体沿着物理学允许的路径移动时,你的估算很可能是正确的。但是,如果你看到物体以不可能的运动方式在某个空间移动,你就知道那是错误的。

神经网络的问题在于倾向于看单帧图像,而不是像人类那样看运动图像。实际上,单看静止图像,人类会出现较多错误。相信随着时间的推移,机器学习技术会克服这一点。问题是,我们必须获得高可靠性才能脱颖而出。同时还需要具有对从未见过的事物进行处理的能力,而这个能力对于神经网络技术来说将是巨大的挑战。例如,你在开车,前方道路上有一物体,你需要尽可能快速并准确地知道它离你有多远。如果该物体是汽车,你已知汽车的大小,所以能很快判断它的距离。同理,一辆汽车如果发生侧翻,但是训练数据库可能从未遇到过此类事件。对于某一随机物体,你想知道是远处的大型物体的还是附近的小型物体?唯一的方法就是看它与道路几何形状的关系。这个情况更复杂。

如果可以解决以上问题,那么他们一定拥有一款可以捕获摄像头图像,并且也能够生成激光雷达生成的“3D点云”的工具,而且由于摄像头价格便宜,因此它的成本要低得多。同时,在远距离范围内,该工具也能够做到这一点。通常激光雷达的探测距离只有约120 m,好一点的大概能到240 m。众所周知,人类肉眼看到的距离能够达到1600 m。

然而讽刺的是,致力于激光雷达技术的开发人员已经建立了依赖于这些点云的系统,并花费了大量时间对其进行完善。如果“虚拟激光雷达”系统可用于生成高质量点云,则人们可以立即使用它。那些一直希望使用“虚拟激光雷达”技术的人在使用这种形式的数据方面没有类似的经验。相反,他们还计划将视觉系统的其它元素(将图像分为不同的对象,并对它们进行分类)与距离估算结合在一起。但是目前来说,他们可能还没有足够的能力来实现他们期待的突破。

另一方面,使用激光雷达的公司会说“太好了,终于可以用便宜的技术代替昂贵的激光雷达了。”但是,如果是热衷于激光雷达的厂商(如福特、Cruise、Waymo和Aurora),他们可能会觉得浪费了一大笔钱。

很明显的一点是,你需要了解到道路上所有物体的距离,并且必须正确且快速地完成距离估算。新闻已多次报道特斯拉自动驾驶汽车撞向卡车、防护栏以及前方车道上的熄火车辆,因为这些车辆被一辆突然驶离的汽车挡住了。当道路上的障碍物突然被车上的传感器感应到时,你需要知道它距离你有多远,并且数据具有高可靠性,这样你就可以启动紧急制动。激光雷达几乎都是这样运行的,但计算机视觉却不行。“虚拟激光雷达”技术是解决该问题的关键。但目前,大多数公司还是计划使用激光雷达来解决此问题,他们知道激光雷达是有效的,而且他们希望看到它变得越来越便宜。

当然,如果特斯拉可以内部解决此问题,就不会与其他人分享了(尽管公开演示可能会引发其他公司开发同样的技术)。目前特斯拉的感知研发团队也在尝试开发一种工具使距离估算与图像分类进行匹配,而不是生成激光雷达样式的点云。这项技术并不是“虚拟激光雷达”,但如果可靠性高,将同样有效。

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分