没有地图,纯视觉自动驾驶就只能摸瞎吗? [首发于智驾最前沿微信公众号]最近在一篇讨论高精度地图的文章中,有位小伙伴提到一个非常有趣的观点“如果人在陌生的目的地,只依托纯视觉(眼睛)去辨别道路,若没有导航,就只能摸瞎”。对于纯视觉自动驾驶来说,是否也是如此?

人和机器用“视觉”导航的差异
在讨论这个话题前,先简单聊聊什么是“纯视觉”。所谓“纯视觉”,就是只用摄像头(单目或多目)来完成感知的方案。不管是把图像直接送入一个端到端的神经网络输出控制指令,还是把图像先做目标检测/语义分割/深度估计再走传统规划,这类方案都强调将摄像头作为主传感器,甚至唯一的传感器。
摄像头的优势其实很明显,其信息丰富(颜色、纹理、文字、标志),成本低,分辨率高,便于人工标注和语义理解。但摄像头对光线敏感、受能见度影响大、难以直接测量精确距离与速度(尤其是远距物体)。
如果一个人在陌生城市,只有双眼和一辆车,确实会觉得“瞎摸”,但人并非只靠眼睛去辨别路况。人有长期记忆(熟悉的街区)、语言社交能力(问路)、抽象推理(理解路牌、交通规则)、以及对场景的常识推断(哪条路更可能通向城中心)。人还能容忍不确定性并主动采取探测行为(减速、靠边观察、试探转弯)。
机器要复制这些能力,光靠一帧图像是不够的,但连续的视频、多时序推理、学习到的场景模型以及外部信息(如高清地图、定位)可以代替人类的记忆与推理能力。简而言之,人类在陌生城市走路,若没有导航,并不仅是纯视觉,而是会有多种信息融合和主动探索,这也正是自动驾驶中会采用多传感器、多信息源来补偿摄像头不足的原因。

纯视觉能做到什么?
纯视觉的作用不容小觑,很多车企都围绕成视觉方案,开发出自动驾驶系统。借助深度学习,摄像头其实可以做很强的语义理解,完成识别车辆、行人、交通标志和信号灯,判断车道线,分割出可通行区域等任务。
通过时序信息(连续帧)和已学得的运动模型,可以估计自车的运动(视觉里程计/VO)和相对深度(单目深度估计或双目/立体匹配)。把这些能力组合起来,纯视觉系统可以在相对良好的光照、天气条件下完成感知-预测-规划闭环,尤其是在结构化环境(如高速公路、城市主干道)和限定的操作设计域(ODD)内表现会非常不错。
但是纯视觉能做到并不意味着纯视觉可以完全替代其他传感器,摄像头在夜间或极低照度环境、强逆光、雨雪雾等能见度差的天气、反光或平坦无纹理表面(比如大面积光滑地面或光秃的雪面)、遮挡严重的复杂交叉口和远距离小物体的预警(比如远处突然出现的行人或小型车辆)等场景下表现不尽如人意。
单目相机还存在尺度不确定性的问题(即仅靠图像难以知道物体绝对距离),虽然借助运动恢复结构或学习可以部分解决,但精度、鲁棒性与雷达/激光雷达相比仍有差距。此外,摄像头对光学欺骗(比如反射、投影、极端对比)比较敏感,容易被异常光照或极端场景“迷惑”。这些局限会直接关系到安全冗余的设计,当感知变得不可靠时,系统必须要么降级(限制速度、主动停车),要么需依赖其他传感器。
其实现在很多技术方案中都是采用“冗余与互补”的策略。摄像头擅长语义与长距离视觉细节,毫米波雷达擅长在雨雪雾中测量相对速度并具备穿透性能,激光雷达在构建精确三维几何上更可靠。
多数成熟的自动驾驶系统会选择多传感器融合以覆盖更广的ODD。当然,也有技术方案一致在推动“摄像头主导”或“摄像头优先”的路线,靠大量场景数据训练、严格限制运行域并设计详尽的降级策略来保证安全。

纯视觉能否替代地图和定位?
回到今天的主题,其实这位小伙伴强调是导航(地图)对于纯视觉的重要性。地图和定位解决的是“我在哪儿”和“目标在那里”的问题。纯视觉可以进行相对定位(通过视觉里程计或视觉SLAM),甚至可以做基于图像匹配的全局定位(视觉定位/视觉数据库检索)。
但想真正将自动驾驶应用到车辆上,绝对定位是必不可少的,绝对定位(高精GNSS、车辆坐标在地图上的精确投影)在诸如狭窄车道、复杂交叉口和需要精确轨迹跟踪的场景中会起到关键性作用。

图片源自:网络
地图(尤其是轻量级矢量地图或路网信息)给规划提供的其实是语义与先验信息,它能显著减少在线推理的负担并提高安全边界。纯视觉可以替代一部分地图功能,但要做到在任何场景下不用地图、只靠摄像头安全行驶,是非常困难的。
既然纯视觉可以替代一部分的地图功能,那如何将其能力推到极限?现在其实有多个方案,在推动这一想法。自监督深度与视觉里程计算法能在没有密集标注的情况下学到深度和运动;多视角与时序融合能改善远距深度估计;利用神经场景表示(如NeRF类思想)或大模型的视觉理解可以让系统在见过类似场景时更好地推断未观测的部分;此外,把摄像头输出转换为BEV表示、与轨迹预测结合、并在规划层引入不确定性建模,能让纯视觉系统的决策更可靠。

最后的话
纯视觉并不是万能的,但能力不容小觑,其在语义理解和成本效益上有明显优势,在受控场景中可以承担很大一部分工作;但在面对极端光照、恶劣天气、远距预警和绝对定位需求时,摄像头的物理和算法局限依然明显。智驾最前沿以为,智驾安全不是仅靠单一感觉,而是需要靠多源信息与严谨的工程来保证。
审核编辑 黄宇
全部0条评论
快来发表一下你的评论吧 !