纯视觉自动驾驶会像人眼一样“近视”吗?

描述

[首发于智驾最前沿微信公众号]在自动驾驶领域,纯视觉路线逐渐获得了一部分从业者和研究者的认可与支持。随着双目乃至三目摄像头方案的应用,通过视差计算、结构约束和算法建模,摄像头已经具备了一定程度的深度感知能力,使其在自动驾驶感知系统中的应用场景不断扩展。

正因如此,很多人习惯将纯视觉自动驾驶类比为“人眼驾驶”。但从生物视觉的角度来看,人眼本身会受到生理条件限制,存在近视等视力问题,那么基于摄像头的纯视觉自动驾驶系统,是否也会出现类似“近视”的情况?

  自动驾驶

什么叫“纯视觉自动驾驶”

所谓的纯视觉自动驾驶,就是车辆主要靠摄像头来“看世界”,这些摄像头就像机器的眼睛一样,把路上的画面、车道、行人、障碍物等信息传给自动驾驶系统,自动驾驶系统再根据这些图像来判断、规划和控制车辆。相较于传感器融合方案,纯视觉因其成本较低、更接近人眼“看”路,获得了一大批厂商的支持。

从纯视觉自动驾驶的原理上看,好像它的工作原理与人眼看世界的原理很接近,这时候一定会有人好奇,既然机器视觉和人类视觉这么接近,那机器视觉会不会像人眼一样有近视的问题?或者说,会不会在某些场景下表现得像近视眼一样,看不清远处或者看不清细节?要回答这个问题,得先搞清楚人眼的结构和机器视觉的差别。

人眼的视觉的工作原理与摄像头工作,还是纯在明显差别的,甚至复杂很多。人眼内部有晶状体、视网膜等复杂结构,通过肌肉调节焦距,从而实现对不同距离的物体成像。如果焦距调节不好就会出现近视、远视等问题。眼睛把二维光线信息传给大脑,大脑再进行重建和理解,最终才形成我们看见和理解的世界。

汽车上的摄像头其实更像一个固定焦距的相机,它往前装着,用镜头和传感器把光学图像转成数字信号。这个信号传到自动驾驶系统中后,经算法处理成对周围环境的理解。这里没有天然的“调节焦距”的机制,也不像人类视觉能根据经验、注意力和其他感觉融合信息,它只是把图像“看”进去然后通过算法去处理这些像素。

自动驾驶

机器视觉真的像人眼吗?

机器视觉和人眼其实不是一回事。人类的视觉系统包括眼睛和大脑两个部分,眼睛可以调焦,能在光线复杂的情况下灵活适应,还会用经验和常识来推理。而机器视觉的“眼睛”只是单纯的图像采集器,它的深度感知、物体识别、距离估计全靠算法来做。单个摄像头本身不能直接给出深度信息,因此很多纯视觉自动驾驶系统要靠算法估计距离,或者用多摄像头、立体视觉等方式进行间接补充。

如果机器视觉看不清,不是因为“眼睛近视”,而是因为摄像头本身的物理局限和算法判断能力出现了问题。如在光线很弱或者很强的情况下,摄像头采集的画面会有噪点或者过曝,这会影响后面的感知算法对物体的识别和定位。没有深度传感器或者高精度地图等辅助信息时,算法在某些复杂场景下的表现就会像人眼近视一样,看不清楚东西。这有点类似人眼视觉疲劳时看不清细节的感觉,但本质上不是生理近视,而是技术局限。

人眼能够快速地判断物体距离、速度、判断光影变化、甚至在糟糕环境下还可以凭经验推测前方情况,而纯视觉系统则要依靠算法从二维图像里估计三维信息,这里面会有误差和不确定性。这种不确定性可能在某些场景下表现得模糊不清、难以判断甚至错判,从用户的角度看起来,还真就有点像近视时看远处一样。

自动驾驶

纯视觉在什么情况下会出现“近视”

纯视觉自动驾驶在强光直射、逆光、夜间弱光或者雾霾天气下,摄像头看到的画面质量会急剧下降。画面质量差了,后面的算法判断也会跟着变糟,可能识别不出远处的障碍物或者错误估计距离。这样的情况在某种程度上和一个近视的人在没有戴眼镜时看远处模糊的体验有点相似。

同样的,在没有高精度地图、没有辅助雷达或者激光雷达等传感器时,纯视觉系统对于复杂街道、快速变化的交通状况的应对能力也会下降。在这些长尾的极端场景下,单靠摄像头不一定能稳定地判断情况,这本质上不是近视,而是缺少可靠的深度感知和补充信息。

还有一点是算法本身的学习和泛化能力问题。深度学习模型是基于大量数据训练出来的,它能很好地处理常见场景,但对于一些罕见情况或者数据没覆盖到的情况,它的判断可能会不稳定。就像人类在突然下雨、大雾或者隧道骤变光线时,会凭借经验和其他感觉(听觉、空间记忆)辅助下做出判断,而纯视觉系统只能根据画面数据来判断,这就增加了误判的风险。

自动驾驶

机器视觉的“限制”能不能被克服?

既然纯视觉自动驾驶纯在诸多问题,那是否有可行的解决方案?其实从理论上来看,可通过技术升级逐步改善,但想完全像人眼一样,其实很难。

现在很多自动驾驶方案并不只用纯视觉,而是融合了激光雷达、毫米波雷达等感知硬件与摄像头一起感知,这样在视觉弱的情况下,毫米波雷达和激光雷达可以补充距离信息及环境深度感知。这种融合方案比纯视觉方案更稳定。

在算法上,深度学习、三维重建、视觉深度估计等技术都在不断进步,现在很多纯视觉系统可以通过软件升级提升对复杂场景的理解能力。像是视觉深度估计算法,可以从单目图像推断出距离信息,或者通过多摄像头构成立体视觉来获取更准确的深度。

还有一些新方法尝试利用不同波段的光学信息来补充摄像头的感知能力,并提高视觉感知在弱光或复杂光照条件下的稳定性。一种典型的思路是将可见光与近红外(Near-Infrared,NIR)光谱的数据融合在一起,这样系统不仅能获取摄像头看到的图像,还能利用近红外光在低光或逆光情况下的成像优势,实现对场景中的物体和结构进行更全面的感知。

总之,纯视觉自动驾驶的感知能力确实会不断提高。未来可能通过更强的算法、更高性能的摄像头、更智能的数据融合手段,让它在绝大多数路况下做到跟人类一样甚至更好的感知效果。

自动驾驶

最后的话

回到大家最关心的问题,纯视觉自动驾驶会不会像人眼一样近视?答案是不会从生理上“近视”,因为机器的摄像头本身没有眼球那种可调焦结构;它的感知局限也不是眼睛近视那样的视觉模糊,而是技术层面处理复杂画面和深度信息的难点。

但是在某些光照、天气或者极端场景下,它的感知结果可能表现得像“近视”,但随着算法、硬件和系统融合的进步,这些问题将逐步改善,但要完全做到像人类视觉那样灵活、全面,目前仍然有诸多难题需要突破。

审核编辑 黄宇

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分