如何实现高精度的3D感知

地平线HorizonRobotics 2023-10-17 791

描述

端到端自动驾驶是自动驾驶技术的重要发展方向之一。而要实现端到端自动驾驶，离不开高精度3D信息输入，因此如何实现高精度的3D感知尤为关键。

从3D感知的实现技术路径来看，主要包括稠密算法和稀疏算法两个范畴。

在稠密算法范畴，主要通过点云转换、多视图立体视觉等方法，来获取场景中每一个点的深度信息，从而更准确地描述场景中的物体。其中最具代表性的就是近两年非常火热的BEV感知，其多传感器数据从图像空间到BEV空间的转换过程，就是典型的稠密特征到稠密特征的重新排列组合过程。目前，BEV已在业界得到广泛关注以及应用部署。

稠密算法也面临着一些挑战，比如巨大的数据量，需要高效的数据处理和存储方法来提高计算效率，减少内存占用。此外，考虑到多传感器数据结构的复杂性，需要高效的计算方法和计算平台来提升处理速度，并满足实时性要求。而在大多数实际应用场景中，自动驾驶系统需要计算的目标在空间中通常呈稀疏状态分布，这也就意味着在稠密算法范畴中，大量的计算是被浪费了的。

稀疏感知算法通过减少Query数量以及降低特征交互量来加快计算速度并降低存储需求，大大提高感知模型的计算效率和系统性能。基于稀疏算法的感知方案在2D到3D的转换效率和长距离感知方面具有一定优势，也是目前业界正在积极探索的方向。

近期，地平线发表了关于稀疏感知方案的系列工作：Sparse4D v1 & v2，从Query构建方式、特征采样方式、特征融合方式、时序融合方式等多个方面提升模型感知效果。Sparse4D在nuScenes检测任务上达到了SOTA的效果，超过了VideoBEV、SOLOFusion和StreamPETR等算法的指标。

为了让大家进一步了解Sparse4D，10月18日19点，地平线联合智猩猩策划推出新一期地平线「你好，开发者」自动驾驶技术专场，主题为《面向端到端自动驾驶的稀疏感知通用架构探索》，由地平线感知算法工程师林天威主讲。

林天威首先会介绍3D感知的研究背景和发展现状，并对稀疏通用感知架构进行解析。之后，林天威将重点介绍和讲解长时序稀疏化3D目标检测算法Sparse4D v1 & v2相关工作。最后他会分享稀疏感知新范式的未来探索方向。

审核编辑：彭菁

打开APP阅读更多精彩内容