如何利用3D点编码提升PETRV1/V2及StreamPETR性能

lidafa89 2023-11-24 238

汽车电子

2302人已加入

描述

自动驾驶系统需要准确感知和理解周围道路环境中的障碍物。通过3D障碍物检测，系统能够获取3D坐标系下的障碍物坐标、尺寸、朝向、速度等信息，从而准确感知和建模道路环境。这有助于系统做出合理的规划和决策，避免与障碍物碰撞，并选择最佳路径和行驶策略。

近年来，相对于成本较高的雷达感知方案而言，纯视觉的低成本3D障碍物检测方案受到越来越多关注。尽管配备辅助自动驾驶功能的车辆一直装有多个环视相机，但早期的纯视觉方案主要通过在后处理中融合来自多个相机的单目3D障碍物检测结果来进行道路环境感知，这导致了大量逻辑操作以及对跨相机截断物体的挑战。

自特斯拉AI-Day提出BEV感知的思路后，端到端中融合环视3D感知成为业界争相落地的热点。与此同时，后摩智能与悉尼大学、苏黎世联邦理工大学以及阿德莱德大学的学者合作研究提出了3D点编码(3D Point Position Embedding, 3DPPE)，该方案旨在解决当前基于Transformer范式的环视3D障碍物检测中存在的图像与锚点位置编码不一致以及沿射线方向的误检导致后处理逻辑复杂等问题，在获得卓越性能的同时进一步降低了后处理的复杂度，同比petr-v1/2以及streampetr均取得显著提升，已收录于计算机视觉顶会ICCV2023。

内容简介

方法架构：

3D相机

图 1. 3DPPE框架图

如图1所示，3DPPE基于Transformer结构。模型的输入是环视图像，经过主干网处理后得到图像特征，该特征送入深度检测头后得到对应的深度预测信息，再结合相机内外参，可以得到对应的3D点云。这个3D点云继续送入3D点编码器中用于构建对应图像特征的位置编码；与此同时，随机初始化的3D锚点同样经过共享的3D点编码器，由此构建对应的初始目标索引特征。将上述图像特征、图像位置编码以及初始索引特征送入解码器后即可得到环视系统下3D障碍物的检测框信息。

由于3DPPE在构建图像特征的位置编码时引入了显式的深度信息，使得对应的位置先验与真实物理世界的分布更为一致，从而有效的减缓了沿射线方向的误检。具体差异如下图所示，之前的3D相机射线编码无法建模物体的物理真实深度(图2.a)，而3DPPE中构建3D点编码构建时用到的深度信息都是符合物理世界分布的，深度点都是相机射线和车体表面相交的点(图2.b)。此外，改进后的图像位置编码与锚点分布同源，因此性能更好。

3D相机