基于极坐标划分和表面高度估计的纯视觉非均匀BEV表示学习方法

地平线HorizonRobotics 2022-10-18 1621

描述

摘要： 鸟瞰图（Bird’s Eye View, BEV）表示可以隐式而优雅地将多视图信息进行统一表示，避免了耗时的多视图融合后处理操作，其对于自动驾驶中的环境感知具有很大的实用价值。在CoRL2022上，地平线-天津大学-华中科技大学联合发表了研究成果PolarBEV：基于极坐标划分和表面高度估计的纯视觉非均匀BEV表示学习。不同于基于矩形表示和深度估计的方案，PolarBEV提出将BEV空间沿着角度和半径进行栅格化，并结合迭代的高度估计来确定2D到3D的对应关系，极大地提升了BEV分割的精度和推理速度。

简介

本文提出了一个基于极坐标划分和表面高度估计的纯视觉非均匀BEV表示学习方法PolarBEV。相比于之前基于矩形表示和深度估计的方法[1]，PolarBEV通过将BEV空间沿着角度和半径进行栅格化来得到非均匀划分的网格点，之后通过将每个网格点的向量映射分解为角度向量映射和半径向量映射来增强每个网格点的表征能力，最后通过迭代的高度估计来确定2D到3D的对应关系。在这一范式下，PolarBEV在Nuscenes[2]数据集语义分割和实例分割任务上的性能都超越了之前的方法，并且在2080Ti GPU上取得了实时的推理速度。

动机

非均匀表示相比均匀表示更有优势

对于自动驾驶来说，自车周围的感知结果相比于远处来说更重要，因此自车周围区域应该需要更高的分辨率。我们通过将BEV空间沿着角度和半径进行划分，从而得到一个距离相关的非均匀的网格分布-密集分布于自车周围，稀疏分布于远处。

对于均匀表示来说，大范围的BEV空间通常需要较多的网格点和更大的计算量。通过在半径上进行长尾不均匀的划分，可以实现以较小的计算成本覆盖较大的BEV空间。

因为相机近大远小的成像特点，相同角度不同距离的同一个物体在成像上应该具有相似外形、尺度不一的特点，而相同距离不同角度的同一物体在成像上应该具有相似尺度、不同外形的特点。通过将BEV空间沿着角度和半径进行划分，可以使得BEV表示和相机的这一成像特点相适应。此外，可以通过将每个网格点的向量映射分解为角度向量映射和半径向量映射来建模圆形BEV表示下每个网格点之间的关系，从而增强每个网格点的特征表示。

高度估计相比于深度估计更有优势

深度估计方法通常需要为每个像素点估计一个深度分布，而这通常限制了该类方法的推理速度。此外，深度的真实范围通常是[0,+∝)，网络很难在如此大的解空间中估计出准确的深度。高度估计方法只需要为每个网格点隐式地估计一个高度，这可以极大地加速网络的推理速度，而且高度的估计也比深度的估计要简单的多。

方法

整体框架

PolarBEV的整体框架如图1所示，其总共包含三个部分：1）图像特征抽取部分 2）BEV空间栅格化和重组 3）迭代的表面高度估计和2D到3D的特征变换。

图1 PolarBEV整体框架示意图

极坐标栅格化和重组

本工作首先将BEV空间沿着角度和半径分别进行栅格化，得到个半径划分和个角度划分。为了便于后续的处理，该工作将栅格化后的网格点重组成大小的矩形。如图一所示，因为在角度这一维上，和虽然表示相同角度，但是却被分割在矩形的两端，所以需要对重组后的矩形网格点做相应处理才能满足一般的卷积操作。这里，通过在角度这一维上使用循环填充来弥补该缺陷。