基于几何单目3D目标检测的密集几何约束深度估计器

3D视觉工坊 2022-10-09 2082

描述

摘要

由于深度信息的缺失，从单目图像估计物体的准确3D位置是一个具有挑战性的问题。之前的工作表明，利用目标的关键点投影约束来估计多个候选深度可以提高检测性能。然而，现有方法只能利用垂直边缘作为深度估计的投影约束。所以这些方法只利用了少量的投影约束，产生的深度候选不足，导致深度估计不准确。论文提出了一种可以利用来自任何方向边缘的密集投影约束方法。通过这种方式，论文使用了更多的投影约束并输出了更多的候选深度。此外，论文提出了一个图匹配加权模块来合并候选深度。本文提出的方法名为DCD（Densely Constrained Detector），在 KITTI 和 WOD基准上实现了最先进的性能。

之前算法存在的问题在于它们的几何约束不足。具体来说，一些现有的方法估计2D边界框和3D边界框的高度，然后利用2D到3D高度投影约束生成目标的深度候选。最终的深度是通过对所有候选深度进行加权来生成的。如下图所示，该方法仅适用于垂直边缘，这意味着它们只使用少量约束和3D先验，导致深度估计的不准确。

方法

DCD的框架的如下图所示。DCD使用单阶段检测器从单目图像中检测目标。论文提出了密集几何约束深度估计器（DGDE，Densely Geometric-constrained Depth Estimator），它可以计算任何方向的2D-3D边缘的深度。DGDE可以有效地利用目标的语义关键点并产生更多的深度候选。此外，论文利用回归得到的2D边缘、3D边缘和方向作为2D-3D边缘图匹配网络的输入。所提出的图匹配加权模块 (GMW，Graph Matching Weighting module) 匹配每个2D-3D边缘并输出匹配分数。通过将多个深度与其相应的匹配分数相结合，论文最终可以为目标生成一个稳健的深度。

Geometric-based 3D Detection Definition

基于几何的单目3D目标检测通过2D-3D投影约束估计目标的位置。具体来说，网络预测目标的尺寸()，旋转角。假设一个目标有n个语义关键点，论文回归第i个关键点在图像坐标中的2D坐标和object frame中的3D坐标。object frame的坐标原点是目标的中心点。给定n个语义2D-3D关键点投影约束，解决3D目标位置是一个超定问题，它是用于将点云将从object frame转换到camera frame的平移向量。生成每个目标的语义关键点的方法改编自。论文通过PCA建立了一些汽车模型，并通过从点云和2D mask中分割出来的3D点云来细化模型。在获得关键点后，就可以使用DGDE从关键点投影约束中估计目标的深度。

Densely Geometric-constrained Depth Estimation

虽然以前的深度估计方法[51]只考虑了垂直边缘，但DGDE可以处理任意方向的边缘。因此，论文能够利用更多的约束来估计每个深度候选的深度。

该方法基于关键点从3D空间到2D图像的投影关系。第i个关键点的3D坐标在object frame中定义，并通过以下等式投影到2D图像平面上：