评估3D-CoCo在三个广泛使用的自动驾驶数据集上的有效性和泛化性

工程师邓生 2022-09-13 2135

电子说

1.4w人已加入

描述

摘要

大多数现有的点云检测模型都需要大规模、密集标注的数据集。由于不同的物理环境或激光雷达传感器配置引起的几何变化，它们通常在域适应设置中表现不佳。因此，在不访问目标域的标签的情况下，学习有标记的源域和新的目标域之间的可迁移特征具有挑战性但很有价值。为了解决这个问题，我们引入了3D对比协同训练（3D-CoCo）框架，该框架有两项技术贡献。

1）首先，3D-CoCo 的灵感来自于我们的观察，即鸟瞰图 (BEV) 特征比低级几何特征更容易转移。因此，我们提出了一种新的协同训练架构，其中包括具有特定域参数的单独 3D 编码器，以及用于学习域不变特征的 BEV 转换模块。

2）其次，3D-CoCo 将对比实例对齐的方法扩展到点云检测，其性能在很大程度上受到伪标签导致的BEV特征的虚拟分布与真实分布之间不匹配的阻碍。通过考虑特定几何先验，精心设计的具有变换点云的3D-CoCo，大大减少了不匹配。我们使用三个大型 3D 数据集构建新的域适应benchmarks。实验结果表明，我们提出的 3D-CoCo 有效地缩小了域差距，并大大优于SOTA方法。

一、引言

3D 点云检测在现实场景中显示出重要的意义，例如自动驾驶，而最近的进展主要是由高精度 LiDAR 传感器和大规模、密集标注的点云数据集的出现推动的。

大多数现有的 3D 检测模型都假设训练域和测试域是独立且同分布的。然而，在实践中，由于物理环境或 LiDAR 传感器配置的差异，包括不同数量的激光束和安装位置等，域转移通常是不可避免的。

为了解决这个问题，关于点云检测的无监督域适应问题的早期研究，其目的是通过学习可迁移特征，将3D检测器从有标记的源域有效地适配到新的无标记的目标域。

以前的图像数据的域适应方法并不容易适用于点云。如图 1 所示，与 2D 场景的域偏移通常存在于图像外观不同，3D 场景的域偏移主要体现在点云的几何变化上。由于来自不同域的 2D 图像具有相同的均匀分布像素的网格拓扑，因此大多数域适应方法都利用了具有域共享参数的图像编码器，现有的 3D 迁移学习模型（如 PointDAN ）也采用了这种方法。然而，由于不同点集之间存在严重的low-level几何偏移，我们认为某些特征是可迁移的，而某些特征不能用于 3D 目标检测，这需要重新考虑不同级的点云表征的可迁移性。

为此，我们提出了一个名为 3D Contrastive Co-training (3D-CoCo) 的新框架，其架构包含具有特定域参数的单独 3D 编码器、与领域无关的 BEV 转换模块和最终检测头。架构设计的关键思想是，具有类似于图像的网格结构的 BEV 特征可以比低级 3D 特征更具可迁移性，从而可以更好地与 2D 视觉中的高级迁移学习技术集成，从而大大减少几何偏移。与特定域编码器协同训练架构的另一个好处是，除了改善域适应结果外，它还保持了域内的性能。

检测器

图 1：2D场景和 3D 场景之间域偏移的比较。

1）左图：2D 场景中的域偏移主要体现在外观变化上，例如自动驾驶中的天气或环境变化。

2）右图：3D 域偏移通常表示为几何变化，这不仅来自外部环境，还来自内部传感器配置。此外，3D-CoCo 还具有一个新的端到端对比学习框架，该框架包含两个主要组件，即基于鸟瞰图 (BEV) 特征的对比实例对齐，以及使用转换的点云的困难样本挖掘。对比实例对齐的目的是，将由伪标签诱导的相似样本簇的特征质心推到彼此更近的位置，无论它们是在同一域还是不同域中。

此外，我们考虑了 BEV 特征的真实分布与用于对比学习的虚拟特征分布之间的不匹配，这是由有偏差的伪标签引起的。具体来说，我们利用点云的可编辑性，通过对 3D 数据应用特定的变换函数来执行困难样本挖掘。困难样本作为对比协同训练的有效补充，可以进一步减少跨域的几何偏移，防止自适应模型陷入局部最小值。值得注意的是，还有另一项工作讨论了点云检测的迁移学习，它利用了自训练pipeline，使用目标域数据上的伪标签重新训练模型。

与这些方法相比，我们采用了不同的问题设置，使用有标记的源域数据和未标记的目标域数据进行协同训练。通过消融研究，我们观察到单独编码器和对比协同训练方案，可以逐步过滤特定域的特征，并学习更多跨域的可转移知识。我们评估了 3D-CoCo 在三个广泛使用的自动驾驶数据集上的有效性和泛化性，这些数据集由异构激光雷达传感器收集，包括Waymo、nuScenes和KITTI。

3D-CoCo 被证明在不同的无监督域适应benchmarks上，显着优于现有的点云检测方法。

二、预备工作 问题设置。

点云检测的传统设置是学习一个基本的 3D对象检测器 D，它从点云P中对由Y表示的m个对象进行分类和定位：

检测器

与点云检测的典型设置相比，我们更关注模型在目标域测试集上的性能，这需要额外的精心设计的模块来学习可迁移的特征。

当前的点云探测器。

当前的 3D 点云检测器通常由三个模块组成：3D 编码器 E、鸟瞰图 (BEV) 转换模块 U 和检测头 H。

检测器

为了证明所提出方法的通用性，我们采用了两种主流架构，即 VoxelNet 和 PointPillars ，并使用不同的点云处理pipelines作为 3D 编码器的替代方案。VoxelNet 将点云量化为小的 3D 体素特征，然后使用 3D CNN 沿体素高度将它们压缩成 2D BEV 空间，而 PointPillars 将点云量化为固定尺寸大小的 2D 网格上的垂直柱，然后对每个柱执行线性转换和最大池化以获得 BEV 表征。但他们都没有明确考虑迁移学习设置中的域偏移。

检测器

图 2：所提出的 3D-CoCo 模型的示意图，其中包含特定域的 3D 编码器，并对 BEV 特征执行对比自适应以实现实例级的特征对齐。

三、方法

我们提出 3D-CoCo 作为点云检测中无监督域适应任务的可行解决方案。它对从异构几何中学习可迁移特征有两个贡献，分别是：位于新架构设计中，如图 2 所示；以及通过困难样本挖掘来增强的对比实例对齐框架，如图 3所示。

3.1 3D-CoCo 架构 特定域的 3D 编码器。

由于不同的物理环境和传感器配置，3D 场景中的迁移学习可能会遭受剧烈的几何变化，例如点云的密度变化和不同的遮挡率。尽管一些工作已经探索了 3D 前置任务的模型预训练，但与 2D 场景相比，3D 视觉仍然缺乏可转移的、经过良好预训练的backbone。一个可能的原因是很难减少 3D 编码器底层几何表示的域偏移。

直观地说，我们期望 3D 检测网络能够逐步处理特定域的不可迁移特征，并学习领域不变的语义特征。如图 2 所示，我们提出了一种具有特定域 3D 编码器的新型模型架构，它学习不同的映射函数来解析 LiDAR 点，并将其转换为不同领域的鸟瞰图 (BEV) 空间。值得注意的是，协同训练架构不仅有利于目标域的适应性能，而且有助于保持源域的性能，因为在不同编码器上学习可迁移特征可以促进双向的知识共享。

与领域无关的 BEV 转换模块。

2D 转换模块与来自源域和目标域的数据样本共同训练。它进一步将特定域的 3D 编码器的输出压缩到 BEV 特征图 M 中。BEV 特征应该更具可迁移性，因为它们与 2D 视觉中基于网格的特征图具有相似的结构，因此可以轻松集成到现有的迁移学习技术。基于 M，我们执行对比对齐训练方案，以鼓励学习域不变特征。

检测头。

检测头对 BEV 特征图 M 中的 3D 对象进行分类和定位。给定来自源域的标记样本，检测头被训练以最小化：

检测器

算法 1： 3D 对比协同训练 (3D-CoCo) 的学习过程

检测器

检测器

3.2 困难样本增强对比对齐

由于点云的特征分布稀疏，使用全局分布对齐很难实现域间的有效匹配。因此，我们建议在实例级别利用细粒度对齐，这通过困难样本挖掘得到增强，以避免不良的局部最小值。

检测器

检测器

图 3：困难样本增强对比对齐的idea。

(a-b) 一个简单的对比对齐的使用，引入了目标域中伪标签的样本分布和ground truth之间的点密度和遮挡率不匹配。

(c) 困难样本挖掘通过考虑特定的几何不匹配来转换点云。

(d) 原始的对比对齐更侧重于对 3D 场景中 easy samples对齐，而不是易被忽略的、具有严重遮挡或密度变化的困难样本。

(e) 3D-CoCo的对比对齐方案，通过转换后的困难样本有效地增强，以实现进一步的对齐

点云转换为困难样本。

对比实例对齐的直接使用，往往会导致由伪标签获得的样本分布与目标域上的ground truths之间的不匹配。

首先，如图 3(a) 所示，伪标签更集中在点云密集的模式中，而不是点云稀疏的模式中。

其次，如图 3(b) 所示，伪标签不能完全覆盖严重遮挡的模式。因此，大多数由正伪标签诱导的实例，可以被视为具有足够点或完整几何的“简单样本”。然而，我们认为被忽视的“困难样本”更可能分布在如图 3(d) 所示的边缘区域，对于 3D 迁移学习同样重要。如图 3(e) 所示，挖掘困难样本可以进一步促进分布对齐，并防止模型过拟合不良的局部最小值。创建虚拟困难样本的关键是考虑图 3(a-b) 所示的几何变化的先验。我们在这里提出了两种机制来创建虚拟的困难样本。

如图 3(c) 所示，第一种变换方法，均匀地丢弃现有密集点云中的点，模拟激光束数量的变化。第二种方法通过破坏简单样本的完整几何形状，来模拟对象遮挡。具体来说，我们计算某个样本的视点，随机选择一部分视点，丢弃这些角度上的点云。与以前应用于 3D 检测的常见增强策略（例如旋转和翻转）相比，变换后的点云通过减少伪标签引起的目标域的分布不匹配，来专注于有效的对比实例对齐，而不是旨在丰富源域的样本多样性。

整体训练流程。

我们提出了一个带有 warm-up 过程的逐步训练程序，如算法1所示。具体来说，我们首先在有标记的源域上预训练一个源检测器，并使用它在目标集上生成伪标签。然后我们进行困难样本挖掘（HSM）并增加目标集。接下来，我们按照方程式 (6) 来预热 3D-CoCo 检测模型。这允许在训练的早期阶段，更稳定的收敛。对于剩余的epochs，我们使用集成和投票机制，更新伪标签。在逐步协同训练中，Dθ 逐渐适应目标域，同时保持域内的性能。

四、实验

4.1 实验设置 数据集。

我们在三个广泛使用的、基于 LiDAR 的数据集上评估 3D-CoCo，包括 Waymo 、nuScenes 和 KITTI 。每个数据集在外部环境（即交通状况）和内部传感器配置（即光束数量）中，都有特定的属性，因此它们之间存在巨大的域差距。具体来说：

1）Waymo 数据集，在美国全天使用 5 光束LiDAR 传感器，在多种天气条件下收集的。

2）nuScenes 数据集，由 32 光束激光雷达传感器在美国和新加坡收集。

3）KITTI数据集，在阳光明媚的白天由德国的 64 光束 LiDAR 传感器收集。我们在数据集之间构建了 4 个域适应benchmarks，包括：（i）Waymo→nuScenes，（ii）nuScenes→Waymo，（iii）Waymo→KITTI，和（iv）nuScenes→KITTI。我们使用三个数据集的共同类别，即 Car/Vehicle。在这里，KITTI 仅用作目标域，因为它比其他两个数据集小得多。

检测器

表 1：无监督域适应的平均精度和相应的封闭差距的结果。请参阅文本以了解度量的定义。

N：nuScenes ；K：KITTI ；W：Waymo 。

模型比较。

如表 1 所示，首先将 3D-CoCo 与仅使用源域数据训练的“Source Only”模型进行比较。我们使用包括两种现有的跨域 3D 检测方法： 1）SN 通过利用目标域的对象级统计数据，来规范源域的对象大小。 2）ST3D [35] 是一种自训练pipeline，通过使用目标域数据的伪标签进行再训练，实现了SOTA的域适应结果。

在与我们相同的base检测器上，我们重新实现了 SN 和 ST3D。最后，还将 3D-CoCo 与“Oracle”模型进行了比较，该模型使用有标记的目标域数据进行训练，以粗略地表示一个适应模型在目标域上的最佳性能。

检测器

实施细节。

我们关注Yin等人，用两个交替的 3D 编码器构建base检测器，包括 VoxelNet 和 PointPillars。对于 VoxelNet，我们将体素大小设置为 (0.1, 0.1, 0.15) m，对于 PointPillars，我们将体素大小设置为 (0.1, 0.1) m。我们使用学习率为 1.5 × 10−3 的 Adam 优化器。我们将 KITTI 数据集的最大训练 epoch 数设置为 30，Waymo 数据集和 nuScenes 数据集设置为 20，warm-up占总 epoch 的一半。

对于伪标签生成，我们将 0.7 的high-pass阈值应用于 IoU ，以获得前景样本，并将 0.2 的low-pass阈值应用于背景样本。为了减少数据集之间对象大小的域偏移，我们使用随机对象缩放 (ROS) 策略，在使模型适应 KITTI 数据集时，缩放因子在 [0.75, 0.9] 范围内。这样，与统计归一化（SN）不同，我们的方法不需要目标域统计的准确先验知识。

4.2 主要结果

如表 1 所示，3D-CoCo 在所有适应benchmarks上，都大大优于所有其他模型。尤其是在基于 VoxelNet 主干的 nuScenes→KITTI 和 Waymo→KITTI 上，3D-CoCo 将 AP3D 中的域差距缩小了大约 81% ~89%。此外，对于两个大规模数据集（即 Waymo 和 nuScenes）之间的适应任务，3D-CoCo 也取得了相当大的改进，在 VoxelNet 上将 AP3D 的域差距缩小了 37%，在 PointPillars 上缩小了 50%。

值得注意的是，尽管考虑了 3D 域偏移，SN 和 ST3D 在域适应设置下取得了相对较小的改进，甚至对base模型产生了负面影响（仅源域）。相比之下，尽管从低质量的伪标签开始，3D-CoCo 仍然表现良好，因为有效的协同训练结合了有标记的源数据和增强的困难样本。总体结果验证了 3D-CoCo 在不同无监督域适应benchmarks上的可迁移性，以及其泛化到不同检测网络的能力。

4.3 消融研究 架构设计。

所有消融研究都是在 nuScenes→KITTI 上进行的，使用 VoxelNet 作为网络backbone。首先，表2 (I) 比较了在模型架构中使用不同参数共享策略的结果。通过用域共享编码器替换 3D-CoCo 的特定域 3D 编码器，我们观察到 AP3D 的域内性能下降了 6.5%，跨域性能下降了 5.3%，这表明由于低级几何偏移，难以在原始点云上学习可迁移的特征。

我们进一步评估了一个包含单独 BEV 转换模块的baseline模型，发现域适应性能在 AP3D 中下降了 5.3%。它展示了 BEV 特征的可转移性。此外，我们的模型可以很好地与 ROS 配合使用，ROS 旨在减少目标域上的对象大小偏差，但不可避免地会降低源域上的定位精度。使用不同的 ROS 比例因子值，如表 2(II) 所示，我们的模型在域内和跨域评估设置中始终实现性能提升。

检测器

表 2：架构设计的消融研究。

图1E和2E分别表示使用域共享3D编码器和单独的特定域编码器。1U/2U 表示使用共享/分离的 BEV 转换模块。所有模型都在所提出的对比对齐框架中，使用了随机对象缩放ROS 技术进行训练。在 (I) 中，ROS 比例因子在 [0.75, 0.9] 范围内；在 (II) 中，它的范围在 [0.75, 1.1]。我们报告了域内和跨域的性能。

对比学习方案。

通过比较表3中的baseline模型 (a) 和 (b) ，我们观察到平衡背景采样策略有效地提高了适应结果。通过进一步将模型 (c) 纳入比较，这是最终提出的模型，我们验证了使用相似性优先标准的有效性。我们进一步将 3D-CoCo 与现有的prototype-level 对齐方法进行比较，这些方法计算每个类别的所有样本的归一化特征作为对齐的类别级prototypes。

从表 3 中可以看出，由于原型的模糊性，baseline模型 (d) 在实例级对齐情况下比提出的模型 (c) 的性能差得多。此外，如表 4 所示，困难样本挖掘 (i) 显着提高了原始的对比实例对齐算法 (e) 的性能，mAP 为 6.8%。通过比较模型（e-g-i），我们可以看到均匀去除和遮挡模拟两种变换方法，渐进地提高了模型性能。

检测器

表 3：对比对齐方案的消融研究。

Bkgd：平衡背景采样策略；Sim：相似性优先准则；Proto：prototype-level对齐，而不是instance-level对齐。

表 4：困难样本挖掘的消融研究。

Rand：随机地去除点；Unif：均匀地去除点；Pers：去除某些视角的点以模拟遮挡。

与自训练pipeline的比较。

基于相同的初始化预训练源模型，我们将协同训练过程（在图 4 中表示为 CT）与自训练（表示为 ST）进行比较。在图 4(a1) 中，在不更新伪标签的情况下，两个模型在早期训练阶段都有波动，但 3D-CoCo 收敛更快、更稳定，比自训练模型具有更高的性能。图 4（a2）显示了true positive和false positive预测的比率，表示为 TPs/FPs。这表明我们的协同训练方法比自训练baseline产生了更低的检测噪声。

此外，通过在训练过程中更新伪标签，如图 4(b1-b2) 所示，所提出的协同训练框架在检测精度上始终优于自训练，并且随着伪标签的逐步改善，产生的检测噪声极低。

最后，我们对通过不同置信度分数过滤后的伪标签进行敏感性分析，其中较低的置信度分数会带来更多的噪声标签，而较高的置信度分数往往会错过positive标签。如图 4(c1) 所示，由于自训练完全依赖于伪标签，因此它对过滤分数更敏感，而我们的协同训练框架对伪标签的质量更加鲁棒。

检测器

图 4：自训练 (ST) 和提出的协同训练 (CT) 方法的比较。(a1-a2) 不更新伪标签的训练。(b1-b2) 使用逐步更新的伪标签进行训练。(c1-c2) 使用由不同置信度分数过滤的伪标签进行训练。AP3D 表示检测精度。TPs/FPs 的比率表示检测噪声。HSM：困难样本挖掘。

五、相关工作 3D点云检测。

基于 LiDAR 的 3D 检测器旨在从点云中定位并分类 3D 对象，点云可大致分为两类：基于点的和基于网格的。基于点的方法将原始点作为输入，并应用 PointNet 来提取逐点特征并为每个点生成proposals。基于网格的方法提出将点云转换为规则网格作为模型输入，其中 Voxelization 是将点云映射为规则3D 体素的常用技术。其他方法将点云量化为某些类型的 2D 视图，例如鸟瞰图和范围视图。

与基于点的方法相比，它们效率更高，加速了大规模数据集的训练，如 nuScenes 和 Waymo 。在这项工作中，为了计算效率，我们采用基于anchor-free检测头的 VoxelNet 和 PointPillars作为base检测器。

2D 无监督域适应。

在 2D 视觉任务中提出了多种解决方案，包括分类、检测和分割，大致可分为两类：分布对齐和自训练。对于第一组，对抗学习被用来在特征空间中执行对齐。此外，对比学习也被用于细粒度的特征对齐[10,31,24,40]。此外，一些作品借用图像转换技术在像素级别执行对齐。至于第二组，自训练方法通常分配伪标签来指导目标域上的再训练过程。

与这些方法相比，3D-CoCo 源于 3D 几何位移的独特属性。通过使用特定域的编码器、与领域无关的 BEV 转换模块和转换后的点集，它有效地将原始的对比适应方法扩展到 3D 对象检测。

3D 无监督域适应。

最近的一些工作有效地减少了点云分类和语义分割中的域偏移。在本文中，我们专注于 3D 目标检测的域适应任务，该任务只有少数研究工作进行了讨论。统计归一化方法通过使用目标域的已知统计数据来归一化源域的对象大小，进而缩小 3D 域偏移，这在无监督自适应任务中通常是不可用的。

为了解决这个问题，SF-UDA 使用时间相关性来估计目标域中的尺度，并通过转换伪标签的尺度来重新训练目标域数据上的检测模型。目前的工作进一步探索了目标域数据上的伪标签生成机制，作为自训练的监督信号。由于自训练方法的适应过程可能会被有噪声的伪标签误导，这些方法利用复杂的策略来提高伪标签的质量。与自训练相比，3D-CoCo 利用协同训练框架，在该框架中，有标记的源数据可以在适应过程中为检测模型提供更稳定的监督。

六、结论

在本文中，我们提出了用于点云检测的无监督域适应的 3D-CoCo。3D-CoCo 包含一个新颖的模型架构和一个新的对比学习框架。基于 BEV 特征在 3D 场景中比低级几何特征更具可转移性的特点，我们创新性地提出集成领域特定的 3D 编码器与领域无关的 BEV 转换模块。然后，我们对 BEV 特征进行了对比实例对齐，通过困难样本挖掘来增强。三个自动驾驶数据集的实验，显示了 3D-CoCo 的有效性。作为 3D 点云检测关于迁移学习问题的试点工作，我们遵循无监督域适应的典型训练设置，在训练时比现有的自训练方法占用更多的内存。

审核编辑：刘清

打开APP阅读更多精彩内容