DeepFusion：基于激光雷达和相机深度融合的多模态3D目标检测

3D视觉工坊 2023-03-31 3290

描述

编者按：不确定环境下的自动驾驶的自主决策源于对当前环境的准确判断，从根本上来说，环境感知技术是实现自动驾驶需要解决的首要问题。目前基于激光雷达与相机融合的目标感知在高级别自动驾驶汽车的环境感知领域中非常流行，依据传感器到融合中心的数据处理程度从高到低可以划分为后融合、深度融合和前融合，后融合在提升感知精度方面能力有限，前融合对硬件带宽和算力要求高，因而深度融合成为实现准确目标检测的主流趋势。深度融合的难点之一在于如何解决两种模态经过数据增强后的特征对齐问题，基于此本文提出了一种通用多模态融合3D目标检测模型DeepFusion，引入了两种新技术InverseAug和LearnableAlign，能够作为插件，应用于现有的单激光雷达3D目标检测方法中，在Waymo数据集上验证了所提方法的有效性和鲁棒性。

摘要：激光雷达和相机是为自动驾驶中的3D目标检测提供互补信息的关键传感器。流行的多模态方法［34，36］只是简单地用相机特征来装饰原始激光雷达点云，并将其直接输入现有的3D目标检测模型，但我们的研究表明，将相机特征与激光雷达深度特征而不是原始点融合，可以带来更好的性能。然而，由于这些特征经常被增广和聚合，融合中的一个关键挑战是如何有效地对齐来自两种模态的转换后的特征。在本文中，我们提出了两种新技术：InverseAug，其反转与几何相关的数据增强（例如：旋转），以实现激光雷达点云与图像像素之间的精确几何对齐；LearnableAlign，其在融合期间利用交叉注意力动态捕获图像与激光雷达特征之间的相关性。基于InverseAug和LearnableAlign，我们开发了名为DeepFusion的通用多模态3D检测模型，该模型比以前的方法更准确。例如，DeepFusion分别提高了PointPillars、CenterPoint和3D-MAN行人检测基准为6.7、8.9和6.2 LEVEL_2 APH。值得注意的是，我们的模型在Waymo Open Dataset上实现了最先进（SOTA）的性能，并对输入损坏和分布外数据显示出强大的模型鲁棒性。

Ⅰ。引言

激光雷达和相机是用于自动驾驶的两种互补传感器。对于3D目标检测，激光雷达提供低分辨率形状和深度信息，而相机提供高分辨率形状和纹理信息。虽然人们期望两个传感器的组合提供最好的3D目标检测器，但事实证明大多数最先进（SOTA）的3D目标检测仅使用激光雷达作为输入（Waymo挑战排行榜，于2021年10月14日访问）。这表明如何有效地融合来自这两个传感器的信息仍然具有挑战性。在本文中，我们力求为这个问题提供一个通用的、有效的解决方案。

现有的激光雷达和相机融合大致遵循两种方法（图1）：它们要么在早期阶段融合特征，例如通过使用相应的相机特征装饰激光雷达点云中的点［34，36］，要么使用中期融合，在特征提取之后组合特征［13，17］。两种方法的最大挑战之一是找出激光雷达和相机特征之间的对应关系。为了解决这个问题，我们提出了两种方法：InverseAug 和LearnableAlign 以实现有效的中级融合。InverseAug反转与几何相关的数据增强（例如，RandomRotation ［46］），然后使用原始相机和激光雷达参数来关联两种模态。LearnableAlign 利用交叉注意力动态学习激光雷达特征与其相应的相机特征之间的相关性。这两种技术都是简单、通用的和有效的。基于主流的3D点云检测框架，例如PointPillars ［16］和CenterPoint ［44］，InverseAug和LearnableAlign有助于相机图像与的激光雷达点云有效对齐，且具有最低限度的计算成本（即仅一个交叉注意力层）。当融合对齐的多模态特征时，相机信息具有更高的分辨率，能显著提高模型的识别和定位能力。这些优点对于远距离物体检测特别有益。

图1 我们的方法在深度特征级上融合两种模态，而以前的SOTA方法（例如PointPainting［34］和PointAugmenting［36］）在输入层用相机特征来装饰激光雷达点云。为了解决深度特征融合的模态对齐问题（参见第1节），我们提出了两种技术：InverseAug（参见图2和3）和LearnableAlign，这是基于交叉注意力的特征级对齐技术。

我们开发了一种称为DeepFusion的多模态3D检测模型，其优势如下：（1）可以端到端地训练；（2）能与许多现有的基于体素的3D检测方法兼容的通用模块。DeepFusion作为插件，可轻松应用于大多数基于体素的3D检测方法，如PointPillars ［16］和CenterPoint ［44］。

我们的大量实验表明，（1）有效的深度特征对齐是多模态3D目标检测的关键；（2）通过我们提出的InverseAug和LearnableAlign改进对齐质量，DeepFusion能显著地提高了检测精度；（3）与单模态基准相比，DeepFusion对输入损坏和分布外数据更鲁棒。

在Waymo Open Dataset上，DeepFusion分别提高了几种主流的3D检测模型的精度，如PointPillars ［16］、CenterPoints ［44］和3D-MAN ［43］分别提高了6.7、8.9和6.2 LEVEL_2 APH。我们在Waymo Open Dataset上获得了SOTA的结果，即DeepFusion在验证集上比PointAugmenting ［36］（先前的最佳多模态方法）提高了7.4行人LEVEL_2 APH。结果表明，我们的方法能够有效地将激光雷达和相机模态结合起来，其中最大的改进在于对远距离目标的识别和定位。

我们的贡献可以归纳为三个方面：

• 据我们所知，我们是第一个系统地研究深度特征对齐对多模态3D目标检测的影响；

• 通过 InverseAug 和LearnableAlign 实现深度特征对齐，从而实现精确、鲁棒的3D目标检测器；

• 我们提出的模型DeepFusion在Waymo Open Dataset上实现了SOTA的性能。

Ⅱ。相关工作

点云3D目标检测。激光雷达点云通常表现为无序的集合，许多3D目标检测方法倾向于直接处理这些原始的无序点。PointNet ［25］和PointNet++ ［26］是直接将神经网络应用于点云的早期开创性工作。随后，［22、24、31、42］还学习了类似PointNet［25］层的特征。激光雷达点云也可以表示为密集的距离图像，其中每个像素包含额外的深度信息。［1，18］直接在距离图像上工作以预测3D边界框。

另一种3D目标检测方法将激光雷达点云转换为体素或垂直柱，从而出现两种更常用的3D目标检测方法：基于体素和基于垂直柱的方法。VoxelNet ［46］提出了一种基于体素的方法，该方法将点云离散化为3D网格，每个子空间称为体素。然后可以将密集3D卷积网络应用于该网格以学习检测特征。SECOND ［40］建立在VoxelNet之上，并提出使用稀疏3D卷积来提高效率。由于3D体素的处理通常很耗时，PointPillars ［16］和PIXOR ［41］进一步将3D体素简化为鸟瞰2D垂直柱，其中具有相同z轴的所有体素被折叠成单个垂直柱。然后，可以利用现有的2D卷积网络来处理这些2D垂直柱以产生鸟瞰图边界框。由于2D垂直柱通常易于且快速处理，因此最近的许多3D目标检测方法［34、38、43、44］建立在PointPillars之上。在本文中，我们还选择了PointPillar作为处理激光雷达点云的基准方法。

激光雷达和相机融合。与依赖激光雷达点云不同，单目检测方法直接从2D图像预测3D盒子［3，15，27］。这些方法的关键挑战是2D图像不具有深度信息，因此大多数单目检测需要隐式或显式地预测每个2D图像像素的深度，这通常是另一个非常困难的任务。近来，存在组合激光雷达和相机数据以改进3D检测的趋势。一些方法［24，39］首先检测2D图像中的目标，然后使用该信息来进一步处理点云。先前的工作［4，14］也使用两阶段框架来执行以目标为中心的模态融合。与这些方法相比，我们的方法更容易插入大多数现有的基于体素的3D目标检测方法。

点装饰融合。PointPainting［34］提出用相机图像的语义分数来增强每个激光雷达点，这些图像是利用预先训练的语义来提取的。PointAugmenting ［36］指出了语义分数的局限性，并提出利用相机图像的2D目标检测网络提取的深度特征增强激光雷达点云。如图1（a）所示，这些方法依赖于预训练模型（例如，2D检测或分割模型）从相机图像中提取特征，用于装饰原始点云，然后送入激光雷达特征体素化网络构建鸟瞰伪图像。

中级融合。Deep Continuous Fusion ［17］、EPNet ［13］和4D-Net ［23］试图通过在2D和3D backbones之间共享信息来融合两种模态。然而，相机与激光雷达特征之间的有效对齐机制是这些工作中的一个重要遗漏，这在我们的实验中被证实是构建高效的端到端多模态3D目标检测的关键。即使知道有效对齐的重要性，我们也指出，由于以下原因，这样做具有挑战性。第一，为了在现有基准上实现最佳性能，如Waymo Open Dataset，在融合阶段之前，对激光雷达点云和相机图像应用了各种数据增强策略。例如，沿z轴3D全局旋转的RandomRotation［46］通常应用于激光雷达点云，但不适用于相机图像，这使得后续特征对齐变得困难。第二，由于多个激光雷达点被聚集到场景中的同一3D立方体中，即体素，所以一个体素对应于多个相机特征，并且这些相机特征对于3D目标检测并不同等重要。

Ⅲ。 DeepFusion方法

在3.1节中，我们首先介绍了我们的深度特征融合流程。然后，我们进行了一系列初步实验，定量地说明了3.2节中对齐对深度特征融合的重要性。最后，在3.3节中，我们提出了两种改进对齐质量的方法：InverseAug和LearnableAlign。

3.1. 深度特征融合流程

如图1（a）所示，先前的方法，例如PointPainting ［34］和PointAugmenting ［36］，通常使用额外训练好的检测或分割模型作为相机特征提取器。例如，PointPainting使用Deeplabv3+1生成每像素分割标签作为相机特征［34］。然后，用提取的相机特征来装饰原始激光雷达点云。最后，将相机特征装饰的激光雷达点云馈送到3D点云目标检测框架中。

由于以下原因，上述流程是可改进的。首先，将相机特征输入到专门为处理点云数据而设计的几个模块中。例如，如果采用PointPillars［16］作为3D检测框架，则相机特征需要与原始点云一起进行体素化，以构建鸟瞰图伪图像。然而，体素化模块不是设计用于处理相机信息。其次，相机特征从其他独立任务（即2D检测或分割）中学习，这可能导致：（1）域间隙，（2）需要额外标注，（3）引入额外计算，以及更重要的（4）非最优特征提取，因为这些特征是以启发式选择而不是以端到端的方式学习的。

为了解决上述两个问题，我们提出了一种深度特征融合流程。为了解决第一个问题，我们融合了相机和激光雷达的深度特征，而不是在输入水平上装饰原始激光雷达点云，以便相机信息不通过为点云设计的模块。对于第二个问题，我们使用卷积层来提取相机特征并以端到端的方式将这些卷积层与网络的其它组件一起训练。总之，我们提出的深特征融合流程如图1（b）所示：LIDAR点云被输入到现有的LIDAR特征提取器（例如，来自PointPillars ［16］的Pillar特征提取网络），以获得激光雷达特征（例如，来自PointPillars ［16］的伪图像）；相机图像被输入到2D图像特征提取器（例如，ResNet ［10］），以获得相机特征；然后，将相机特征融合到激光雷达特征；最后，由所选LIDAR目标检测框架的剩余组件（例如，Pointpillars的Backbone和检测头［16］）获得检测结果。

与先前的设计相比，我们的方法具有两大优点：（1）丰富上下文信息的高分辨率相机特征不会被错误地体素化，并且不需要从透视图转换为鸟瞰图;（2）缓解了域间隙和额外标注的问题，并且由于端到端训练，可以获得更好的相机特征。然而，缺点也是显而易见的：与输入级装饰相比，在深度特征级上将相机特征与激光雷达信息对齐变得不那么简单。例如，两种模态的异构数据增强导致的不准确对齐可能对融合阶段构成潜在挑战。在第3.2节中，我们验证了特征错位确实会损害检测模型，并在第3.3节中提供我们的解决方案。

3.2. 对齐质量的影响

为了定量评估对齐对深度特征融合的影响，我们禁用了所有其他数据增强，但在训练期间仅将RandomRotation ［46］的数据增强方式添加到深层融合流程的激光雷达点云中。有关实验设置的更多详细信息，请参见附录材料。因为我们只增广激光雷达点云，但保持相机图像不变，越强的几何相关的数据增强会导致越差的特征对齐。如表1所示，多模态融合的优势随着旋转角度的增大而减少。例如，当不施加增强时（最大旋转=0°），改善最显著（+2.6 AP）；当最大旋转为45°时，只有+0.4 AP增益。基于这些观测，我们得出结论，对齐对于深度特征融合是关键的，如果对齐不精确，则来自相机输入的益处变得微不足道。

表1 多模态融合的性能增益随着RandomRotation［46］的幅度增加而减小，这表明精确对齐的重要性（此处不使用InverseAug）。在Waymo Open Dataset的行人检测任务中，显示了从单模态到多模态的LEVEL_1 AP改进。更多详情见第3.2节。

3.3. 提高对齐质量

鉴于深度特征对齐的重要性，我们提出了两种方法，InverseAug和LearnableAlign，以有效地对齐两种模态的深度特征。

InverseAug为了在现有基准上实现最佳性能，大多数方法都需要强大的数据增广，因为训练通常会陷入过拟合的情况。数据增强的重要性可从表1中看出，数据增广可以使精度提升5.0，适用于单模态。此外，Cheng等人［5］还提出数据增广对于训练3D目标检测模型的重要性。然而，数据增广的必要性在我们的DeepFusion流程中具有重要的挑战。具体而言，通常使用不同的增广策略（例如，针对3D点云沿z轴旋转与针对2D图像的随机翻转相结合）来增强来自两种模态的数据，这使得对齐具有挑战性。

为了解决几何相关数据增强引起的对齐问题，我们提出了InverseAug。如图2所示，在数据增广应用于点云之后，给定3D关键点（可以是任何3D坐标，例如激光雷达点、体素中心等）。在增强空间中，仅使用原始激光雷达和相机参数，无法在2D空间中定位相应的相机特征。为了使定位可行，当应用几何相关数据增广时，InverseAug首先保存增广参数（例如，RandomRotate的旋转度［46］）。在融合阶段，它对所有这些数据进行反向增强以获得3D关键点的原始坐标（图2（c）），然后在相机空间中找到其对应的2D坐标。注意，我们的方法是通用的，因为它可以对齐不同类型的关键点（例如，体素中心），为了简单起见，我们只采用图2中的激光雷达点，并且它还可以处理两种模态都得到增强的情况。相比之下，现有的融合方法（如PointAugmenting ［36］）只能在增强之前处理数据。最后，我们在图3（b）中展示了通过InverseAug改进对齐质量的示例。

图2 InverseAug的流程。所提出的目标是将数据增强后获得的关键点，即（a）→（b），投影到2D相机坐标系中。关键点是一个通用的概念，它可以是任何3D坐标，如激光雷达点或体素中心。为了简单起见，我们在这里使用一个激光雷达点来说明这个想法。利用相机和激光雷达参数，即直接从（b）到（d）。在这里直接将关键点从增强的3D坐标系投影到2D相机坐标系的精度较低，我们建议首先将所有的数据增强反向应用于3D关键点，从而在原始坐标中找到所有的关键点，即（b）→（c）。然后，用激光雷达和相机参数将3D关键点投影到相机特征上，即（c）→（d）。如图3所示，其显著提高了对齐质量。

图3 相机和激光雷达对齐质量应用前后的比较。如（a）所示，如果没有InverseAug，激光雷达点（标记为白色）在相机视图中没有与行人和柱子很好地对齐。相比之下，如（b）所示，激光雷达点与相机数据对齐更好。请注意，我们在这个图中只添加了一小部分的数据增强。在训练中，如果没有InverseAug，错位会更严重。

LearnableAlign。对于输入级装饰方法，如PointPainting［34］和PointAugmenting［36］，给定3D激光雷达点云，只有相应的相机像素可以精确定位，因为存在一对一映射。相比之下，当在我们的DeepFusion流程中融合深层特征时，每个激光雷达特征表示一个包含点云子集的体素，因此其相应的相机像素处于多边形中。因此，对齐变成了一个单体素对多像素的问题。一种简单的方法是对给定体素对应的所有像素求平均。然而，直观地，正如我们可视化结果所支持的，这些像素并不同样重要，因为来自激光雷达深度特征的信息与每个相机像素不相等地对齐。例如，一些像素可以包含用于检测的关键信息，诸如要检测的目标对象，而其他像素可能较少提供信息，包括诸如道路、植物、遮光器等的背景。

为了更好地将来自激光雷达特征的信息与最相关的相机特征对齐，我们引入了LearnableAlign，它利用交叉注意力机制来动态捕获两个模态之间的相关性，如图1所示。具体地，输入包含体素单元及其所有对应的N个相机特征。LearnableAlign使用三个全连接层来分别将体素转换为查询q1，并将相机特征转换为键kc和值vc。对于每个查询（即，体素单元），我们进行查询和键之间的内积，以获得包含体素与其所有对应的N个相机特征之间的1×N个相关性的注意力亲和度矩阵。然后将，注意力亲和矩阵由softmax归一化后，用于加权和聚合包含相机信息的值vc。聚合的相机信息通过一个全连接层处理，并最终与原始激光雷达特征连接。最终的输出可以输入到任何标准的3D目标检测框架中，例如PointPillars或CenterPoint。

Ⅳ。实验

我们在自动驾驶汽车的大规模3D目标检测数据集Waymo Open Dataset［32］上对DeepFusion进行了评估。Waymo Open Dataset包含798个训练序列、202个验证序列和150个测试序列。每个序列有大约200帧，并且每帧都有激光雷达点云、相机图像和标注的3D边界框。我们使用推荐的指标，即平均精度（AP）和通过Heading（APH）加权的平均精度对模型进行评估和比较，并报告LEVEL_1（L1）和LEVEL_2（L2）困难目标的结果。我们在表格中突出了LEVEL_2 APH，因为其是在Waymo挑战排行榜中排名的主要指标。

4.1 实施细节

3D目标检测模型。我们利用三种流行的点云3D目标检测方法：PointPillars［16］、CenterPoint［44］和3D-MAN ［43］作为基准。此外，我们还发现他们的改进本（即PointPillars++，CenterPoint++，3D-MAN++）是更好的基准，其使用3层hidden size为256的多层感知机（MLP）将输入的点云构造成伪图像，并将非线性激活函数从ReLU［9，21］改成SILU［7，28］。默认情况下，所有实验都采用3D-MAN++行人模型进行。提交给测试服务器的最终模型还结合其他技术，如模型集成（记为“Ens”），这些技术将在附录A.2中进行讨论。

LearnableAlign。我们使用256个filters的全连接层来融合激光雷达特征与其相应的相机特征。在激光雷达到相机的交叉注意力模块中，训练过程将30%丢弃率的dropout操作应用于注意亲和矩阵作为正则化。交叉注意力模块之后的MLP层是一个带有192个filters的全连接层。最后，由另一个全连接层进行特征拼接（Concatenate），以压缩通道数。与标准的注意力模块实现过程不同，我们实现的是将注意力模块与动态体素化［45］结合的方式。因此，我们在附录材料中放了基于TensorFlow框架的伪代码，其中包含了LearnableAlign实现的更多细节。

InverseAug。受PPBA［5］的启发，我们在训练过程中依次将以下数据增强策略应用于激光雷达点云：随机旋转→全局缩放→全局平移噪声→随机翻转→Frustum-Dropout→随机丢弃激光点。关于数据增强操作的更多细节可以在［5］中找到。与PPBA ［5］和其他工作不同的是，这里我们保存所有随机生成的与几何变换相关的数据增强参数（即随机旋转、全局缩放、全局平移噪声、随机翻转）。在融合阶段，我们将所有这些保存的参数反向应用几何增广方法将3D关键点转换到原始坐标下。此外，我们还需要反转增广操作的顺序（即随机翻转→全局平移噪声→全局缩放→随机旋转）。

4.2 Waymo数据集上的SOTA性能

将我们的方法与Waymo Open Dataset（验证集和测试集）上已发表和未发表的3D目标检测方法进行了比较。

根据表2中的测试结果，DeepFusion在Waymo挑战排行榜上取得了最好的结果，证明了我们方法的有效性。例如，DeepFusion-Ens在Waymo挑战排行榜上取得了最好的结果；与之前最先进的单模态方法AFDetV2［12］相比，深度融合提高了2.42 APH/L2。

表2 Waymo Open Dataset挑战排行榜。∗：据我们所知，这些方法（用浅蓝色突显）不使用模型集成。†：多模态的方法。

我们还比较了验证集上的不同方法，如表3所示。DeepFusion明显优于现有的方法，证明了我们方法的有效性。

表3 在Waymo验证集上的3D目标检测模型之间的性能比较。†：多模态的方法。

4.3 DeepFusion是一种通用的融合方法

将我们方法插入目前流行的3D目标检测框架中，以验证我们方法的通用性。我们比较了六对，每对都有单模态方法和多模态方法。这六个单模态分别是只有激光雷达模态的PointPillars， CenterPoint， 3D-MAN和他们的改进版本（标记为“++”）。如表4所示，表明DeepFusion的插入能够改进单模态检测基准的性能。这些结果表明，DeepFusion是通用的，能够应用于其他3D目标检测框架。

表4 在Waymo验证集上将DeepFusion插入到不同的单模态基准中。L表示仅有激光雷达；L+C表示激光雷达+相机。我们对Pointpillar， CenterPoint， 3D-MAN和它们的改进版本（用“++”表示）进行了评估。通过添加相机信息，我们的DeepFusion能够进一步提高检测性能，超过了只有激光雷达模态的方法。

4.4 改进从何而来？

为了更好地理解DeepFusion是如何利用相机信息来改进3D目标检测模型的，我们进行了定性和定量的深入分析。

首先，根据目标与自车的距离将目标分为三组：30米以内，30米到50米，以及50米以上。图4显示了各组经多模态融合后的相对增益。简而言之，DeepFusion可以在每一个距离范围内均匀地提高精度。特别是，其可实现远距离目标（》50米的LEVEL_2目标提高6.6%）比近距离目标（《30米的LEVEL_2目标提高1.5%）获得更好的检测精度，其原因可能是远距离目标的激光雷达点云非常稀疏，而高分辨率的相机能够填补信息空白。

图4 通过展示不同真值深度范围内的AP指标（所有蓝条都归一化为100%），比较单模式基准和DeepFusion。结果显示，DeepFusion略微提高对近距离目标（如在30米以内）的检测性能，但显著提高对远距离目标（如超过50米）的检测性能。

然后，图5为LearnableAlign的可视化注意力图。我们观察到，该模型倾向于关注具有较强辨别能力的区域，如行人的头部，以及目标的末端，如行人的背部。基于这些观察结果，我们得出结论，高分辨率的相机信息能够帮助识别和预测物体的边界。

图5 LearnableAlign的可视化注意力图。对于每个子图，我们研究一个3D point pillar，并在2D图像中用白框标记。注意力图上所显示的重要区域用红点标记。我们有两个有趣的观察：首先，如（a）和（b）所示，LearnableAlign通常注意行人的头部，可能是因为从相机图像来看头部是识别人类的重要部分（由于激光雷达信息很难识别头部）；第二，如（c）和（d）所示，LearnableAlign还关注目标末端（如背部），利用高分辨率相机信息来预测目标边界，以获得准确的目标大小。

4.5 InverseAug和LearnableAlign的效果

在本节中，我们将展示InverseAug和LearnableAlign这两个组件的有效性。如表5所示，我们观察到这两个组件都可以提高单模态基准的性能。特别是，InverseAug的提高效果更为突出。例如，如果没有InverseAug，对LEVEL_2目标检测的性能从67.0 APH大幅下降到63.5 APH，这已经非常接近仅激光雷达模态63.0 APH的性能。另一方面，虽然LearnableAlign提高比较小，但它的改进也不容忽视。例如，LearnableAlign将LEVEL_2目标检测的最终性能从66.4 APH提高到67.0 APH。消融研究表明，这两个组件都非常关键，我们不应该去掉它们的任何一个。

表5 InverseAug（IA）和LearnableAlign（LA）的消融研究。这两种技术都有助于提高性能，而InverseAug提高的比重更大。

4.6 DeepFusion是一种有效的融合策略

在本节中，将DeepFusion与其他融合策略进行比较。具体来说，我们考虑的方法是：（1）InputFusion，在输入阶段融合相机特征和激光雷达点［34，36］，（2）LateFusion，其中激光雷达点和相机特征分别通过体素网络后进行拼接（concatenation）［36］，以及（3）我们提出的DeepFusion。

结果如表6所示。我们观察到，DeepFusion明显优于其他融合策略。例如，DeepFusion比LateFusion提高了0.5 LEVEL_2 APH（从66.5提高到67.0）。值得注意的是，在我们的实验中，InputFusion与LateFusion相同，但在［36］中，LateFusion更好，因为其解决了激光雷达和相机之间的模态间隙问题。我们假设，在我们的设置中，模态间隙问题已经通过端到端训练来解决，无论何时进行融合，它都将不再发生。

表6 与其他融合策略的比较。输入融合来自点画［34］和点增强［36］。延迟融合来自于点增强［36］。所有的延迟都在一个V100 GPU上测量，具有相同的Lingvo ［29］ 3D目标检测实现，相同的3D检测主干，和相同的相机特征提取器。DeepFusion在所有评估指标上获得最佳性能，而延迟与其他融合方法相当。

4.7 DeepFusion的鲁棒性

鲁棒性是在自动驾驶汽车上部署模型的一个重要指标［20］。在本小节中，我们将研究模型对噪声输入［11］和分布外（OOD）数据［35］的鲁棒性。

对损坏输入的鲁棒性。我们首先测试了两种常见噪声模型在验证集上的鲁棒性，包括激光噪声（随机添加噪声到激光雷达反射值中）和像素噪声（随机添加噪声到相机像素中）。

对于单模态只用激光噪声，而激光噪声和像素噪声用于多模态。如表7所示，在存在噪声的情况下，多模态通常比单模态更稳健。值得注意的是，激光/像素噪声几乎不能降低我们的多模态方法的性能（只有0.2 / 0.5 L2 APH的下降）。即使同时应用激光和像素噪声的情况下，性能下降仍然很低（0.4 L2 APH的下降）。同时，单模态只应用激光噪声就使模型性能下降超过10 APH。

表7 模型对输入噪声的鲁棒性。给定相同训练好的单模态（Lidar）和多模态（Lidar+Camera）模型，我们在原始的Waymo验证集（没有噪声）上进行评估，并手动添加来自激光和像素噪声验证集中的样本。对于激光噪声，我们在所有激光点的反射值上添加扰动。对于像素噪声，我们对相机图像添加扰动。请注意，像素噪声仅适用于使用相机图像作为输入的多模态模型。扰动在激光和像素噪声的均匀分布中采样，最多为原始值的2.5%。我们观察到，与单模态相比，DeepFusion对这些噪声更鲁棒。L表示仅激光雷达；L+C表示激光雷达+相机。

对OOD数据的鲁棒性。为了测试我们的方法对OOD数据的鲁棒性，我们利用Mountain View、San Francisco和Phoenix三个城市的数据训练我们的模型，并在Kirkland上评估模型。结果汇总见表8。我们观察到多模态对OOD数据有更大的鲁棒性。例如，DeepFusion在分布外数据上提高了8.0 LEVEL_2 APH，而在分布内数据上只提高了4.0 LEVEL_2 APH。

表8 模型对分布外数据的鲁棒性。我们在分布内验证集（Default）和分布外验证集（Kirkland）上评估了单模态（Lidar）和多模态（Lidar + Camera）模型。DeepFusion在分布外验证集上实现了更大的提升。L表示仅激光雷达；L+C表示激光雷达+相机。

Ⅴ。结论

本文研究了如何有效地融合激光雷达和相机数据进行多模态3D目标检测。我们的研究表明，当两个模态对齐后的最后阶段的深度特征融合是更有效的，但要对齐不同模态的两个深度特征具有挑战性。为了解决这一挑战，我们提出了InverseAug和LearnableAlign两种技术，使多模态特征能够有效对齐。基于这些技术，我们开发了一系列简单的、通用的、有效的多模态3D目标检测方法，称为DeepFusions，其在Waymo Open Dataset上实现了SOTA的性能。

A. 附录

A.1 对齐质量的影响

在本节中，将为主论文的第3.2节提供更详细的实验设置和更多的初步实验结果。

实验设置。我们使用了第4.1节和第A.2节中提到的3D-MAN++行人模型。为了检查对齐质量，将删除InverseAug和所有数据增强。然后，我们将不同幅度的随机旋转［46］应用于单模态和多模态模型。最后，对于相同的扰动量级，我们计算了来自单模态和多模态模型的最佳验证结果的性能差距。

其他结果。除了使用随机旋转［46］进行测试外，我们还使用随机翻转［46］进行测试，这是另一种在3D点云目标检测模型中常用的数据增强策略。具体来说，随机翻转以给定的概率p沿着Y轴翻转3D场景。在这里，我们将概率分别设置为0%、50%和100%，结果如表9所示。观察结果是相似的：当应用大幅度的数据增强时，从多模态融合的好处减少。例如，当用零概率随机翻转（即不用数据增强）时，改进最显著（+2.3 AP）；当翻转概率为100%时（即每次翻转3D场景），改进几乎为零（+0.03 AP）。

表9 多模态融合的性能增益随着随机翻转［46］幅度的增加而降低，这表明了精确对齐的重要性。这里不使用InverseAug。在Waymo Open Dataset的行人检测任务中，报告了从单模态到多模态的LEVEL 1 AP的改善。

A.2 3D检测器的实施细节

在本文中，由于空间的限制，我们主要提供关于DeepFusion的更多细节。在本节中，我们还将说明构建3D目标检测模型的其他重要实现细节。

点云3D目标检测方法。我们重新实现了三种经典的点云3D目标检测方法，PointPillars［16］、CenterPoint［44］和3D-MAN［43］。如第2节所述，PointPillars将点云体素化，每个地图网格位置有一个细高的体素，构建鸟瞰伪图像；最后，将伪图像输入基于anchor的目标检测流程。一个高级别的模型流程如图6所示。CenterPoint也是一种基于PointPillars的方法，但使用无anchor的检测头。请注意，我们只实现了基于PointPillars的单阶段版本的CenterPoint。3D-MAN与CenterPoint相似，主要的区别是在计算损失时，3D-MAN使用匈牙利算法将预测结果和真值关联起来（更多细节见Yang等［43］的3.1节）。

基本方案的改进。我们将介绍两种简单但有效的发现，能够显著改善点云3D目标检测基准。我们以PointPillars框架为例来介绍，但这些技术可以自然地应用于其他点云3D目标检测框架，如CenterPoint和3D-MAN。如图6所示，我们的框架建立在PointPillars模型的基础上，并用红色虚线框表示我们的修改。NAS块表示使用神经架构搜索找到的体素特征编码。我们还用SILU ［7，28］替换了原始框架中的ReLU ［9，21］激活函数。我们改进的模型（命名为PointPillars++、CenterPoint++和3D-MAN++）显示出比基准方法更好的性能，如主论文中的表4所示。例如，对3D-MAN使用这两种技术后，LEVEL_2 APH从52.2提高到63.0。这种改进是显著的，并且从其他指标和其他基准中都可以观察到一致地效果。

训练细节。我们同时使用LEVEL_1和LEVEL_2两种困难数据进行训练。由于模型难以对LEVEL_2数据进行预测，我们在训练过程中使用不确定性损失［19］以容许模型检测低精度低自信度的目标。

提交模型的细节。我们将DeepFusion应用于CenterPoint来提交我们的模型。我们将随机旋转数据增强的最大旋转扩大到180°（行人模型为120°），因为我们从表1发现其好处。我们还将伪图像特征分辨率从512×512扩大到704×704。我们通过简单地将最后N帧点云一起与之前帧的信息拼接（concatenate）。如图7所示，为了防止在多帧配置下的过拟合问题，我们提出了DropFrame，即从之前的帧中随机删除点云。最好的模型是进行5帧拼接，在训练过程中DropFrame帧的概率为0.5。此外，我们还使用了模型集成和测试时间增强（TTA）的加权框融合（WBF）［12］。对于TTA，我们使用航向旋转和全局缩放。具体地说，我们使用［0°，±22.5°，±45°，±135°，±157.5°，±180°］用于航向旋转，以及［0.95，1，1.05］用于全局缩放。对于模型集成，我们获得了5种不同类型的模型，它们具有不同的伪图像特征分辨率和不同的输入模态，即单模态分辨率为512/704/1024分辨率，多模态分辨率为512/704分辨率。对于每种类型的模型，我们用不同的随机种子训练了5次。然后，我们根据验证集和集成top-k模型的性能对所有25个模型进行排序，其中k是在验证集上得到最佳结果的最优值。

A.3 与大型单模态方法比较

本节的目标是在相同的计算开销下比较单模态基准和深度融合。为了实现这一点，我们首先扩大单模态的模型。由于我们在构建基准模型时已经充分扩大了体素特征编码和backbone，为了进一步扩大单模态以匹配多模态的延迟，扩大伪图像的分辨率可能是最有效的方式，因此我们采用这种策略。具体来说，我们在512到960的分辨率范围下训练模型，并测试每个配置的性能。图8清楚地展示了，DeepFusion的延迟为0.32s，具有67.0 L2 APH的检测性能，而单模态在相同的延迟下只能达到65.7 L2 APH的检测性能。进一步扩大单模态给性能带来了边际增益，上限为66.5 L2 APH，仍然比 DeepFusion更差。

图8 模型延迟与检测性能的关系。DeepFusion在所有延迟条件下都显著优于单模态。

局限性：本文主要关注激光雷达和相机信息的融合。然而，我们提出的方法也能够扩展到其他模态，如深度图像、毫米波雷达和高清地图。此外，我们只采用了基于体素的方法，如PointPillars［16］，但通过采用更强的基准［33］可以进一步提高性能。

审核编辑：李倩

打开APP阅读更多精彩内容