CVPR2023 I BUFFER:点云配准中卓越精度、高效性和泛化性的完美平衡

描述

深度学习

一个理想的点云配准框架应具备卓越的精度、可接受的效率和强大的泛化能力。然而,这是非常具有挑战性的,因为现有的配准技术要么不够准确,要么效率低下,要么泛化能力差。如何在这三个关键要素之间取得令人满意的平衡仍然是一个悬而未决的问题。在本文中提出了BUFFER,一种点云配准方法,用于平衡精度、效率和泛化能力。本文方法的关键在于同时利用点对点和面对面的技术,同时克服了固有的缺点。与现有方法的简单组合不同,本文网络的每个组件都经过精心设计,以解决特定的问题。具体而言,本文首先引入了一个点对点学习器,通过预测关键点并通过估计点的方向来改善特征的表示能力,从而提高了计算效率。然后,本文部署了一个面对面嵌入器,利用轻量级的本地特征学习器来提取高效且通用的面对面特征。此外,本文还提出了一个内点生成器,它结合了简单的神经层和通用特征,用于搜索内点对应关系。在真实世界的场景中进行的大量实验证明,本文的方法在精度、效率和泛化性方面兼顾了最佳表现。特别是,本文的方法不仅在未见过的场景中取得了最高的成功率,而且几乎比专注于泛化的强基线方法快了近30倍。

1 前言

点云配准在 LiDAR SLAM、3D 重建和机器人导航中发挥着关键作用。理想的配准框架不仅需要准确有效地配准几何形状,而且在不同传感器获取的未见过的场景中也需要准确有效地配准几何形状。然而,由于数据质量不均匀(例如噪声分布、密度不均匀、视角不同、不同传感器之间的域间隙),如何在效率、准确性和泛化之间实现令人满意的平衡仍是一个具有挑战的问题。这里也推荐「3D视觉工坊」新课程三维点云处理:算法与实战汇总》。

现有的配准方法主要可分为基于对应关系的方法和无对应关系的方法。通过建立一系列可靠的对应关系,基于对应关系的方法通常比无对应关系的方法具有更好的配准性能,特别是在大规模场景中。然而,这些基于对应关系的方法仍然没有为大规模的现实应用做好准备,因为它们要么不够准确,要么效率低下,要么泛化性差。

总体而言,现有基于对应关系方法的局限性在于两个方面。首先,目前还没有统一、高效、通用的特征学习框架。许多 patch-wise 方法通常采用复杂的网络和复杂的步骤来编码局部 3D patch 的细粒度几何形状。得益于固有的对遮挡具有鲁棒性且易于区分的局部特征,patch-wise方法通常具有良好的泛化能力,但效率较低。为了提高计算效率,几种逐点方法采用分层架构来连续采样原始点云。然而,层次结构倾向于捕获全局上下文而不是局部几何,这使得学习的逐点特征容易同质化并且难以正确匹配,特别是对于不可见的上下文。其次,缺乏高效、通用的对应关系查找机制。大多数基于对应关系的配准利用 RANSAC 或从粗到细的匹配策略来搜索可靠的对应关系。考虑到 RANSAC 算法的效率与内点率有关,当内点率很低时,该方法将非常耗时。此外,由于依赖全局上下文匹配,从粗到细的策略无法推广到未见领域中。

最近的一些工作还尝试利用无监督域适应技术或简化网络架构以实现泛化性和效率之间更好的平衡。然而,这些方法要么需要额外的目标数据集进行训练,要么牺牲学习模型的表示能力。总的来说,效率和泛化性似乎是相互矛盾的,因为现有技术本质上只专注于一个领域,并且不能相互补充。

在本文中,通过结合 point-wise 和 patch-wise 方法,在效率和泛化性方面实现了完美的平衡。此外还提出了一种有效且通用的搜索机制来提高对应关系的内点率。所提出的配准框架称为 BUFFER,主要由 Point-wise Learner、Patch-wise Embedder 和 Inliers Generator 组成。输入点云首先被输入到逐点学习器中,其中使用新颖的等变全卷积架构来预测逐点显着性和方向,进一步降低计算成本并增强特征的表示能力。通过选定的关键点和学习的方向,Patch-wise Embedder 利用轻量级的基于 patch 的特征学习器,即 MiniSpinNet,来提取高效且通用的局部特征和圆柱形特征图。通过匹配局部特征,可以获得一组初始对应关系以及相应的圆柱特征图。然后将这些通用的圆柱形特征图输入 Inlier Gener-ator,它使用轻量级 3D 圆柱卷积网络预测每个对应关系的刚性变换,并通过寻求最佳变换来生成最终可靠的对应关系集,然后使用 RANSAC来估计更精细的变换。

实际上,如果简单地结合现有方法,在准确性、效率和泛化性之间取得令人满意的平衡是极其困难的。例如,点式方法 Predator 很容易受到看不见的场景的影响,而补丁式方法 SpinNe 则非常耗时。当直接将它们组合在一起时,整个框架既不高效也不通用。相比之下,本文提出的 BUFFER 中的每个组件都经过精心设计来解决特定问题,因此更有可能实现卓越的平衡。

仅在 3DMatch 数据集上进行训练,本文的 BUFFER 不仅在 3DMatch 数据集上实现了 92.9% 的最高配准召回率,而且在未见过的室外 ETH 数据集上也达到了 99.30% 的最佳成功率(显着)超过最佳逐点基线 GeoTrans 近 10%)。同时,本文的 BUFFER 几乎比 patch-wise 方法快一个数量级。大量实验证明了本文方法的卓越性能和效率。

总的来说,本文的贡献有三方面:

• 本文提出了一种新的点云配准框架,巧妙地结合了 point-wise 和 patch-wise 方法,在准确性、效率和泛化性方面达到了完美的平衡。

• 本文引入了等变全卷积架构来预测逐点方向和显着性。

• 引入新的对应关系搜索策略以提高初始对应关系的内点率。

2 相关背景

基于对应的配准首先提取点云特征,然后通过特征匹配在两次扫描之间建立明确的点对应关系,最后估计刚性变换。从特征的角度来看,现有的基于对应关系的配准方法可以大致分为两类:patch-wise 和 point-wise 方法。patch-wise 方法利用共享权重网络来表征以关键点为中心的局部 3D patch,为每个 patch 生成稀疏描述。逐点方法。point-wise 方法基于分层架构在一次前向传递中处理整个点云,为每个片段生成密集的描述。无对应关系配准意味着直接估计两片点云之间的刚性变换,通常通过建立端到端的可微分网络来实现。根据网络架构的不同,现有的无对应关系配准方法可以分为基于软对应关系和基于直接回归的配准方法。尽管没有明确的对应关系,基于软对应的方法通常依赖特征之间的软对应关系,然后是利用 SVD 来生成刚性变换。基于直接回归方法的目的是在没有任何硬或软对应关系的条件下回归刚性变换。

现有方法在配准精度方面表现出令人满意的性能,但仍无法实现效率和泛化性之间的完美平衡。本文通过巧妙地集成 patch-wise 和 point-wise 网络并设计一个新的3D配准框架来解决这个问题,其中 point-wise 组件主要负责提高效率并使 patch-wise 模块能够提取通用特征。

3 方法

3.1.  Problem Statement

给定两个部分重叠的点云 和 ,点云配准的目标是计算 和 之间的最优刚性变换 。如果子集 和 之间存在真实的一一对应关系,配准问题可以重新表述为最小化问题:

其中 是正确匹配对应关系的数量, 是置换矩阵。

为了获得点子集 和 ,本文提出了一种新的配准框架,称为 BUFFER,它主要由 Point-wise Learner、Patch-wise Embedder 和 Inliers Generator 组成。如图2所示。

深度学习

图 2. 本文所提点云配准框架 BUFFER 的总体结构。

3.2.  Point-wise Learner

Point-wise Learner 旨在预测旋转不变关键点和旋转等变方向,进一步提高配准效率和准确性。如图2所示,它由两个组件组成。等变全卷积网络。为了获得鲁棒的关键点和点方向,第一步是构建主干网络来学习密集和旋转等变特征。现有的方法如要么具有极高的空间和时间复杂度,要么依赖于对平移敏感的全局点坐标。本文设计了一种轻量且对平移不变的等变全卷积网络(EFCN)。为了保证旋转等变性和平移不变性,本文探索了点云 的以下三个几何属性:

相对坐标:

邻域中心:

初始方向: 为最小特征值对应的特征向量。

这里,表示 在支撑半径 内的所有邻近点。基于此,第 层中点 的等变卷积可以重新表述为:

其中是权重矩阵,表示等变映射。

由于与 SO(3) 旋转等变且对平移不变,因此整个卷积网络也具有相同的不变性和等变性。本文的 EFCN 基于 KPConv 的分层架构(详细信息在补充材料中)。与现有的等变网络相比,本文的EFCN更加高效并且可以应用于场景级任务。尽管分层架构中的采样/上采样不可避免地会带来一些定量误差,但其背后严格的数学模型已经为网络学习等变特征提供了强大的归纳偏差。点云的 EFCN 是相同的。等变和不变分支。下一步是预测旋转不变关键点和旋转等变方向。为此,本文将最后一个卷积层中的等变特征输入到两个独立的解码器分支中,以产生密集方向和显着性。如图 2 所示。同样的操作也适用于点云 。

受益于每层的等变性,最终学习到的方向自然与 SO(3) 旋转等变。在另一个不变分支中,我们采用与前任工作相同的不变变换来产生不变信号。通过扁平化并将其输入三个 MLP 层,然后进行 Softplus 激活函数,预测最终的逐点显着性,其中具有较高显着性的个点被视为关键点。

综上所述,基于本文的 EFCN,Point-wise Learner 可以预测密集的显着性,以选择更容易匹配的关键点,从而提高配准效率。同时,Point-wise Learner 能够学习鲁棒的点方向,这有利于后续的 Patch-wise Embedder 学习高度描述性的特征。

3.3. Patch-wise Embedder

该模块旨在学习所选关键点的高效且通用的特征。它包含两个关键组件,如下所述。

Mini-SpinNet.本文利用局部特征学习器,即 SpinNet,来提取一般特征。然而,普通的 SpinNet 非常耗时且占用大量内存。为了缓解这些问题,本文开发了一种轻量级架构,称为 Mini-SpinNet 以提取一般的局部补丁特征。

Reference Axes.在获得效率极大提升的同时,必须承认这种轻量级结构不可避免地恶化了特征的可辨别性。为了补偿性能,本文采用学习的方向作为参考轴,这比普通 SpinNet 中使用的手工制作的 Z 轴更具可重复性和鲁棒性,以提取更独特的特征。

最后,可以获得一组通用局部特征和圆柱特征图。通过在和之间进行特征匹配,可以建立一系列初始对应关系,如图 2 所示。总的来说,本文的 Patch-wise Embedder 不仅轻量级且高效,而且还可以学习独特和通用的局部特征用于特征匹配。

3.4.  Inliers Generator

该模块旨在从一系列初始对应关系中搜索内部点,提高整个框架的配准性能。如图 2 所示,它由两个组件组成,如下所述。

变换估计。在这里,从特征的角度来处理内点搜索问题。给定初始点对应关系的列表,对于每对对应关系,还获得两个圆柱特征图,其中表示高度,宽度,以及展开的圆柱形特征图的特征维数。根据 3.3 节,可以知道以关键点为中心的局部补丁使用旋转矩阵与学习的方向预先对齐。因此,和之间仅存在 SO(2) 旋转。基于此,本文的目标是估计两个圆柱形特征图之间的 SO(2) 旋转,从而恢复两个匹配的局部补丁之间的刚性变换。

受立体匹配中视差回归的启发,首先通过计算在不同宽度值下计算的两个圆柱形特征图之间的差异来构造4D匹配 cost volume。请注意,cost volume 在圆柱体上 360° 内是连续的。为了保留此特性,利用轻量级 3D 圆柱卷积网络 (3DCCN) 进行成本聚合。经过 softmax 运算,获得每个偏移的概率。然后通过 softargmax 运算计算预测偏移:因此,两个圆柱特征图和之间的 SO(2) 旋转可以通过以下方式求出:

此外,为每对对应关系产生旋转矩阵和平移向量以用于内点搜索。内点搜索。由于内点对应关系具有相似的估计变换,因此很容易从许多假定的对应关系中找到它们。具体来说,首先根据每个变换满足的对应数量寻求最佳变换,其中是指示函数,表示欧氏距离,表示内点距离阈值。然后获得内部对应关系,

总的来说,本文的内点生成器首先利用简单的神经层和一般的圆柱特征来估计每对对应关系的粗略刚性变换,然后根据内点之间的变换相似性搜索可靠的对应关系。内部值生成器从特征级别而不是对应级别修剪异常值。因此,所提出的 Inliers Generator 与现有的异常值拒绝方法并不矛盾,并且还可以与这些方法相结合来估计更精细的刚性变换。

3.5.  Training and Inference

损失函数。本文使用由四项组成的损失函数来训练整个模型:。给定一组真实对应关系和真实变换,可以获得相应的方向由逐点学习器。受概率倒角损失的启发,本文定义了概率余弦损失函数作为学习方向的监督:其中是真实匹配对应关系的数量,是可学习的参数。接下来,按照 D3Feat 利用对比损失进行特征学习,利用检测损失进行关键点检测。为了训练所提出的 Inliers Generator,首先计算两个圆柱形特征图之间的真实偏移,然后采用 L1 损失作为变换估计监督:假设生成。本文发现 RANSAC 算法对于具有高内点率的对应关系非常有效。在整个注册框架中, RANSAC 的时间消耗几乎可以忽略不计。因此,利用 RANSAC 计算精确的刚性变换。

4 实验

在本节中,首先测试训练集和测试集属于同一域时 BUFFER 的配准性能。然后在未见过的领域进行广泛的比较实验以评估泛化性。最后,进行了一组消融研究。

4.1. Datasets and Settings

选择四个数据集,即室内 3DMatch 和 3DLoMatch 、室外KITTI 和 ETH 来评估所有方法的配准性能。在 3DMatch 和 3DLoMatch 数据集上,使用注册召回(RR)作为评估指标。

在 KITTI 和 ETH 数据集上,均使用相对平移误差(RTE)、相对旋转误差(RRE)和成功率作为评估指标。实施细节。BUFFER 是用 PyTorch 实现的。为了保证公平性,利用基线发布的代码和训练模型进行对比实验。所有方法均使用 PyTorch 实现,并在具有 Intel Xeon CPU @2.30GHZ 和 NVIDIA RTX 3090 GPU 的计算机上运行。

4.2. Evaluation on Datasets of Same Domains

室内 3DMatch 数据集的结果。将所提出的 BUFFER 与在 3DMatch 和 3DLoMatch 数据集上注册召回和运行时间方面最先进的方法进行了比较。如表 1 所示, BUFFER 在 3DMatch 数据集上实现了最高的配准召回率和显著的计算效率。得益于高效的子流形稀疏卷积,FCGF 是最快的方法。然而,FCGF 实现的注册召回率几乎是所有方法中最差的,比 BUFFER 低了近 8%。在低重叠 3DLoMatch 数据集上, BUFFER 的结果与最先进的方法相当。特别是, BUFFER 是最轻量级的方法,比普通 SpinNet 快约 35 倍。

户外 KITTI 数据集的结果。将 BUFFER 与 KITTI 数据集上的强基线进行比较,如表 2 所示。很明显, BUFFER 实现了最高的成功率,并且是最轻量级的模型且效率很高。虽然 FCGF 比BUFFER 更快,但其注册成功率明显低于 BUFFER 15.86%。还观察到所有方法在 KITTI 数据集上花费更多时间来注册点云,而不是在 3DMatch 数据集上。这是因为室外KITTI数据集包含更大的场景和更多的采样点。

深度学习

4.3. Generalizing to Unseen Domains

为了广泛评估所提出的 BUFFER 在未知领域的泛化能力,进行了三组实验:从室内到室外、从室外到室内、从室外到室外的泛化。在每组实验中,所有方法都在一个数据集上进行训练,然后直接在其他未见过的数据集上进行测试。

深度学习

从室内 3DMatch 到室外 ETH 和 KITTI。表3和表4分别列出了从3DMatch到ETH和从3DMatch到KITTI的泛化结果。可以注意到,当直接推广到未见过的数据集时,所有逐点方法都表现出较低的成功率。这主要是因为他们采用分层网络架构来学习特征描述符,这不利于泛化。

还值得注意的是,patch-wise 方法具有出色的泛化能力,但它们非常耗时,几乎比 point-wise 方法慢一个数量级。相比之下, BUFFER 巧妙地结合了这两种方法,不仅在未见过的领域中实现了最高的成功率,而且比 patch-wise 方法要高效得多。诚然, BUFFER 在 RTE 和 RRE 上比 SpinNet 稍差,主要是因为 SpinNet 使用了更多的采样点。

深度学习

从室外 KITTI 到室内 3DMatch。如表 5 所示,这些逐点方法,即 FCGF、D3Feat、Predator 和 GeoTrans,由于域间隙较大而表现出较差的泛化结果。值得注意的是,本文方法在 3DMatch 数据集上的召回率超过 SpinNet 3.6%,而在 3DLoMatch 数据集上性能差距扩大到 11.7%。这主要是因为 SpinNet 只能在低重叠的 3DLoMatch 数据集上生成具有较低内点率的点对应。相比之下,所提出的 Inliers Generator 可以显着提高 内点率,进一步提高整个框架的配准性能。值得注意的是,当直接推广到未见过的 3DMatch 时, BUFFER 达到了 91.2% 的最高 RR,甚至超过了在 3DMatch 上训练的那些强基线(例如 Predator 和 YOHO)。这进一步证明了 BUFFER 强大的泛化能力及其潜在的效用。

深度学习

从户外 KITTI 到户外 ETH。如表6所示,与从3DMatch到ETH的泛化实验相比,GeoTrans和D3Feat等逐点方法在此实验设置下具有显着的性能提升。这是因为 KITTI 和 ETH 数据集仅包含相同的 SO(2) 旋转,并且两个数据集之间的域差距并不大。尽管这个泛化实验确实有利于对旋转和域间隙敏感的逐点方法,但 BUFFER 仍然实现了最佳成功率。这里也推荐「3D视觉工坊」新课程三维点云处理:算法与实战汇总》。

4.4. Ablations

为了证明所提出的等变全卷积网络的有效性,在 3DMatch 数据集上进行了一系列消融实验。系统地评估 BUFFER 中每个组件的贡献。学习方向的消融。为了研究不同设置对方向重复性的影响,进行了以下 3 项消融研究。

用手工方法取代本文学习的方向。在此设置中,方向是通过手工方法计算的,即法线、SHOT、FLARE 和 SpinNet。

用KPConv替换所提出的等变卷积。在此设置中,消融模型对于平移不变,但对于旋转不等变。

用向量神经元(VN)代替所提出的等变卷积。在这种情况下,消融模型对于旋转是等变的,但对于平移不是不变的。

深度学习

用向量神经元(VN)代替所提出的等变卷积。在这种情况下,消融模型对于旋转是等变的,但对于平移不是不变的。图 3 显示了 3DMatch 数据集上所有消融模型的方向误差的定量结果。可以看出:1)与手工技术相比,本文的方法对于现实世界的点云更具可重复性和鲁棒性。这主要是因为所提出的 EFCN 可以学习鲁棒的深度等变特征,而手工方法仅依赖于低级几何属性来计算方向。2)如果神经网络对于旋转不是等变的,或者对于平移不是不变的,则无法估计可重复且鲁棒的方向。这是合理的,因为网络只能粗暴地记住方向,这对于新数据来说无疑是失败的。还发现,所提出的 EFCN 对于等变特征学习和方向估计具有重要意义,并且具有扩展到更多任务的巨大潜力。BUFFER 框架的消融。BUFFER 引入了三个关键组件:学习方向 (LO)、预测关键点 (PK) 和内点生成器 (IG)。为了调查每个模块的影响,进行了以下 6 项消融研究,以证明每个组件的有效性。特别是在 3DMatch 数据集上训练所有消融模型,然后直接在 3DMatch、3DLoMatch 和 ETH 数据集上测试它们。

深度学习

深度学习

表 7 显示了所有消融实验的定量结果。可以看到:1)在不使用任何所提出的组件的情况下,基线(Mini-SpinNet [1])在室内 3DMatch 和 3DLoMatch 数据集上实现了最低的配准召回率,在室外 ETH 数据集上实现了最差的泛化能力。2)当使用所提出的LO或PK时(第2和第3),整个框架的配准精度和泛化能力得到提高。当同时采用 LO 和 PK 时(第 4 点),消融模型在 3DLoMatch 数据集上的召回率和 ETH 数据集上的成功率分别显着超过基线 2.9% 和 5.19%。这清楚地表明,所提出的Point-wise Learner不仅可以提高配准精度,而且有利于模型的泛化。3)当仅采用所提出的IG时(No.5),整个框架的配准性能仍然大大提高。这是因为所提出的IG可以有效地从初始对应中修剪掉一些异常值(定性结果如图4所示),使得在后续假设生成阶段更容易求解正确的位姿。

5 总结

本文提出了一种用于点云配准深度学习框架,称为 BUFFER。引入了高效且通用的特征学习框架和对应关系搜索机制。大量的实验表明,本文的方法在准确性、效率和泛化性之间实现了最佳权衡,大大优于现有技术。

 

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分