一种全新开源SfM框架MASt3R

3D视觉工坊 2024-10-28 3241

描述

来源：3D视觉工坊

1. 导读

运动重建(SfM)是一项在给定一组图像的情况下联合恢复相机姿态和场景三维几何的任务，尽管取得了几十年的重大进展，但仍然是一个具有许多开放挑战的难题。SfM的传统解决方案由复杂的最小解算器流水线组成，当图像没有充分重叠、运动过少等时，该流水线容易传播错误并失败。最近的方法试图重新审视这一范式，但我们的经验表明，他们没有解决这些核心问题。在本文中，我们提出在最近发布的3D视觉基础模型上构建，该模型可以鲁棒地产生局部3D重建和精确匹配。我们引入了一种低内存的方法来精确地对齐全局坐标系中的这些局部重建。我们进一步表明，这种基础模型可以作为有效的图像检索器，而没有任何开销，将整体复杂性从二次降低到线性。总的来说，我们的新型SfM流水线是简单的、可扩展的、快速的和真正不受约束的，也就是说，它可以处理任何有序或不有序的图像集合。在多个基准上的大量实验表明，我们的方法在不同的设置上提供了稳定的性能，特别是在中小规模的设置上优于现有的方法。

2. 引言

运动恢复结构（SfM）是计算机视觉领域一个长期存在的问题，旨在根据每个相机拍摄的图像来估计场景的3D几何结构以及观测该场景的相机的参数。由于它方便地同时为相机和地图提供信息，因此构成了许多实用计算机视觉应用的重要组成部分，如导航（包括地图绘制和视觉定位）、密集多视图立体重建（MVS）、新视角合成、自校准甚至考古学。

实际上，SfM是一个“大海捞针”式的问题，通常涉及高度非凸的目标函数，存在许多局部最小值。由于在这种情况下找到全局最小值直接实现起来过于困难，因此传统的SfM方法，如COLMAP，将问题分解为一系列（或流程）最小问题，例如关键点提取与匹配、相对姿态估计以及通过三角测量和捆绑调整实现的增量重建。异常值（如错误的像素匹配）的存在带来了额外的挑战，迫使现有方法在流程中的多个环节反复进行假设的提出和验证，通常使用随机抽样一致算法（RANSAC）或其多种变体。这种方法几十年来一直是标准做法，但它仍然很脆弱，当输入图像重叠不足或视点之间的运动（即平移）不足时，就会失效。

最近，一系列创新方法提出重新审视SfM，以减轻传统流程的复杂性和解决其缺点。例如，VGGSfM引入了一种端到端的可微版本流程，简化了其中的一些组件。同样，无检测器SfM用学习到的组件替换了经典流程中的关键点提取和匹配步骤。然而，这些变化必须放在适当的背景下考虑，因为它们并没有从根本上挑战传统流程的整体结构。相比之下，FlowMap和Ace-Zero分别提出了一种全新的解决SfM问题的方法，该方法基于全局损失函数的简单一阶梯度下降。它们的诀窍是在场景优化过程中训练一个几何回归网络，作为重新参数化和正则化场景几何结构的一种方式。不幸的是，这种方法仅在特定配置下有效，即对于重叠度高且光照变化小的输入图像。最后，DUSt3R证明，单个Transformer架构的前向传递就可以很好地估计出一个小型双图像场景的几何结构和相机参数。这些特别稳健的估计然后可以使用简单的梯度下降再次拼接在一起，从而放宽了前面提到的许多约束。然而，它产生的全局SfM重建结果相当不准确，且扩展性不好。

在本文中，我们提出了MASt3R-SfM，这是一个完全集成的SfM流程，能够处理完全不受约束的输入图像集合，即从单个视图到大规模场景，甚至可能没有相机运动，如图1所示。我们在最近发布的DUSt3R（一个3D视觉的基础模型）的基础上构建，特别是其最近的扩展MASt3R，它能够在单个前向传递中执行局部3D重建和匹配。由于MASt3R从根本上仅限于处理图像对，因此它在大规模图像集合上的扩展性很差。为了解决这个问题，我们利用其冻结的编码器进行快速图像检索，计算开销可忽略不计，从而得到了一种具有图像数量准线性复杂度的可扩展SfM方法。由于MASt3R对异常值具有鲁棒性，因此所提出的方法能够完全摆脱RANSAC。SfM优化基于MASt3R输出的冻结局部重建结果，通过两次连续的梯度下降进行：首先，使用3D空间中的匹配损失；然后使用2D重投影损失来细化先前的估计。

3. 效果展示

有趣的是，我们的方法超越了运动恢复结构，因为它在没有运动（即纯旋转情况）时也能工作，如图1所示。

上图:使用随机子采样改变输入视图数量时CO3Dv2数据集的相对旋转(RRA)和平移(RTA)精度(视图越多，重叠越大)。与我们的竞争对手相比，MASt3R-SfM在整个范围内提供了几乎恒定的性能，即使是很少的视图。下图:MASt3R-SfM也可以在没有运动的情况下工作，即在纯旋转设置下工作。我们在这里展示了共享同一个光学中心的6个视图的重建。推荐课程：为什么说colmap仍然是三维重建的核心？

4. 主要贡献

我们做出了三项主要贡献。首先，我们提出了MASt3R-SfM，这是一个功能完备的SfM流程，能够处理不受约束的图像集合。其次，为了实现图像数量的线性复杂度，我们展示了如何利用MASt3R的编码器进行大规模图像检索，这是我们的第二项贡献。请注意，只要提供现成的MASt3R检查点，我们的整个SfM流程就无需训练。最后，我们在一系列不同的数据集上进行了广泛的基准测试，结果表明，尽管取得了显著进展，但现有方法在小规模设置中仍然容易失败。相比之下，如图1所示，MASt3R-SfM在多种条件下均表现出最先进的性能。

5. 方法

我们提出了一种新颖的大规模3D重建方法，该方法包括图2中概述的四个步骤。首先，我们使用高效且可扩展的图像检索技术构建共视图。该图的边连接可能重叠的图像对。其次，我们使用MASt3R对该图的每条边进行成对局部3D重建和匹配。第三，我们使用3D空间中的匹配损失和梯度下降，将所有局部点图粗略对齐到同一世界坐标系中。这作为第四步的初始化，在这一步中，我们执行第二阶段的全局优化，这次是最小化2D像素重投影误差。下面我们将详细介绍每个步骤。

6. 实验结果

7. 总结 & 未来工作

我们引入了MASt3R-SfM，这是一种针对无约束结构从运动恢复（Structure from Motion, SfM）的相对简单且完全集成的解决方案。

与当前存在的SfM流程相比，MASt3R-SfM能够处理非常小的图像集合，而不会出现明显的问题。得益于我们方法所依赖的底层MASt3R基础模型中编码的强先验知识，它甚至可以处理无运动的情况，并且完全不依赖于随机抽样一致性算法（RANSAC），这两项特性通常在使用标准基于三角测量的SfM方法中无法实现。

打开APP阅读更多精彩内容