AI技术：一种联合迭代匹配和姿态估计框架

I3963697382 2023-07-18 503

人工智能

636人已加入

描述

1 介绍

一般相机姿态估计问题通常分为两阶段来处理，即首先进行特征匹配，然后根据匹配对应关系估计姿态，所以大家往往关注在要么提高匹配质量，即研究更鲁棒高效的特征检测匹配算法，要么是研究如何过滤潜在的异常值。这样导致匹配和姿态估计割裂开来，这篇文章则不同，他们利用了这两个任务之间的几何关联：几个好的匹配就足以进行大致准确的姿态，反过来，通过提供的几何约束，大致准确的姿态又可以用来引导匹配。为此，他们提出了一个迭代匹配和姿态估计框架，实现了一个基于几何感知的递归注意力模块，该模块输出稀疏匹配和相机姿态。

此外，为了提升效率，避免对无信息特征点进行冗余操作，提出了一种采样策略，将特征点的匹配和注意力得分以及预测姿态的不确定性相结合，自适应去除关键点，与之前主要基于注意力得分的采样方法相比，有效克服了过采样问题。框架从两个方面降低了时间成本：首先，与对所有情况采用固定次数的迭代相比，它对视点或外观变化较少的简单情况运行较少的迭代，而对具有挑战性的情况运行较多的迭代；其次，它降低了每次迭代的成本，显著降低了注意力计算的二次时间复杂性，表明了丢弃潜在的异常值不仅可以提高效率，还可以提高准确性。

主要贡献

1.提出了一种迭代地执行几何感知的匹配和姿态估计的框架，允许这两个任务以迭代的方式相互促进。

2.采用了一种稳健的采样策略来自适应地丢弃迭代过程中的冗余特性点，显著降低了时间复杂度。

3.将姿态不确定性应用于采样策略，进一步提高了精度匹配和姿态估计。

方法

基于transformer的迭代匹配：

首先，给定来自两幅图像的两组特征点，，m和n是特征点的数量，然后匹配器预测的匹配表示为：，其中表示匹配对，而每个特征点由由他的二维坐标，置信度，描述子，d是描述子维数。

这里，作者会将每个特征点的坐标和他的置信度用MLP多层感知器编码为一个高维向量，添加到原来的描述子中进行一个扩充。即.操作如下：

其中 and 是用于的自注意力和交叉注意力机制，是FC层全连接层，是3层的MLP，是通道间串联，使用共享注意力机制来进一步增加预计算的注意力矩阵的描述符：

之后，开始进行迭代匹配预测，在上一步获得扩充描述子后，利用他们计算一个匹配矩阵，，当匹配超过预定义的阈值时定义为预测匹配。与SuperGlue类似，采用最小化匹配矩阵的负对数似然的分类损失来强制网络预测每次迭代的正确匹配，如下所示：

基于transformer的迭代匹配：

由于噪声和退化，并非所有正确匹配都能给出良好的姿态。之前的操作仅保证具有判别性高的描述子的特征点有更高的匹配分数，并且首先被识别以参与姿态估计，但忽略了鲁棒姿态估计所需的几何要求。

因此，直接使用匹配分数超过预定义阈值的所有潜在inliers进行姿态估计可能是不准确的。所以隐式地将几何信息编码进匹配transformer中，强制匹配模块首先关注不仅正确而且很有可能给出良好姿态的匹配。

为此，在每次迭代中，在中超过预定义阈值的匹配用来计算基本矩阵，其中是预测的基本矩阵，是预测的匹配，是匹配分数，然后联合最小化位姿误差和极线误差来强制和真值之间的几何一致性，如下：

是Sampson距离。和分别为真值和预测匹配。

对于每次迭代，最终损失为：

我们将L（t）应用于每次迭代，并计算t次迭代的总损失：

自适应几何感知的采样：事实上，许多关键点是无信息的，并且大量关键点在其他图像中没有对应关系，更新这些关键点会带来额外的时间，所以提出了一种有效的策略来去除这些关键点。

每个关键点所包含的信息由其在注意力矩阵中对其他关键点的贡献来定义（m，n是关键点中query和key的数量，h是head的数量）。通过沿head和key对值取平均值来计算每个关键点的得分，。

在第t次迭代时，包含所有对的匹配置信度的匹配矩阵M（t）揭示了哪些关键点可能具有真正的对应关系。基于匹配矩阵M（t），生成两个子集和。由于 and 中的关键点是潜在的内点，它们可以为寻找更多信息提供指导，即让, s.t. 表示中关键点的自注意力得分，生成了另一组具有高自注意分数的关键点，, s.t.，通过重复这个过程，从具有高交叉注意力得分的X（t）中获得另一个子集作为，并且从Y（t）中具有高自和交叉注意力分数的获得两个集合。最后的集合是信息关键点和匹配关键点的并集，

当描述符不具有判别性时，匹配矩阵M（t）在最初的几次迭代中可能不是非常准确，从而损害准确性。为了缓解这个问题，使用了预测的姿态。将姿态一致性的不确定性定义为

使用r（t）来调整采样阈值θm，

姿态估计：在测试时，每次迭代后计算匹配M（t），并根据与RANSAC的匹配来估计姿态，连续预测姿态P（t）和P（t−1）之间的相对误差作为停止标准来确定是否继续迭代，即如果旋转和平移的最大误差小于阈值时，则迭代停止。

实验

在YFCC100m、Scannet、Aachen Day-Night数据集上进行测试。

YFCC100m是一个大型室外数据集，具有剧烈光照变换、季节变化和视点变化。

Scannet是一个室内数据集，广泛用于深度预测和姿态估计。

基线包括：简单的匹配器，例如MNN和NN-RT，基于滤波的方法，例如OANet、AdaLAM、CLNet和LMCNet，最后还有基于transformer的匹配器SuperGlue, SGMNet,ClusterGNN。