一种适用于动态环境的自适应先验场景-对象SLAM框架

INDEMIND 2025-08-19 709

描述

由于传统视觉SLAM在动态场景中容易会出现严重的定位漂移，本文提出了一种新颖的基于场景-对象的可靠性评估框架，该框架通过当前帧质量指标以及相对于可靠参考帧的场景变化，全面评估SLAM的稳定性。同时，针对现有系统在姿态估计不可靠时缺乏误差校正机制的问题，我们采用了一种姿态精修策略，利用来自可靠帧的信息优化相机姿态估计，有效减轻动态干扰带来的不利影响。在TUM RGB-D数据集上的大量实验表明，我们的方法在具有挑战性的动态场景中，显著提高了定位精度和系统鲁棒性。

• 文章：

Adaptive Prior Scene-Object SLAM for Dynamic Environments

• 作者：

Haolan Zhang, Thanh Nguyen Canh, Chenghao Li, Nak Young Chong

• 论文链接：

https://arxiv.org/abs/2507.21709

• 编译：

INDEMIND

01 本文核心内容

目前，传统视觉SLAM已发展出两种方法：基于特征的方法，这类方法提取并匹配独特的关键点；直接法，这类方法直接对像素强度进行处理，无需中间的特征提取步骤。尽管这些方法在静态环境中效果显著，但在动态场景中，由于存在移动物体和突然的视角变化，对它们往往有着极大挑战，进而导致定位漂移。

对于动态场景导致的特征匹配错误和定位漂移。早期的解决方案侧重于几何方法，例如基于RANSAC的滤波、概率置信度评分以及基于相关性的图分割。近年来出现了更多基于运动的方法，包括结合光流和粒子滤波的PFDSLAM，以及应用K均值聚类进行静态概率估计的StaticFusion和Joint-VO-SF。这些方法在轻度动态场景中虽有效果，但难以处理大规模的动态变化。

为克服这些局限性，研究人员将深度学习技术融入其中。DS-SLAM利用SegNet进行语义滤波，DynaSLAM将Mask R-CNN与几何验证相结合。Blitz-SLAM采用两阶段方法，首先通过深度学习解析场景，然后进行几何验证。CFP-SLAM基于目标检测和运动分类进行分层处理，SG-SLAM则在基于图的框架中整合了语义理解与几何约束。

在这些方法的基础上，近期的研究探索了以目标为中心和以场景为中心的策略。研究人员提出了一种以目标为中心的方法，该方法基于不确定性、观测质量和先验信息评估质量，并实施双重耦合——高质量目标有助于相机姿态估计，而低质量目标仅在后续进行跟踪。

然而，以目标为中心的方法存在一些问题：固定的质量阈值无法适应场景变化；逐帧评估忽略了时间一致性；且缺乏误差校正机制。又有研究人员提出了一种以场景为中心的方法，该方法利用先验运动信息来增强时间一致性，但它难以应对突然的运动变化，由于依赖前一帧而存在跳过关键帧的风险，并且可能将低运动场景误分类为静态场景。

为克服以目标为中心和以场景为中心这两种方法的局限性，我们基于ORB-SLAM3提出了一种适用于动态环境的自适应先验场景-对象SLAM框架。

本文的贡献可概括为：

一种场景-对象质量评估机制，该机制整合了基于帧的指标和动态变化评估，以实现可靠的场景评估。

一种自适应基准更新策略，该策略基于场景质量不断优化参考标准。

一种直接融合方法，用于修正问题帧中的姿态估计误差，从而增强鲁棒性。

在TUM RGB-D数据集上进行了大量实验验证，证明该方法在定位精度和鲁棒性方面有显著提升。

02 方法架构

我们提出的流程（图1）通过一个自适应框架处理RGB-D图像，以在动态环境中实现稳健定位。该框架结合特征提取、语义分割和Lucas-Kanade光流来识别动态对象。我们的方法包含两个关键组件：场景-对象质量评估机制和姿态精修策略。质量评估用于建立基准标准，根据基准对帧进行评估，并随着环境条件的变化动态更新基准。当帧不可靠时，精修策略采用直接法来校正姿态估计，从而在动态场景中保持稳健性。

SLAM

A. 场景-对象质量评估机制

1) 初始化：场景-对象质量评估机制以初始化阶段为开端，旨在建立可靠的基准标准。我们的系统使用四个指标来量化帧质量：对象置信度得分（Sconf），用于衡量所有对象的检测置信度；空间分布得分（Sspatial），用于评估对象在帧内的大小和位置；特征质量得分（Sfeature），用于评估特征响应强度和分布均匀性；以及深度质量得分（Sdepth），用于分析深度覆盖范围、一致性和平滑度。初始整体质量的计算公式为：

SLAM

初始化阶段通过分析初始帧中的对象置信度、空间分布、特征质量和深度信息，为场景评估建立基准。得分最高的帧将成为我们的参考基准，同时设置自适应初始化阈值，可随环境条件的变化进行调整以保持相关性。

2) 场景决策：初始化之后，我们的系统会对每个输入帧进行评估，以确定场景的可靠性。最终的场景质量得分结合了当前帧质量评估（Stotal）和相对于参考帧的变化评估（Schange）：

SLAM

B. 姿态精修策略

当某一帧根据我们的质量评估被归类为问题帧时，我们会采用直接法来精修相机姿态估计。与依赖稀疏对应关系的基于特征的方法不同，我们的方法利用来自强度图像和深度图像的稠密信息，使其在具有挑战性的场景中更具鲁棒性。

03 实验结果

我们在TUM RGB-D数据集上对所提方法进行了评估，该数据集广泛用于动态环境下SLAM系统的基准测试。

A. 场景-对象质量评估机制的评估

在fr3/w/rpy序列的900帧中，我们的评估机制识别出30帧问题帧。如图2所示，这些问题帧出现在相机朝向特征稀少的天花板（a）或快速滚转旋转时（b）。这些结果表明，我们的评估机制能够有效识别传统基于特征的方法容易失效的帧。所提出的质量指标成功捕捉到了几何约束（如天花板视图中的稀疏特征）和动态挑战（如快速旋转导致的运动模糊），验证了我们方法的鲁棒性。

SLAM

B. 与最先进方法的比较

图3展示了我们的系统与ORB-SLAM3在TUM RGB-D数据集上的结合效果。左图呈现了当前帧以及正在运行的场景-对象质量评估，其中动态对象（如人）被检测到（绿色边界框）、分割（红色掩码），并使用Lucas-Kanade光流进行估计，以减轻其对姿态估计的影响。场景质量得分（0.36）和帧评估结果（GOOD SCENE）显示在左上角，同时还有各项质量指标：置信度（Sconf）、空间分布（Sspatial）和特征质量（Sfeature），以白色文本显示。右图展示了ORB-SLAM3的稀疏建图结果，包括三维点云和相机姿态。这一可视化结果凸显了我们的框架如何通过改进场景质量评估和处理动态对象来增强ORB-SLAM3的性能，使其在复杂环境中能够实现更稳健的跟踪。

SLAM

我们将所提系统与几种基于ORB-SLAM2的动态环境下最先进的SLAM方法进行了对比，包括DynaSLAM、Blitz-SLAM和SG-SLAM。表I给出了平移和旋转方面的绝对轨迹误差（ATE）和相对姿态误差（RPE）结果。如表I所示，我们的方法在ATE性能上具有竞争力，在帧间一致性方面表现优异，并且在大多数序列的平移和旋转RPE上始终优于竞争方法。值得注意的是，在具有复杂相机运动的挑战性场景中，我们的系统保持了较高的相对姿态精度，这表明我们的场景质量评估和姿态精修策略在动态环境中是有效的。

我们还将所提系统与基于ORB-SLAM3的DN-SLAM进行了评估，结果如表II所示。在动态序列上，我们的方法相比ORB-SLAM3将ATE降低了92%-97%，在绝对轨迹精度上与DN-SLAM相当，而在相对姿态性能上更优，特别是在具有挑战性的fr3/w/rpy序列中（均方根误差：0.025对0.065）。这些结果证明了我们的质量评估和姿态精修策略的有效性。图4对比了ORB-SLAM3（上）和我们的方法（下）在四个TUM序列上的估计轨迹，包含三种线条类型：真实轨迹（黑线）、估计轨迹（蓝线）和误差（红线）。我们的方法表现出更优的跟踪精度，在所有序列中均降低了误差。在fr3/w/xyz序列中，它与真实轨迹几乎完美对齐；在动态条件下的fr3/w/halfsphere和fr3/w/rpy序列中，能够准确跟踪复杂运动。

SLAM

我们的实验证实，我们的场景质量评估和姿态精修策略提升了动态环境下的SLAM性能。在实现具有竞争力的绝对轨迹精度的同时，我们的方法在帧间一致性方面表现突出，这体现在大多数序列的RPE指标上均更优。

04 总结

在本文中，我们提出了一种适用于动态环境的自适应先验场景-对象SLAM框架。我们的质量评估机制能够有效识别问题帧，而当传统方法失效时，我们的直接姿态精修策略可对跟踪误差进行校正。实验结果表明，与最先进的方法相比，我们的方法有显著改进，尤其是在保持稳定跟踪方面。

在未来的工作中，我们计划通过整合线特征和平面特征来增强系统性能，以改进质量评估，特别是在纹理稀疏的环境中。我们还旨在基于数据关联开发一种针对优质帧和劣质帧的全局时间管理策略，实现对整个轨迹的全面优化，而不仅仅是帧间的精修。这些改进将进一步提升系统在复杂动态场景中的鲁棒性，并支持更长期的一致性建图。

打开APP阅读更多精彩内容