本文提出了一种稳健的单目视觉SLAM系统,该系统同时利用点、线和消失点特征来进行精确的相机位姿估计和地图构建,有效解决了传统基于点特征的SLAM的局限性。
• 文章:
MonoSLAM: Robust Monocular SLAM with Global Structure Optimization
• 作者:
Bingzheng Jiang, Jiayuan Wang, Han Ding, Lijun Zhu
• 论文链接:
https://arxiv.org/abs/2503.09296
• 编译:
INDEMIND
01本文核心内容
基于视觉输入在未知三维场景中进行跟踪和重建是机器人技术和计算机视觉中的基本任务。定位和建图模块的性能对机器人自主系统和增强/虚拟现实设备的服务质量有着显著影响。然而,在增量相机跟踪过程中,这些模块常常会受到姿态漂移的影响。为了解决这个问题,人们提出了不同的策略。一方面,可以使用深度相机、激光雷达和惯性测量单元(IMU)等先进传感器来提供更可靠的信息,以增强同步定位与建图(SLAM)和基于IMU的系统的性能。另一方面,诸如局部束调整、滑动窗口优化和闭环技术等算法解决方案有助于减轻漂移。这些解决方案的核心优化理论在于探索利用视觉重叠来构建共视因子图以进行优化。但对于在设备中广泛使用的经济实惠的单目传感器而言,可用于跟踪的共视特征有限。因此,该领域仍存在一个关键挑战:如何捕捉和利用从单目输入中获取更多全局信息以提升SLAM性能。
点特征长期以来一直是大多数视觉姿态估计系统的基石,这从其在多个主流方法中的广泛应用中可见一斑。尽管点特征广泛存在且取得了诸多成功,但它们在具有挑战性的环境中(如室内空间)表现出明显的局限性。
在这些场景中,缺乏独特且丰富的点特征常常阻碍SLAM系统的实时跟踪能力,从而需要采用替代策略。例如,仅基于点的因子图优化的鲁棒性会退化,而通过将线和平面地标纳入跟踪和优化模块,可以在一定程度上增强其性能。平面检测通常需要使用深度图或卷积神经网络。相比之下,线可以从RGB图像中轻松提取,为将信息融入视觉里程计系统提供了更通用且资源高效的替代方案。而在与线相关的SLAM系统中,最广泛使用的线参数化方式是正交规范。算法,一种基于李群和李代数的精妙策略。
传统而言,单个线段会为优化模块贡献一个重投影因子,而一组线段则能提供更广泛的结构规律。确切地说,二维图像平面上的一簇平行线段会汇聚于一个消失点,此消失点可用作因子图优化的约束条件。通过假定一个亚特兰大/曼哈顿世界环境,三维线地标可被用于建立垂直和正交对,有助于方向估计。一组正交消失方向向量构建出一个曼哈顿世界结构,该假定支持视觉里程计方法中的无漂移旋转估计策略,但在因子图优化模块中,难以将此结构作为一个基本单元进行优化。另外,当从单目图像中提取的稀疏点地标检测到三维平面时,线地标能够提供共面性约束。然而,由三维线或消失点得出的重投影约束主要对调整局部区域有效,因为一个三维线地标通常仅在有限数量的帧中可见。虽然亚特兰大/曼哈顿世界假定为跨帧提供了全局线索,但在复杂、无结构的环境中面临着重大挑战。
为解决此问题,该方法为单目输入提出了一种新颖的SLAM架构,首先从连续图像中探索全局且灵活的结构基元,然后构建新的因子图以优化相机位姿和全局基元。与传统因子相比,所提出的约束能够在没有视觉重叠的图像之间构建。
其贡献可概括为:
• 一个不受环境结构约束的高精度实时单目SLAM框架,从图像中提取点特征、线特征和消失点特征。
• 一种基于全局基元的多帧非重叠区域图像关联策略。
• 一种结合全局基元以实现高精度位姿估计的有效因子图优化。
02方法架构
如图2所示,该系统包含前端和后端模块。在前端,我们介绍了点、线和消失点的检测方法。然后,在后端,第一部分是一种新的关联策略,一方面利用点和线生成3D地标,即在地图中收集的局部基元(LP),另一方面,在关联过程中提供一种生成全局基元(GP)结构信息的新策略。在检测到局部和全局基元之后,后端的第二部分构建了一个稳健的因子图优化算法,用于精确的相机位姿估计。
03实验结果
A.实现细节
为评估所提出的系统,在本节中使用公共数据集来验证最先进的方法和我们的方法。所有评估均在配备英特尔酷睿i9-285KCPU的笔记本电脑上进行,以确保所有实验结果的一致性和可重复性。
B.基线、指标和数据集
我们通过与最先进的单目SLAM系统进行比较来评估我们系统的映射精度。为了验证我们提出的线段和消失点处理流程的效率,我们从ICL-NUIM数据集中选取了结构化图像序列,该数据集提供了低对比度和低纹理的合成室内序列,这对单目SLAM来说尤其具有挑战性。均方根误差(RMSE)被用作主要指标,使用evo工具包进行计算。序列lr和of分别代表ICL-NUIM数据集中的客厅和办公室场景。
我们在ICL-NUIM数据集上与六个最先进的系统进行了比较,分别是GeoNet、LPVO、CNN-SLAM、LSD-SLAM、Structure-SLAM和ORB-SLAM3。GeoNet利用几何和光度一致性来提高位姿估计的准确性,特别是在动态环境中,而CNN-SLAM和Structure-SLAM分别将基于神经网络的深度预测和法线图集成到跟踪模块中。LPVO通过优化现代硬件上的并行计算来实现高效和实时的性能,LSD-SLAM则采用直接方法进行实时密集映射,无需特征提取。ORB-SLAM3是一个支持单目、立体和RGB-D相机的基于特征的SLAM系统,具备闭环、重定位和地图重用功能。此外,我们还在EuRoC数据集上评估了我们的方法,该数据集是视觉SLAM的广泛使用的基准。对于此次比较,我们重点关注能够利用多种类型特征(包括点、线和消失点特征)的系统。在该数据集上测试的选定基线系统为PL-SLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLP-SLAM以及AirVIO。前两个系统利用LBD描述符来利用线特征,而Struct-VIO通过沿线采样点来跟踪线特征。Structure-PLP-SLAM结合了点、线和平面以增强鲁棒性。PLF-VINS和AirVIO在紧密耦合的视觉惯性框架内整合视觉特征。
C. ICL-NUIM和EuRoC数据集上的对比
全局基元在单目SLAM中的有效性。ICL-NUIM数据集由于其低对比度、低纹理的序列,为单目SLAM提供了一个具有挑战性的测试平台。如表I所示,我们的方法在6个序列中的4个上取得了最佳结果,优于LSD-SLAM、CNN-SLAM、LPVO、GeoNet、Structure-SLAM和ORB-SLAM3等先进系统。这证明了我们的方法在处理传统基于点的方法经常失败的环境中的鲁棒性。线段和消失点的集成,结合设计良好的重投影误差,显著提高了姿态估计的精度和可靠性。
为了进一步验证,我们在EuRoC数据集上评估了我们的方法,该数据集包含复杂和动态的室内序列。如表II所示,我们的方法始终优于其他先进系统,包括PLSLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLPSLAM和AirVIO。值得注意的是,我们的系统在5个序列中的4个上取得了最佳结果,平均平移误差比第二优系统PL-SLAM低12.7%。这一改进突显了将消失点与点和线特征集成的有效性,这增强了系统利用结构规律性并提高整体精度的能力。
我们方法的卓越性能可归因于以下因素:
稳健的特征集成:通过结合点、线和消失点特征,我们的系统利用多种几何线索,在低纹理和动态环境中提高了鲁棒性。
设计良好的重投影误差:我们精心设计的误差公式确保了特别是对于线段和消失点的准确和稳定的优化。
结构规律性的利用:消失点的引入使我们的系统能够利用环境中的结构规律性,提高了结构化室内场景中的姿态估计精度。
这些结果突显了我们方法的显著优势,证明了其在推进单目SLAM系统技术前沿方面的潜力,特别是在具有挑战性和结构化的环境中。
图3提供了我们的单目SLAM系统与ORB-SLAM3在ICL-NUIM数据集上跟踪性能的全面比较。如图所示,我们的系统表现出更优的性能,在各种场景中实现了显著更高的跟踪精度。这种改进归因于我们方法增强的鲁棒性,特别是在具有挑战性的环境中。相比之下,ORB-SLAM3仅依赖点特征进行跟踪,在数据集的低纹理区域容易发生跟踪失败和尺度漂移。这些区域中点特征的不足严重影响了其稳定性和可靠性,突显了仅基于点特征的框架的局限性。另一方面,我们的系统利用额外的几何约束和特征类型,即使在纹理贫乏的场景中也能确保一致的性能。这种比较分析,凸显了我们的设计在解决传统基于点特征的SLAM系统局限性方面的有效性。
04总结
我们提出了一种基于点、线和消失点特征的单目SLAM系统,该系统利用全局特征来关联多帧非重叠图像,并采用了一种新颖的因子图优化方法。我们的系统达到了最先进的性能。我们已经证明,从单张RGB图像中提取的消失点能够显著提高位姿估计的准确性,且无需依赖环境假设。与其他先进的实时单目SLAM方法相比,在没有惯性测量单元(IMU)数据的情况下,我们的方法在高动态运动(例如快速加速或减速)下难以保持高稳定性。未来,可以探索整合IMU信息以进一步优化相机位姿估计。
全部0条评论
快来发表一下你的评论吧 !