近期兴起的神经辐射场(NeRF)与三维高斯泼溅(3DGS)技术在视觉SLAM中展现出令人鼓舞的突破性成果。然而,当前主流方法多依赖RGBD传感器,并且仅适用于室内环境。在大规模室外场景中的重建鲁棒性仍未得到探索。本文提出一种基于立体相机的三维高斯泼溅大规模视觉SLAM系统LSG-SLAM。通过在EuRoC数据集上的广泛评估,LSG-SLAM展示了其在大规模室外场景中的优越性能。在KITTI数据集上,LSG-SLAM达到了优于现有神经网络、基于3DGS以及传统方法的性能。
• 文章:
Large-Scale Gaussian Splatting SLAM
• 作者:
Zhe Xin, Chenyang Wu, Penghui Huang, Yanyong Zhang, Yinian Mao, Guoquan Huang*
• 论文链接:
https://arxiv.org/abs/2505.09915
• 编译:
INDEMIND
01本文核心内容
视觉SLAM是自主机器人和具身人工智能中空间智能的关键技术。从地图表示的角度来看,SLAM可分为稀疏、密集、隐式神经表示和显式体积表示。传统的稀疏和密集SLAM系统侧重于几何映射,并且严重依赖手工特征。此外,这些方法在重建(建图)过程中仅实际记录了场景中被观测到的局部区域。隐式神经表示,特别是神经辐射场(NeRF),通过可微渲染进行学习,能够生成高质量的新视角图像。然而,逐像素光线追踪仍然是渲染速度的一个重要瓶颈。此外,隐式特征由多层感知机(MLP)嵌入,可能会面临灾难性遗忘问题,且隐式场景不易于编辑。
另一方面,3D高斯泼溅(3DGS)使用高斯点显式表示场景,3D基本图形的光栅化使3DGS能够捕捉高保真度的3D场景,同时加快渲染速度。SplaTAM通过消除视图相关外观并采用各向同性高斯点来提高渲染质量。MonoGS采用以地图为中心的方法,动态分配高斯点以实现任意空间分布的建模。然而,这些方法使用简单的均匀运动模型来预测先验姿态,在视角显著变化时容易漂移。此外,它们缺乏消除累积误差的显式闭环模块,并且仅在小规模室内环境中进行了测试。

在本文中,我们开发了一种基于3DGS的大规模立体视觉SLAM,LSG-SLAM。这是首个专门针对大规模(室外)场景设计的3DGS-SLAM(图1)。特别是,我们采用多模态策略进行姿态跟踪,以解决帧间大视角变化的问题。在姿态优化方面,我们整合了渲染损失和特征对齐扭曲约束。前者有助于减轻由特征点引起的检测和匹配错误,而后者则缓解了外观相似性带来的不利影响。这些改进使我们的方法能够在低帧率下运行,适用于数据有限的情况。对于大规模场景中的地图构建,我们引入连续的GS子地图来处理由无界场景和有限内存引起的可扩展性问题。通过不同GS子地图中关键帧之间的位置识别,仔细检测有效的回环。利用高斯泼溅的光栅化,通过最小化渲染帧与查询关键帧之间的差异来估计回环约束,使用与跟踪相同的损失。此外,基于子地图的结构细化模块在全局姿态图和点云调整之后提高了重建质量。
本文的贡献可概括为:
• 开发了首个基于3DGS的大规模环境立体视觉SLAM系统,显著提高了跟踪稳定性、地图一致性、可扩展性和重建质量。
• 倡导高效的3DGS渲染以生成新颖视图,从而更好地进行图像/特征匹配,包括局部和全局匹配,以提升跟踪和闭环性能。
• 提出了一种基于子地图的结构细化方法,遵循全局位姿图和点云调整,以提高重建质量。
• 进行了广泛的实验验证,结果表明所提方法相较于最先进的基于3DGS的SLAM方法,能够将跟踪精度提高70%,重建质量提高50%。
02方法架构

所提出的LSG-SLAM是一种立体SLAM系统,它同时跟踪相机姿态并使用三维高斯点重建场景。图2描绘了整个系统架构。主要组件包括连续GS子地图的同时跟踪与建图、闭环检测以及结构优化。
03实验结果
我们使用两个知名立体数据集EuRoC和KITTI进行评估。EuRoCMAV数据集包含室内外场景,具有剧烈视角变化和大规模光照变化。大规模KITTI数据集覆盖城市、乡村和高速公路等多种场景。
A.EuRoC数据集评估
1.跟踪性能
表I显示详细对比结果,相比其他3DGS方法,LSG-SLAM在低频图像下仍显著提升跟踪精度。

传统模型的局限,SplaTAM与MonoGS依赖匀速运动模型,易漂移;Photo-SLAM依赖ORB特征重投影误差,但在弱纹理剧烈运动场景下易失效。
LSG-SLAM采用多模态先验估计来处理剧烈的视角变化,并将渲染损失和特征对齐扭曲约束相结合来进行位姿优化。前者减轻了由非重复特征点提取引起的误差以及弱纹理区域的影响,而后者减少了在大面积相似区域中外观相似性带来的误导效应。经过闭环优化后,LSG-SLAM不仅实现了与ORB-SLAM3相当的轨迹精度,而且在具有挑战性的场景中还表现出更高的重建成功率。
2.建图质量
表II对比渲染结果。

我们的方法在渲染质量方面优于SplaTAM和MonoGS即使没有结构细化模块,我们的方法也能实现更精准的跟踪精度,从而减少地图结构误差。在加入结构细化模块后,重建质量有了显著提升,这表明椭球体比球体更能有效捕捉复杂的纹理细节。此外,新增的尺度正则化损失使得峰值信噪比(PSNR)高于原始的3D高斯点云法。
B.KITTI数据集评估
1.跟踪性能
表V对比位姿估计精度,我们的方法优于传统方法和基于学习的方法。

基于 3DGS 的代表性方法因内存限制无法完整处理整个序列。相比之下,通过基于连续GS子图的闭环,LSG-SLAM能够在有限资源下重建大规模场景。
在效率优势上,LSG-SLAM无需训练(PVO与DROID-SLAM需数日训练且泛化性受限)。
2.建图质量
表VI显示,我们的结构细化模块显著提高了渲染质量。
3D高斯泼溅直接优化各向异性高斯椭球体,这常常导致浮点数。相比之下,各向同性高斯球体收敛速度更快,在早期优化阶段也更不易出现浮点数。我们的方法首先使用各向同性高斯球体重建场景,学习一个良好的初始值。然后,在结构细化阶段,将球体转换为椭球体以细化物体表面细节。此过程增强了我们方法对漂浮物的抗性,从而提高了渲染质量。
04总结
本文提出了LSG-SLAM——这是首个基于3D高斯泼溅(3DGS)、专门针对大规模场景且仅使用立体相机的视觉SLAM系统。其主要组件包括连续子地图的同时跟踪与建图、闭环检测以及结构优化。所提出的LSG-SLAM显著提高了跟踪稳定性、建图一致性、可扩展性和重建质量。我们的LSG-SLAM在与传统方法和基于学习的方法的对比中达到了最先进的性能。
全部0条评论
快来发表一下你的评论吧 !