0. 这篇文章干了啥?
同步定位与地图构建 (SLAM) 是计算机视觉中的一个基本问题,旨在在同时跟踪相机姿势的同时对环境进行地图构建。基于学习的密集 SLAM 方法,尤其是神经辐射场 (NeRF) 方法,在捕获密集光度信息和提供准确的全局重建方面表现出显著的进步,而传统系统则基于稀疏点云或体素。然而,NeRF 方法仍然存在过度平滑、场景表示受限和计算效率低下等缺点。最近,基于高斯的 SLAM已成为一种利用体积辐射场的有前途的方法。利用显式 3D 高斯表示,高斯 SLAM 可提供高保真渲染和细粒度场景重建,从而克服了基于 NeRF 的方法的局限性。
尽管高斯 SLAM 具有优势,但它在室内场景中仍面临显著挑战,因为室内场景通常以无纹理表面和复杂的空间布局为特征。这些环境由于缺乏相机姿势优化所必需的足够纹理细节而阻碍了稳健的跟踪。此外,由于遮挡或视野覆盖有限,室内场景的复杂几何形状通常会导致大量未观察到的区域。这些看不见的区域对高斯 SLAM 构成了关键但尚未探索的挑战,因为高斯表示很难在没有多视图优化的情况下插入未观察到的几何形状。因此,地图上看不见的区域留下了大量的漏洞和空白,这个问题在以前的高斯 SLAM 研究中基本上被忽视了。
为了克服这些挑战,我们利用著名的曼哈顿世界假设作为细化和完成场景几何图形的基础策略。该假设认为,构建的环境主要遵循网格状结构,表面和线条与三个正交方向对齐。这些线条和平面对高斯 SLAM 系统中的跟踪和映射过程施加了有意义的约束。具体来说,我们涵盖了跟踪、映射和场景完成方面的增强。在跟踪中,我们利用从结构化场景中得出的线特征作为无纹理区域中的稳健特征基础,对这些线段进行反向投影和重新投影以进行姿势优化和全束调整。在映射中,我们对重新投影的线特征应用光度损失来细化地图。这种方法确保重建的场景紧密遵循环境的真实结构,从而提高其几何精度和渲染质量。此外,曼哈顿世界假设有助于识别和插值结构化表面,例如地板和天花板。这些平面对于定义空间的整体几何形状至关重要,但在捕获的视图中通常会被部分遮挡或缺失。通过分割这些不完整的表面(通过提取的线作为边界进行细化),我们可以通过生成新的高斯函数来预测它们在直接观察到的部分之外的延续。这种策略使我们能够优化场景中大表面的表示,从而增强渲染地图的完整性。最后,我们通过泊松重构合并正则化项,将高斯表示压缩为网格表面。这种方法能够提取以前在高斯 SLAM 系统中无法获得的高质量网格,使其随时可用于下游任务。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Structure Gaussian SLAM with Manhattan World Hypothesis
作者:Shuhong Liu, Heng Zhou, Liuzhuozheng Li, Yun Liu, Tianchen Deng, Yiming Zhou, Mingrui Li
机构:东京大学、哥伦比亚大学、国家信息学研究所、上海交通大学、萨尔州应用科学大学、大连理工大学
原文链接:https://arxiv.org/abs/2405.20031v1
2. 摘要
高斯 SLAM 系统在提高实时重建的效率和保真度方面取得了重大进展。然而,这些系统在复杂的室内环境中经常会遇到不完整的重建,其特点是由于障碍物或有限的视角导致未观察到的几何形状而产生大量空洞。为了应对这一挑战,我们提出了曼哈顿高斯 SLAM (MG-SLAM),这是一个利用曼哈顿世界假设来提高几何准确性和完整性的 RGB-D 系统。通过无缝集成来自结构化场景的融合线段,MG-SLAM 可确保在无纹理的室内区域中进行稳健的跟踪。此外,提取的线和平面假设允许在缺失几何形状的区域中战略性地插入新的高斯函数,从而实现高效的场景完成。在合成场景和真实世界场景上进行的大量实验表明,这些进步使我们的方法能够实现最先进的性能,标志着高斯 SLAM 系统功能的显着提升。
3. 效果展示
MG-SLAM 利用线段在相机姿态估计和场景重建方面实现 SOTA 结果。此外,通过应用结构表面约束,我们通过对缺失的几何体进行新的高斯插值来增强和完善场景。
在Replica Apartment 数据集场景 frl_apartment_4 上的线段提取结果的消融实验。
4. 主要贡献
• 我们提出了 MG-SLAM,这是一种新颖的 RGB-D 高斯 SLAM 系统,它利用了曼哈顿世界假设 [5]。该假设引入了线和平面,用于神经密集型 SLAM 系统的稳健跟踪、地图细化和表面补全。
• 我们使用提取的代表平面边界的线段建立假设表面。这些表面指导我们有效地插入新的高斯函数来填补重建地图中的间隙和空洞,无缝解决当前高斯 SLAM 系统由于未观察到的几何形状而面临限制的区域。
• 在大型合成和真实世界数据集上进行的大量实验表明,我们的系统提供了最先进的 (SOTA) 跟踪和全面的地图重建,在真实世界场景中实现了 ATE 降低 50% 和 PSNR 增强 5dB,同时以极高的帧速率运行。这些进步明显优于以前的高斯 SLAM 系统。
5. 基本原理是啥?
所提出的 MG-SLAM 的两阶段流水线图示。上部可视化了跟踪和建图系统的并行过程。下部展示了场景完成和网格提取的后优化。在曼哈顿世界假设的约束下,MG-SLAM 引入了线段和结构化表面来增强相机姿态估计和地图重建。我们利用一种特定的策略来融合线段,以确保可靠地识别线特征。高斯表示,包括专用于线段重建的专用损失项。
6. 实验结果
使用表 1 中的 ScanNet 数据集和Replica-V1 数据集对重建质量进行了定量评估。我们的方法提供了 SOTA 结果,在两个数据集上的 PSNR 均显著优于其他基于高斯的方法 4dB。跟踪评估结果如表 2 所示。我们的方法显著降低了 ATE RMSE(cm)误差,比高斯基线提高了 50%。此外,得益于我们的线融合策略,MG-SLAM 还表现出优于传统 SLAM 系统的跟踪性能。
为了评估系统在大型室内环境中的稳健性,我们在 Replica Apartment 数据集上评估了 MG-SLAM。该数据集包含广泛的多房间场景、复杂的物体几何形状和跨房间的循环轨迹。表 3 展示了我们的方法与 SplaTAM和 MonoGS在五个选定场景中的渲染质量对比。MG-SLAM 在这些基线上显示出显着的改进,特别是在具有两层八室布局的广泛公寓 0 场景中实现了 7dB 的改进。这种最佳性能主要归功于融合线段的加入,这为环路闭合和姿势优化奠定了坚实的基础。图 5 展示了公寓场景的新视图渲染结果。我们的方法在几何精度和精细细节丰富度方面比高斯基线有显着的增强。
7. 总结
在本研究中,我们提出了 MG-SLAM,这是一种基于曼哈顿世界假设的高斯 SLAM 方法。MG-SLAM 采用线段进行稳健的姿态估计和地图细化。此外,通过利用线段和平面假设,我们可以在缺失几何的间隙上有效地插入新的高斯函数。大量实验表明,我们的方法提供了最先进的跟踪和映射性能。
全部0条评论
快来发表一下你的评论吧 !