作者 | 3D视觉工坊 编辑 | 3D视觉工坊
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
0. 论文信息
标题:DG-SLAM: Robust Dynamic Gaussian Splatting SLAM with Hybrid Pose Optimization
作者:Yueming Xu, Haochen Jiang, Zhongyang Xiao, Jianfeng Feng, Li Zhang
机构:Fudan University、Autonomous Driving Division, NIO
原文链接:https://arxiv.org/abs/2411.08373
代码链接:https://github.com/fudan-zvg/DG-SLAM
1. 导读
在动态场景中实现鲁棒而精确的姿态估计是视觉同步定位与地图创建(SLAM)中的一个重要研究挑战。最近的进展将高斯Splatting集成到SLAM系统中,已被证明在使用显式3D高斯模型创建高质量渲染方面是有效的,显著提高了环境重建保真度。然而,这些方法依赖于静态环境假设,并且由于几何和光度学的不一致观察而在动态环境中面临挑战。为了解决这个问题,我们提出了DG-SLAM,这是第一个基于3D高斯模型的鲁棒动态视觉SLAM系统,它提供了精确的相机姿态估计和高保真重建。具体而言,我们提出了有效的策略,包括运动模板生成、自适应高斯点管理和混合摄像机跟踪算法,以提高姿态估计的准确性和鲁棒性。大量实验表明,DG-SLAM在动态场景中的相机姿态估计、地图重建和新视图合成方面提供了最先进的性能,优于现有方法,同时保留了实时渲染能力。
2. 引言
视觉同步定位与地图构建(SLAM)任务是在未知环境中重建3D地图的同时估计相机位姿,它被认为是实现移动机器人在新型3D环境中自主导航的关键组成部分。
该技术在机器人技术、自动驾驶以及增强/虚拟现实(AR/VR)等领域已得到广泛应用,并以多种形式存在。然而,以往的大多数研究通常基于静态环境的假设,这限制了该技术在日常生活中的实际应用。因此,如何在动态场景中实现准确且稳健的位姿估计,仍是移动机器人领域亟待解决的一个紧迫问题。
近年来,许多研究人员致力于用神经辐射场(NeRF)方法替代视觉SLAM中传统的显式表示(如有符号距离函数(SDF)、体素网格、网格和曲面元云),以重建神经隐式地图。这种新颖的地图表示方式更加连续、高效,且能够通过可微渲染进行优化,有望为导航和重建等应用带来益处。然而,这些方法存在两个主要问题:一是需要预先定义场景的边界以初始化神经体素网格;二是隐式表示在信息融合和编辑方面颇具挑战性。为解决这些问题,近期的工作如GS-SLAM、SplaTam和高斯溅射SLAM利用3D-GS来显式表示场景地图。这种显式的几何表示同样平滑、连续且可微。此外,通过溅射光栅化技术可以高效地渲染大量高斯体,在1080p分辨率下达到每秒300帧(FPS)的速度。然而,上述所有神经SLAM方法在动态场景中表现不佳。当环境中出现动态物体时,这些系统的鲁棒性显著降低,甚至导致跟踪失败。
为解决这些问题,我们提出了一种新颖的基于3D高斯的视觉SLAM方法,该方法能够在动态室内环境中可靠地跟踪相机运动。由于3D-GS能够实时完成高质量渲染,SLAM系统在位姿优化过程中更容易收敛到全局最优解,从而获得更好且更稳定的位姿优化结果。我们实现稳健位姿估计的基石在于创新的运动掩码生成算法。该算法过滤掉位于无效区域内的采样像素,从而优化估计过程。除了深度残差约束外,我们还在观测窗口内采用时空一致性策略来生成深度扭曲掩码。通过逐步融合深度扭曲掩码和语义掩码,运动掩码将变得更加精确,以反映物体的真实运动状态。为提高位姿估计的准确性和稳定性,我们利用DROID-SLAM里程计(DROID-VO)提供初始位姿估计,并设计了一种基于初始估计相机位姿的由粗到精的优化算法。该算法旨在通过高斯溅射的光真实感对齐优化,最小化位姿估计与重建地图之间的差异。此外,这种混合位姿优化方法有效确保了生成的深度扭曲掩码的准确性和质量,从而在下一阶段的相机跟踪中表现出更好的性能。为获得高质量的渲染结果,我们提出了一种新颖的自适应高斯点添加和修剪方法,以保持几何形状的整洁性,并实现准确且稳健的相机跟踪。利用DROID-SLAM固有的因子图结构,我们的系统能够在跟踪完成后执行密集的光束平差(DBA),以消除累积误差。
3. 效果展示
TUM和BONN数据集上渲染图像的视觉比较。没有动态物体浮动,我们的结果更加完整和准确。
4. 主要贡献
综上所述,我们的贡献总结如下:(i)据我们所知,这是首个具有混合位姿优化的稳健动态高斯溅射SLAM系统,能够实现实时渲染和高保真重建性能。(ii)为减轻动态物体在位姿估计过程中的影响,我们提出了一种先进的运动掩码生成策略,该策略将时空一致的深度掩码与语义先验相结合,从而显著提高了运动物体分割的精度。(iii)我们设计了一种混合相机跟踪策略,利用由粗到精的位姿优化算法来提高估计位姿与重建地图之间的一致性和准确性。(iv)为更好地管理和扩展高斯地图,我们提出了一种自适应高斯点添加和修剪策略,该策略确保了几何完整性,并促进了准确的相机跟踪。(v)在两个具有挑战性的动态数据集和一个常见的静态数据集上进行了广泛评估,结果表明我们提出的SLAM系统在实际场景中表现尤为出色,达到了最先进的性能水平。推荐课程:对于3D激光SLAM,LeGo-LOAM到底有多重要?
5. 方法
给定一系列RGB-D帧,我们的方法(如图1所示)旨在同时恢复相机位并在动态环境中重建由3D高斯球体表示的静态3D场景地图。与大多数现代SLAM系统类似,我们的系统包含两个独立的过程:作为前端的跟踪过程和作为后端的映射过程。
运动掩模生成的定性结果。通过融合语义Mask和深度扭曲Mask,最终的Mask将更加精确。
6. 实验结果
为了更有效地展示我们的系统在动态环境中的性能,我们从定性和定量两个角度对重建结果进行了评估。鉴于动态场景数据集很少提供静态的真值(Ground Truth,GT)网格或点云,我们利用BONN数据集进行定量分析实验。我们将提出的动态高斯泼溅SLAM(Dynamic Gaussian Splatting SLAM,DG-SLAM)方法与当前最先进的基于神经网络的SLAM方法进行了比较,所有这些方法都是开源项目。如表1所示,我们的方法在准确性、完整性和完整率指标上显著超越了当代方法,达到了最先进的性能水平。
如表2所示,我们报告了来自TUM RGB-D数据集中的三个高度动态序列、两个轻微动态序列和一个静态序列的结果。我们的系统展现出卓越的跟踪性能,这得益于地图点删除策略的实施以及强大的由粗到细的相机跟踪算法。此外,我们的系统跟踪能力也在复杂且要求苛刻的BONN RGB-D数据集上得到了严格评估,结果如表3所示。在复杂性和挑战性更高的动态场景中,我们的方法始终表现出优越的性能,凸显了其在现实导航应用中的有效性和可靠性。
7. 总结 & 未来工作
在本文中,我们提出了一种在动态环境下具有混合姿态优化的鲁棒动态高斯泼溅SLAM(DG-SLAM)。通过运动掩码滤波策略和由粗到细的相机跟踪算法,我们的系统在动态场景中的姿态估计准确性和鲁棒性方面取得了显著进步。提出的自适应3D高斯添加和修剪策略有效提高了重建地图和渲染图像的质量。我们证明了它在动态环境下的相机姿态估计、场景重建和新视角合成方面实现最先进结果的有效性。虽然大规模场景的跟踪和重建目前是我们系统的最大限制,但我们相信未来通过更灵活的闭环优化算法可以解决这一问题。此外,我们系统的姿态估计准确性仍然受到语义先验分割精度的影响。因此,在动态场景中有效感知移动对象仍然是一个有待解决且需要进一步探索的问题。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。