点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:DG-SLAM: Robust Dynamic Gaussian Splatting SLAM with Hybrid Pose Optimization
作者:Yueming Xu, Haochen Jiang, Zhongyang Xiao, Jianfeng Feng, Li Zhang
机构:Fudan University、Autonomous Driving Division, NIO
原文链接:https://arxiv.org/abs/2411.08373
代码链接:https://github.com/fudan-zvg/DG-SLAM
1. 导读
在动态场景中实现鲁棒而精确的姿态估计是视觉同步定位与地图创建(SLAM)中的一个重要研究挑战。最近的进展将高斯Splatting集成到SLAM系统中,已被证明在使用显式3D高斯模型创建高质量渲染方面是有效的,显著提高了环境重建保真度。然而,这些方法依赖于静态环境假设,并且由于几何和光度学的不一致观察而在动态环境中面临挑战。为了解决这个问题,我们提出了DG-SLAM,这是第一个基于3D高斯模型的鲁棒动态视觉SLAM系统,它提供了精确的相机姿态估计和高保真重建。具体而言,我们提出了有效的策略,包括运动模板生成、自适应高斯点管理和混合摄像机跟踪算法,以提高姿态估计的准确性和鲁棒性。大量实验表明,DG-SLAM在动态场景中的相机姿态估计、地图重建和新视图合成方面提供了最先进的性能,优于现有方法,同时保留了实时渲染能力。
2. 引言
视觉同步定位与地图构建(SLAM)任务是在未知环境中重建3D地图的同时估计相机位姿,它被认为是实现移动机器人在新型3D环境中自主导航的关键组成部分。
该技术在机器人技术、自动驾驶以及增强/虚拟现实(AR/VR)等领域已得到广泛应用,并以多种形式存在。然而,以往的大多数研究通常基于静态环境的假设,这限制了该技术在日常生活中的实际应用。因此,如何在动态场景中实现准确且稳健的位姿估计,仍是移动机器人领域亟待解决的一个紧迫问题。
近年来,许多研究人员致力于用神经辐射场(NeRF)方法替代视觉SLAM中传统的显式表示(如有符号距离函数(SDF)、体素网格、网格和曲面元云),以重建神经隐式地图。这种新颖的地图表示方式更加连续、高效,且能够通过可微渲染进行优化,有望为导航和重建等应用带来益处。然而,这些方法存在两个主要问题:一是需要预先定义场景的边界以初始化神经体素网格;二是隐式表示在信息融合和编辑方面颇具挑战性。为解决这些问题,近期的工作如GS-SLAM、SplaTam和高斯溅射SLAM利用3D-GS来显式表示场景地图。这种显式的几何表示同样平滑、连续且可微。此外,通过溅射光栅化技术可以高效地渲染大量高斯体,在1080p分辨率下达到每秒300帧(FPS)的速度。然而,上述所有神经SLAM方法在动态场景中表现不佳。当环境中出现动态物体时,这些系统的鲁棒性显著降低,甚至导致跟踪失败。
为解决这些问题,我们提出了一种新颖的基于3D高斯的视觉SLAM方法,该方法能够在动态室内环境中可靠地跟踪相机运动。由于3D-GS能够实时完成高质量渲染,SLAM系统在位姿优化过程中更容易收敛到全局最优解,从而获得更好且更稳定的位姿优化结果。我们实现稳健位姿估计的基石在于创新的运动掩码生成算法。该算法过滤掉位于无效区域内的采样像素,从而优化估计过程。除了深度残差约束外,我们还在观测窗口内采用时空一致性策略来生成深度扭曲掩码。通过逐步融合深度扭曲掩码和语义掩码,运动掩码将变得更加精确,以反映物体的真实运动状态。为提高位姿估计的准确性和稳定性,我们利用DROID-SLAM里程计(DROID-VO)提供初始位姿估计,并设计了一种基于初始估计相机位姿的由粗到精的优化算法。该算法旨在通过高斯溅射的光真实感对齐优化,最小化位姿估计与重建地图之间的差异。此外,这种混合位姿优化方法有效确保了生成的深度扭曲掩码的准确性和质量,从而在下一阶段的相机跟踪中表现出更好的性能。为获得高质量的渲染结果,我们提出了一种新颖的自适应高斯点添加和修剪方法,以保持几何形状的整洁性,并实现准确且稳健的相机跟踪。利用DROID-SLAM固有的因子图结构,我们的系统能够在跟踪完成后执行密集的光束平差(DBA),以消除累积误差。
3. 效果展示
TUM和BONN数据集上渲染图像的视觉比较。没有动态物体浮动,我们的结果更加完整和准确。
4. 主要贡献
综上所述,我们的贡献总结如下:(i)据我们所知,这是首个具有混合位姿优化的稳健动态高斯溅射SLAM系统,能够实现实时渲染和高保真重建性能。(ii)为减轻动态物体在位姿估计过程中的影响,我们提出了一种先进的运动掩码生成策略,该策略将时空一致的深度掩码与语义先验相结合,从而显著提高了运动物体分割的精度。(iii)我们设计了一种混合相机跟踪策略,利用由粗到精的位姿优化算法来提高估计位姿与重建地图之间的一致性和准确性。(iv)为更好地管理和扩展高斯地图,我们提出了一种自适应高斯点添加和修剪策略,该策略确保了几何完整性,并促进了准确的相机跟踪。(v)在两个具有挑战性的动态数据集和一个常见的静态数据集上进行了广泛评估,结果表明我们提出的SLAM系统在实际场景中表现尤为出色,达到了最先进的性能水平。推荐课程:对于3D激光SLAM,LeGo-LOAM到底有多重要?
5. 方法
给定一系列RGB-D帧,我们的方法(如图1所示)旨在同时恢复相机位并在动态环境中重建由3D高斯球体表示的静态3D场景地图。与大多数现代SLAM系统类似,我们的系统包含两个独立的过程:作为前端的跟踪过程和作为后端的映射过程。
运动掩模生成的定性结果。通过融合语义Mask和深度扭曲Mask,最终的Mask将更加精确。
6. 实验结果
为了更有效地展示我们的系统在动态环境中的性能,我们从定性和定量两个角度对重建结果进行了评估。鉴于动态场景数据集很少提供静态的真值(Ground Truth,GT)网格或点云,我们利用BONN数据集进行定量分析实验。我们将提出的动态高斯泼溅SLAM(Dynamic Gaussian Splatting SLAM,DG-SLAM)方法与当前最先进的基于神经网络的SLAM方法进行了比较,所有这些方法都是开源项目。如表1所示,我们的方法在准确性、完整性和完整率指标上显著超越了当代方法,达到了最先进的性能水平。
如表2所示,我们报告了来自TUM RGB-D数据集中的三个高度动态序列、两个轻微动态序列和一个静态序列的结果。我们的系统展现出卓越的跟踪性能,这得益于地图点删除策略的实施以及强大的由粗到细的相机跟踪算法。此外,我们的系统跟踪能力也在复杂且要求苛刻的BONN RGB-D数据集上得到了严格评估,结果如表3所示。在复杂性和挑战性更高的动态场景中,我们的方法始终表现出优越的性能,凸显了其在现实导航应用中的有效性和可靠性。
7. 总结 & 未来工作
在本文中,我们提出了一种在动态环境下具有混合姿态优化的鲁棒动态高斯泼溅SLAM(DG-SLAM)。通过运动掩码滤波策略和由粗到细的相机跟踪算法,我们的系统在动态场景中的姿态估计准确性和鲁棒性方面取得了显著进步。提出的自适应3D高斯添加和修剪策略有效提高了重建地图和渲染图像的质量。我们证明了它在动态环境下的相机姿态估计、场景重建和新视角合成方面实现最先进结果的有效性。虽然大规模场景的跟踪和重建目前是我们系统的最大限制,但我们相信未来通过更灵活的闭环优化算法可以解决这一问题。此外,我们系统的姿态估计准确性仍然受到语义先验分割精度的影响。因此,在动态场景中有效感知移动对象仍然是一个有待解决且需要进一步探索的问题。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~