复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

科技 2024-11-16 00:00 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：DG-SLAM: Robust Dynamic Gaussian Splatting SLAM with Hybrid Pose Optimization

作者：Yueming Xu, Haochen Jiang, Zhongyang Xiao, Jianfeng Feng, Li Zhang

机构：Fudan University、Autonomous Driving Division, NIO

原文链接：https://arxiv.org/abs/2411.08373

代码链接：https://github.com/fudan-zvg/DG-SLAM

1. 导读

在动态场景中实现鲁棒而精确的姿态估计是视觉同步定位与地图创建(SLAM)中的一个重要研究挑战。最近的进展将高斯Splatting集成到SLAM系统中，已被证明在使用显式3D高斯模型创建高质量渲染方面是有效的，显著提高了环境重建保真度。然而，这些方法依赖于静态环境假设，并且由于几何和光度学的不一致观察而在动态环境中面临挑战。为了解决这个问题，我们提出了DG-SLAM，这是第一个基于3D高斯模型的鲁棒动态视觉SLAM系统，它提供了精确的相机姿态估计和高保真重建。具体而言，我们提出了有效的策略，包括运动模板生成、自适应高斯点管理和混合摄像机跟踪算法，以提高姿态估计的准确性和鲁棒性。大量实验表明，DG-SLAM在动态场景中的相机姿态估计、地图重建和新视图合成方面提供了最先进的性能，优于现有方法，同时保留了实时渲染能力。

2. 引言

视觉同步定位与地图构建（SLAM）任务是在未知环境中重建3D地图的同时估计相机位姿，它被认为是实现移动机器人在新型3D环境中自主导航的关键组成部分。

该技术在机器人技术、自动驾驶以及增强/虚拟现实（AR/VR）等领域已得到广泛应用，并以多种形式存在。然而，以往的大多数研究通常基于静态环境的假设，这限制了该技术在日常生活中的实际应用。因此，如何在动态场景中实现准确且稳健的位姿估计，仍是移动机器人领域亟待解决的一个紧迫问题。

近年来，许多研究人员致力于用神经辐射场（NeRF）方法替代视觉SLAM中传统的显式表示（如有符号距离函数（SDF）、体素网格、网格和曲面元云），以重建神经隐式地图。这种新颖的地图表示方式更加连续、高效，且能够通过可微渲染进行优化，有望为导航和重建等应用带来益处。然而，这些方法存在两个主要问题：一是需要预先定义场景的边界以初始化神经体素网格；二是隐式表示在信息融合和编辑方面颇具挑战性。为解决这些问题，近期的工作如GS-SLAM、SplaTam和高斯溅射SLAM利用3D-GS来显式表示场景地图。这种显式的几何表示同样平滑、连续且可微。此外，通过溅射光栅化技术可以高效地渲染大量高斯体，在1080p分辨率下达到每秒300帧（FPS）的速度。然而，上述所有神经SLAM方法在动态场景中表现不佳。当环境中出现动态物体时，这些系统的鲁棒性显著降低，甚至导致跟踪失败。

为解决这些问题，我们提出了一种新颖的基于3D高斯的视觉SLAM方法，该方法能够在动态室内环境中可靠地跟踪相机运动。由于3D-GS能够实时完成高质量渲染，SLAM系统在位姿优化过程中更容易收敛到全局最优解，从而获得更好且更稳定的位姿优化结果。我们实现稳健位姿估计的基石在于创新的运动掩码生成算法。该算法过滤掉位于无效区域内的采样像素，从而优化估计过程。除了深度残差约束外，我们还在观测窗口内采用时空一致性策略来生成深度扭曲掩码。通过逐步融合深度扭曲掩码和语义掩码，运动掩码将变得更加精确，以反映物体的真实运动状态。为提高位姿估计的准确性和稳定性，我们利用DROID-SLAM里程计（DROID-VO）提供初始位姿估计，并设计了一种基于初始估计相机位姿的由粗到精的优化算法。该算法旨在通过高斯溅射的光真实感对齐优化，最小化位姿估计与重建地图之间的差异。此外，这种混合位姿优化方法有效确保了生成的深度扭曲掩码的准确性和质量，从而在下一阶段的相机跟踪中表现出更好的性能。为获得高质量的渲染结果，我们提出了一种新颖的自适应高斯点添加和修剪方法，以保持几何形状的整洁性，并实现准确且稳健的相机跟踪。利用DROID-SLAM固有的因子图结构，我们的系统能够在跟踪完成后执行密集的光束平差（DBA），以消除累积误差。

3. 效果展示

TUM和BONN数据集上渲染图像的视觉比较。没有动态物体浮动，我们的结果更加完整和准确。

4. 主要贡献

综上所述，我们的贡献总结如下：（i）据我们所知，这是首个具有混合位姿优化的稳健动态高斯溅射SLAM系统，能够实现实时渲染和高保真重建性能。（ii）为减轻动态物体在位姿估计过程中的影响，我们提出了一种先进的运动掩码生成策略，该策略将时空一致的深度掩码与语义先验相结合，从而显著提高了运动物体分割的精度。（iii）我们设计了一种混合相机跟踪策略，利用由粗到精的位姿优化算法来提高估计位姿与重建地图之间的一致性和准确性。（iv）为更好地管理和扩展高斯地图，我们提出了一种自适应高斯点添加和修剪策略，该策略确保了几何完整性，并促进了准确的相机跟踪。（v）在两个具有挑战性的动态数据集和一个常见的静态数据集上进行了广泛评估，结果表明我们提出的SLAM系统在实际场景中表现尤为出色，达到了最先进的性能水平。推荐课程：对于3D激光SLAM，LeGo-LOAM到底有多重要？

5. 方法

给定一系列RGB-D帧，我们的方法（如图1所示）旨在同时恢复相机位并在动态环境中重建由3D高斯球体表示的静态3D场景地图。与大多数现代SLAM系统类似，我们的系统包含两个独立的过程：作为前端的跟踪过程和作为后端的映射过程。

运动掩模生成的定性结果。通过融合语义Mask和深度扭曲Mask，最终的Mask将更加精确。

6. 实验结果

为了更有效地展示我们的系统在动态环境中的性能，我们从定性和定量两个角度对重建结果进行了评估。鉴于动态场景数据集很少提供静态的真值（Ground Truth，GT）网格或点云，我们利用BONN数据集进行定量分析实验。我们将提出的动态高斯泼溅SLAM（Dynamic Gaussian Splatting SLAM，DG-SLAM）方法与当前最先进的基于神经网络的SLAM方法进行了比较，所有这些方法都是开源项目。如表1所示，我们的方法在准确性、完整性和完整率指标上显著超越了当代方法，达到了最先进的性能水平。

如表2所示，我们报告了来自TUM RGB-D数据集中的三个高度动态序列、两个轻微动态序列和一个静态序列的结果。我们的系统展现出卓越的跟踪性能，这得益于地图点删除策略的实施以及强大的由粗到细的相机跟踪算法。此外，我们的系统跟踪能力也在复杂且要求苛刻的BONN RGB-D数据集上得到了严格评估，结果如表3所示。在复杂性和挑战性更高的动态场景中，我们的方法始终表现出优越的性能，凸显了其在现实导航应用中的有效性和可靠性。

7. 总结 & 未来工作

在本文中，我们提出了一种在动态环境下具有混合姿态优化的鲁棒动态高斯泼溅SLAM（DG-SLAM）。通过运动掩码滤波策略和由粗到细的相机跟踪算法，我们的系统在动态场景中的姿态估计准确性和鲁棒性方面取得了显著进步。提出的自适应3D高斯添加和修剪策略有效提高了重建地图和渲染图像的质量。我们证明了它在动态环境下的相机姿态估计、场景重建和新视角合成方面实现最先进结果的有效性。虽然大规模场景的跟踪和重建目前是我们系统的最大限制，但我们相信未来通过更灵活的闭环优化算法可以解决这一问题。此外，我们系统的姿态估计准确性仍然受到语义先验分割精度的影响。因此，在动态场景中有效感知移动对象仍然是一个有待解决且需要进一步探索的问题。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710786&idx=2&sn=dda9974c353d7824308787d7b883b294

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

一位阿里P9的年薪和家庭资产

章国锋团队开启SfM新篇章！DATAP-SfM：动态感知跟踪一切！

无人机流式输出视频没有用？Video2BEV：通过3D高斯与视频提升无人机定位精度

CVPR，ICCV，ECCV，AAAI，IJCAI等顶会的评分机制是怎样的？

KW-MINI | 精度0.05mm！体积超小！重量超轻！结构光3D相机！

卡尔曼滤波YYDS！「分割一切」遇上「跟踪一切」！前谷歌经理直呼“优雅”

全面理解运动预测、规划、建图！DriveMLLM：自动驾驶多模态的空间理解基准

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

具身智能还有多久才能落地？

科技部发文：对短期内发表多篇论文、取得多项专利等成果的，开展专项数据核查！

那些从自动驾驶“跳槽”进具身智能的大佬们，都来自哪家公司？

Adobe重磅开源DiffusionGS：融入3DGS到扩散模型，6s完成三维重建！

清华大学＋具身智能+ Visuomotor控制任务=？

NeurIPS'24｜VL-SAM：北大出品，完全无训练的开放式检测分割模型

匹配一切！Stereo Anything：统一立体匹配和大规模混合数据！

今晚八点开课！彻底搞懂扩散模型基本原理与实战教程！

刚刚，沈向洋官宣通用视觉大模型！无需提示，就能识别万物

用YOLO实现无人机桥梁检查，到底应该选择哪个模型？

本科生一作、研究生二作、教授母亲三作，浙大奖学金获得者论文被质疑，高校回应！

零基础入门大模型：从理论到实战

三维重建大一统！2分钟生成超真细节的3D形状、Mesh、纹理、材质！

清华开源RDT-1B，揭秘全球最大的双臂机器人扩散大模型

扩散模型为什么能成为学术界和工业界的团宠？

程序员在古代算文官还是武官？

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉