浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

文摘 2024-11-16 07:00 上海

作者 | 王朋等编辑 | 计算机视觉life

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

0.论文信息

标题：MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation

作者：Peng Wang, Lingzhe Zhao, Yin Zhang, Shiyu Zhao, Peidong Liu

机构：Zhejiang University, Westlake University

原文链接：https://arxiv.org/pdf/2411.08279

代码链接：https://github.com/WU-CVGL/MBA-SLAM

1.导读

现有NeRF-SLAM和3DGS-SLAM在处理运动模糊帧时表现较差，而运动模糊在低光照或长曝光等真实场景中十分常见，这通常会导致摄像机定位精度和地图重建质量显著下降。为应对这一挑战，我们提出了一种处理严重运动模糊输入的密集视觉SLAM流程（即MBA-SLAM）。我们的方法集成了高效的运动模糊感知追踪器，并结合了基于神经辐射场或高斯Splatting的建图器。通过精确建模运动模糊图像的物理成像过程，我们的方法能够在学习3D场景表示的同时，估计相机在曝光时间内的局部轨迹，从而主动补偿由相机运动引起的运动模糊。在实验中，我们展示了MBA-SLAM在摄像机定位和地图重建方面优于现有的最新方法，表现出在多个数据集（包括包含清晰图像和受到运动模糊影响的合成与真实数据集）上的优越性能，突显了我们方法的鲁棒性。

2.引言

NeRF和3DGS已被探索并应用于SLAM系统，显著提升了地图表示和高保真表面重建的效果。然而，现有方法在很大程度上依赖于高质量、清晰的 RGB-D 输入，这在处理运动模糊帧时带来了挑战，尤其是在低光或长曝光条件下。这些条件会显著降低这些方法的定位和建图性能。

运动模糊图像对密集视觉 SLAM 系统的挑战主要来自两个方面：1）跟踪过程中相机位姿估计不准确：当前的照片级真实感密集视觉 SLAM 算法依赖于清晰的图像，通过最大化光度一致性来估计相机姿态。然而，在现实场景中常见的运动模糊图像违背了这一假设，使得从模糊帧中准确恢复姿态变得困难。这些不准确的姿态跟踪反过来会影响建图过程，导致多视图几何不一致。2）建图中多视图几何不一致：}多视图模糊图像之间不匹配的特征引入了错误的 3D 几何信息，导致较差的 3D 地图重建质量。这将降低地图重建质量，从而进一步影响跟踪过程。结合这两个因素，现有的密集视觉 SLAM 系统在处理运动模糊图像时通常会表现出性能下降。

为了解决这些挑战，我们引入了 MBA-SLAM，这是一种照片级真实感的密集 RGB-D SLAM 流程，专为有效处理运动模糊输入而设计。我们的方法将物理运动模糊成像过程整合到跟踪和建图阶段中。具体而言，我们在 SE(3) 空间中采用连续运动模型来描述相机在曝光时间内的运动轨迹。

在跟踪过程中，我们首先从我们学习的 3D 场景表示中渲染出对应于最新关键帧的参考清晰图像。然后，可以根据之前优化迭代中预测的运动轨迹，将渲染的图像重新模糊，以匹配当前捕获的模糊图像。我们通过强制要求跟踪的模糊图像与重新模糊的图像之间的光度一致性，进一步精细化曝光时间内的相机运动轨迹。在建图阶段，我们通过最小化光度一致性损失，联合优化关键帧的轨迹和 3D 场景表示。我们实现了两种常用的场景表示方法：隐式的NeRF和显式的3DGS。这两种表示方法各自具有不同的优缺点。特别是，基于 NeRF 的实现能够达到更高的帧率（FPS），但渲染质量低于基于3D-GS 的实现。相反，基于 3D-GS 的实现提供了更好的渲染质量，但以较低的帧率为代价。我们同时提供这两种实现，以满足不同使用场景的需求。

3.效果展示

给定一系列带有运动模糊的图像和深度，MBA-SLAM 能够准确估计每个模糊图像的局部相机运动轨迹，并恢复高质量的 3D 场景。如下视频所示：

图1：效果总览

4.主要贡献：

本文的主要贡献如下：

1）提出了一种专门为运动模糊图像设计的新型光度束调整（Bundle Adjustment）方法，建立了一个基于 RGB-D 3DGS/NeRF 的 SLAM 流程，该流程在面对运动模糊时表现出很强的鲁棒性。

2）SLAM 系统通过集成一个运动模糊感知追踪器得到了增强，从而提高了跟踪精度，进而提升了建图性能。

3）展示了如何从运动模糊输入中获取精确的相机轨迹和高质量3D场景地图。

4）实验结果展示了 MBA-SLAM 在各类数据集上的卓越跟踪和建图性能，超越了以往的最新 NeRF 和 3DGS的 SLAM 方法，包括合成数据集和真实运动模糊数据集。

5）MBA-SLAM在常用的标准数据集（具有清晰图像）上表现良好，并超越了以往的最新密集视觉 SLAM 流程。

5.方法

方法流程图如图2所示：

图2：MBA-SLAM框架包括运动模糊感知跟踪过程和束调整去模糊建图过程。

跟踪：给定当前的模糊帧，建图器首先从 3D 场景中渲染出最新模糊关键帧的虚拟清晰图像。我们的运动模糊感知跟踪器直接估计曝光时间内的相机运动轨迹，该轨迹由曝光开始和结束时的相机位置表示。中间的相机姿态可以在 SE(3) 空间中进行插值。

建图：我们的建图器沿着相机轨迹生成虚拟清晰图像，遵循辐射场或高斯 Splatting 的标准渲染过程。然后，可以通过平均这些虚拟图像来合成模糊图像，遵循运动模糊图像的物理成像模型。最后，通过最小化合成图像与输入数据之间的损失，联合优化场景表示和相机轨迹。

6.实验结果

实验结果展示了在运动模糊数据集和清晰数据集上MBA-SLAM与其它方法的对比：包括轨迹，渲染和重建。MBA-SLAM在运动模糊和清晰的数据集上的结果都好于其它方法。

1）在运动模糊数据集上的对比

表1:在运动模糊数据集上的跟踪性能对比。

图3:与其它方法渲染图像质量的对比

图4:与其它方法重建质量的对比

2）同时，MBA-SLAM也能在清晰的Replica数据集上达到先进的效果。

表2:在Replica数据集上的跟踪性能对比。

表3:与其它方法渲染图像质量的对比

表4:与其它方法重建质量的对比

7.总结&未来工作

在本文中，我们提出了一种新的框架 MBA-SLAM，用于密集视觉 RGB-D SLAM，实施了NeRF版本和3DGS 版本。凭借我们基于物理的运动模糊图像成像模型、高度 CUDA 优化的运动模糊感知跟踪器和去模糊建图器，MBA-SLAM 能够在曝光时间内跟踪准确的相机运动轨迹，并在给定严重模糊的视频序列输入的情况下重建清晰且照片级真实感的地图。我们还提出了一个具有运动捕捉地面真值相机姿态的真实世界运动模糊 SLAM 数据集，供社区使用。通过广泛的实验，我们证明了我们的方法在现有数据集和我们的真实世界数据集上均表现出最先进的性能。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516367&idx=1&sn=d90cdbf07886e925edf30d7b94ae1b53

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉