作者 | 王朋等 编辑 | 计算机视觉life
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
0.论文信息
标题:MBA-SLAM: Motion Blur Aware Dense Visual SLAM with Radiance Fields Representation
作者:Peng Wang, Lingzhe Zhao, Yin Zhang, Shiyu Zhao, Peidong Liu
机构:Zhejiang University, Westlake University
原文链接:https://arxiv.org/pdf/2411.08279
代码链接:https://github.com/WU-CVGL/MBA-SLAM
1.导读
现有NeRF-SLAM和3DGS-SLAM在处理运动模糊帧时表现较差,而运动模糊在低光照或长曝光等真实场景中十分常见,这通常会导致摄像机定位精度和地图重建质量显著下降。为应对这一挑战,我们提出了一种处理严重运动模糊输入的密集视觉SLAM流程(即MBA-SLAM)。我们的方法集成了高效的运动模糊感知追踪器,并结合了基于神经辐射场或高斯Splatting的建图器。通过精确建模运动模糊图像的物理成像过程,我们的方法能够在学习3D场景表示的同时,估计相机在曝光时间内的局部轨迹,从而主动补偿由相机运动引起的运动模糊。在实验中,我们展示了MBA-SLAM在摄像机定位和地图重建方面优于现有的最新方法,表现出在多个数据集(包括包含清晰图像和受到运动模糊影响的合成与真实数据集)上的优越性能,突显了我们方法的鲁棒性。
2.引言
NeRF和3DGS已被探索并应用于SLAM系统,显著提升了地图表示和高保真表面重建的效果。然而,现有方法在很大程度上依赖于高质量、清晰的 RGB-D 输入,这在处理运动模糊帧时带来了挑战,尤其是在低光或长曝光条件下。这些条件会显著降低这些方法的定位和建图性能。
运动模糊图像对密集视觉 SLAM 系统的挑战主要来自两个方面:1)跟踪过程中相机位姿估计不准确:当前的照片级真实感密集视觉 SLAM 算法依赖于清晰的图像,通过最大化光度一致性来估计相机姿态。然而,在现实场景中常见的运动模糊图像违背了这一假设,使得从模糊帧中准确恢复姿态变得困难。这些不准确的姿态跟踪反过来会影响建图过程,导致多视图几何不一致。2)建图中多视图几何不一致:}多视图模糊图像之间不匹配的特征引入了错误的 3D 几何信息,导致较差的 3D 地图重建质量。这将降低地图重建质量,从而进一步影响跟踪过程。结合这两个因素,现有的密集视觉 SLAM 系统在处理运动模糊图像时通常会表现出性能下降。
为了解决这些挑战,我们引入了 MBA-SLAM,这是一种照片级真实感的密集 RGB-D SLAM 流程,专为有效处理运动模糊输入而设计。我们的方法将物理运动模糊成像过程整合到跟踪和建图阶段中。具体而言,我们在 SE(3) 空间中采用连续运动模型来描述相机在曝光时间内的运动轨迹。
在跟踪过程中,我们首先从我们学习的 3D 场景表示中渲染出对应于最新关键帧的参考清晰图像。然后,可以根据之前优化迭代中预测的运动轨迹,将渲染的图像重新模糊,以匹配当前捕获的模糊图像。我们通过强制要求跟踪的模糊图像与重新模糊的图像之间的光度一致性,进一步精细化曝光时间内的相机运动轨迹。在建图阶段,我们通过最小化光度一致性损失,联合优化关键帧的轨迹和 3D 场景表示。我们实现了两种常用的场景表示方法:隐式的NeRF和显式的3DGS。这两种表示方法各自具有不同的优缺点。特别是,基于 NeRF 的实现能够达到更高的帧率(FPS),但渲染质量低于基于3D-GS 的实现。相反,基于 3D-GS 的实现提供了更好的渲染质量,但以较低的帧率为代价。我们同时提供这两种实现,以满足不同使用场景的需求。
3.效果展示
给定一系列带有运动模糊的图像和深度,MBA-SLAM 能够准确估计每个模糊图像的局部相机运动轨迹,并恢复高质量的 3D 场景。如下视频所示:
图1:效果总览
4.主要贡献:
本文的主要贡献如下:
1)提出了一种专门为运动模糊图像设计的新型光度束调整(Bundle Adjustment)方法,建立了一个基于 RGB-D 3DGS/NeRF 的 SLAM 流程,该流程在面对运动模糊时表现出很强的鲁棒性。
2)SLAM 系统通过集成一个运动模糊感知追踪器得到了增强,从而提高了跟踪精度,进而提升了建图性能。
3)展示了如何从运动模糊输入中获取精确的相机轨迹和高质量3D场景地图。
4)实验结果展示了 MBA-SLAM 在各类数据集上的卓越跟踪和建图性能,超越了以往的最新 NeRF 和 3DGS的 SLAM 方法,包括合成数据集和真实运动模糊数据集。
5)MBA-SLAM在常用的标准数据集(具有清晰图像)上表现良好,并超越了以往的最新密集视觉 SLAM 流程。
5.方法
方法流程图如图2所示:
图2:MBA-SLAM框架包括运动模糊感知跟踪过程和束调整去模糊建图过程。
跟踪:给定当前的模糊帧,建图器首先从 3D 场景中渲染出最新模糊关键帧的虚拟清晰图像。我们的运动模糊感知跟踪器直接估计曝光时间内的相机运动轨迹,该轨迹由曝光开始和结束时的相机位置表示。中间的相机姿态可以在 SE(3) 空间中进行插值。
建图:我们的建图器沿着相机轨迹生成虚拟清晰图像,遵循辐射场或高斯 Splatting 的标准渲染过程。然后,可以通过平均这些虚拟图像来合成模糊图像,遵循运动模糊图像的物理成像模型。最后,通过最小化合成图像与输入数据之间的损失,联合优化场景表示和相机轨迹。
6.实验结果
实验结果展示了在运动模糊数据集和清晰数据集上MBA-SLAM与其它方法的对比:包括轨迹,渲染和重建。MBA-SLAM在运动模糊和清晰的数据集上的结果都好于其它方法。
1)在运动模糊数据集上的对比
表1:在运动模糊数据集上的跟踪性能对比。
图3:与其它方法渲染图像质量的对比
图4:与其它方法重建质量的对比
2)同时,MBA-SLAM也能在清晰的Replica数据集上达到先进的效果。
表2:在Replica数据集上的跟踪性能对比。
表3:与其它方法渲染图像质量的对比
表4:与其它方法重建质量的对比
7.总结&未来工作
在本文中,我们提出了一种新的框架 MBA-SLAM,用于密集视觉 RGB-D SLAM,实施了NeRF版本和3DGS 版本。凭借我们基于物理的运动模糊图像成像模型、高度 CUDA 优化的运动模糊感知跟踪器和去模糊建图器,MBA-SLAM 能够在曝光时间内跟踪准确的相机运动轨迹,并在给定严重模糊的视频序列输入的情况下重建清晰且照片级真实感的地图。我们还提出了一个具有运动捕捉地面真值相机姿态的真实世界运动模糊 SLAM 数据集,供社区使用。通过广泛的实验,我们证明了我们的方法在现有数据集和我们的真实世界数据集上均表现出最先进的性能。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。