点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:LCP-Fusion: A Neural Implicit SLAM with Enhanced Local Constraints and Computable Prior
作者:Jiahui Wang, Yinan Deng, Yi Yang, Yufeng Yue
机构:Beijing Institute of Technology
原文链接:https://arxiv.org/abs/2411.03610
代码链接:https://github.com/laliwang/LCP-Fusion
1. 导读
近年来,基于神经隐式表示的密集同步定位与地图创建(SLAM)在孔洞填充和高保真地图创建方面取得了令人瞩目的进展。然而,现有的方法要么严重依赖于已知的场景边界,要么由于潜在闭环区域的漂移而遭受不一致的重建,或者两者兼有,这可归因于不灵活的表示和缺乏局部约束。在本文中,我们提出了LCP-Fusion,这是一个具有增强的局部约束和可计算先验的神经隐式SLAM系统,它采用包含特征网格和SDF先验的稀疏体素八叉树结构作为混合场景表示,实现了映射和跟踪过程中的可扩展性和鲁棒性。为了增强局部约束,我们提出了一种新的基于视觉重叠的滑动窗口选择策略来解决闭环问题,并提出了一种实用的扭曲损失来约束相对姿态。此外,我们将SDF先验估计为隐式特征的粗略初始化,这带来了额外的显式约束和鲁棒性,特别是当采用轻量但有效的自适应提前结束时。实验表明,与现有的RGB-D隐式SLAM相比,我们的方法获得了更好的定位精度和重建一致性,特别是在具有挑战性的真实场景(ScanNet)以及具有未知场景边界的自拍场景中。
2. 引言
稠密视觉同步定位与地图构建(SLAM)在未知环境中的感知、导航和操作过程中发挥着至关重要的作用。近几十年来,传统SLAM方法在定位精度和实时应用方面取得了显著进展。然而,由于采用明确的场景表示方法,如占用网格、点云、有符号距离函数(SDF)和曲面元(surfels),这些方法直接在固定分辨率下存储和更新有限的场景信息,而不考虑上下文环境,因此难以在内存消耗和地图分辨率之间取得平衡,同时无法在噪声区域或未观测区域中重建完整且一致的表面。
因此,近期研究聚焦于使用神经网络或辐射场的隐式表示,将场景中的任意点编码为连续函数,该函数可用于以任意分辨率提取等值面或合成逼真的未见视图。利用隐式表示的连贯性和渲染未见视图的能力,涌现出众多神经隐式SLAM系统,可在各种场景中执行高保真度地图构建和相机跟踪。然而,由于场景表示缺乏灵活性,其中大多数系统需要已知的场景边界,这导致在未知场景中性能下降或失败。
针对未知场景中的应用,主流解决方案之一是利用灵活的稀疏体素八叉树(SVO),在表面区域动态分配隐式特征网格。由于基于SVO的方法仅使用稀疏体素网格中的高维特征来表示场景,它们在闭环区域的局部约束不足,因此容易受到里程计漂移的影响。这可能导致重建结果不一致,如图1所示。此外,结合明确的SDF八叉树先验,提出了混合方法以实现精确地图构建,但使用传统的视觉里程计作为跟踪模块。因此,对于利用神经隐式表示进行跟踪和地图构建的统一稠密SLAM系统而言,值得研究如何在具有潜在闭环的未知场景中减轻由定位漂移引起的重建不一致性。
为此,我们引入了LCP-Fusion(一种具有增强局部约束和可计算先验的神经隐式SLAM系统),该系统能够在没有其他外部模块的情况下减轻潜在闭环中的漂移。我们的关键思想如下:首先,为了处理未知场景边界,我们利用SVO动态分配包含粗略SDF先验和残差隐式特征的混合体素网格,通过稀疏体绘制得到场景几何形状和颜色。其次,通过帧间的像素重投影,我们提出了一种基于视觉重叠的新颖滑动窗口选择策略,该策略不仅加强了局部约束,还缓解了灾难性遗忘。除了仅评估单个帧外,还引入了一种实用的扭曲损失来约束相对位姿,以进一步提高定位精度。第三,为了减少联合优化中迭代的冗余性,我们采用了一种自适应提前终止策略,由于我们提出的混合表示,该策略不会导致显著的性能下降。
我们在一系列RGB-D序列上进行了广泛评估,以证明我们方法在定位方面的改进,以及在具有未知边界的真实场景中的应用。
3. 效果展示
由于潜在闭环区域(由第119、3449和5549帧(顶部)组成)的漂移,表面不一致。我们的方法可以利用增强的局部约束和容易计算的SDF先验(下图)以较小的漂移重建未知场景。
4. 主要贡献
我们的贡献包括:
• 我们提出了LCP-Fusion,这是一个基于混合场景表示的神经隐式SLAM系统,能够在没有已知边界的场景中动态分配包含隐式特征和估计SDF先验的混合体素。
• 我们引入了一种基于视觉重叠的新颖滑动窗口选择策略和一种约束相对位姿的扭曲损失,以增强局部约束。推荐课程:(第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化。
• 在各种数据集上的广泛评估表明,我们的方法在定位精度和重建一致性方面表现出色,同时对迭代次数较少和场景边界独立具有鲁棒性。
5. 方法
我们系统的概述如图2所示。接收连续RGB-D帧的颜色图像和深度图像(无位姿信息),我们的扩展混合表示首先根据跟踪过程中估计的位姿,在存在有效点云的位置分配混合体素。然后,基于射线-体素交点的体绘制通过SDF先验和隐式特征网格进行处理,生成渲染后的RGB图像、深度图像和用于优化的预测SDF值。通过采用基于视觉重叠的滑动窗口选择策略,在捆绑调整优化过程中评估与当前帧相关的更多关键帧。然后,定义了几个损失函数(包括我们的扭曲损失)来优化跟踪和地图构建过程中的相机位姿和场景表示。
SDF先验估计的可视化。为了避免由于闭塞造成的不合理的SDF先验,我们从左到右指出三种极端情况。
6. 实验结果
在ScanNet上的评估:为了证明定位精度的提升,尤其是在真实捕获中具有挑战性的场景中。我们首先在ScanNet中具有代表性的序列上对我们的系统进行了评估,这些序列是从具有潜在闭环的真实场景中捕获的,并且深度输入中包含更多的噪声。定量结果如表I所示。可以看出,在这些具有闭环的挑战性场景中,我们的定位精度远超有界和无界方法。此外,我们还从重建和渲染质量的角度,将我们的系统与基线进行了定性比较,如图5和图6所示。可以看出,由于局部约束和先验信息带来的定位精度提升,场景中的不一致表面减少了,这在之前的重建中很常见,例如scene0181中的墙壁、scene0169中的桌子和scene0525中的衣柜。
在Replica上的评估:我们还对Replica合成RGB-D序列中的定位增强进行了评估。由于该合成数据集的图像质量特别纯净,并且每张图像都可以为跟踪和建图提供足够的几何和颜色约束,因此我们的基线已经实现了较高的定位精度。即便如此,由于我们在捆集调整优化中加入了额外的约束,我们的系统仍然能够在一定程度上超越它们。定量结果如表II所示。
在自捕获数据集上的评估:为了评估我们在具有未知边界的实际场景中的性能,我们使用安装在移动机器人上的Azure Kinect相机捕获了两个RGB-D序列,这些序列中的缺失深度值比ScanNet更多。由于事先不知道场景的边界,我们仅将我们的LCP-Fusion与Vox-Fusion*进行了比较,因为它们都使用了可扩展的基于SVO的场景表示。图8中的定量和定性结果表明,我们的方法在不准确或噪声区域(如sc601中的不完整墙壁和sc614中的校准板)实现了更好的定位精度和重建一致性。
对场景边界的独立性:由于有界的神经隐式SLAM系统需要场景边界作为输入来进行联合编码和网格提取[36],我们为[18]提供了不准确的场景边界,以放大其对场景边界的依赖以及与我们的LCP-Fusion的本质区别。使用不同场景边界的重建结果如图7的第一行所示:(a) 编码和行进立方体(marching cubes)的边界过大;(b) 两者都过小;(c) 编码的边界不准确但行进立方体的边界准确;(f) 无边界先验的LCP-Fusion(我们的方法)。可以看出,在[18]中,对于两者都使用不准确的场景边界会导致糟糕的网格结果。此外,即使行进立方体的边界准确,由于编码尺度不当,表面纹理仍然会扭曲。对于使用基于SVO的场景表示的LCP-Fusion,我们在动态分配的混合体素内对场景进行编码并提取表面,使其更适合于具有未知边界的场景。
7. 总结 & 未来工作
我们提出了LCP-Fusion(一种具有增强局部约束和可计算先验的神经隐式SLAM系统)。利用基于SVO的混合场景表示,我们展示了在一个包含局部重叠和历史关键帧的新型滑动窗口中联合优化场景表示和姿态,并通过翘曲损失约束相对姿态和几何形状,可以在具有噪声和潜在闭环的真实场景中实现准确的定位和一致的重建。此外,我们引入的可计算SDF先验为参数编码提供了合理的初始化,即使在映射迭代减少时,也能进一步改进和稳定性能。与基线相比,我们在真实数据集上的定位精度提高了28.1%,在合成数据集上提高了10.6%,并且在我们自捕获的数据集上也得到了进一步验证。然而,LCP-Fusion仍然局限于从RGB-D输入中对几何和颜色的基本空间理解。注意到网络预训练的视觉语言模型(VLMs)取得了令人印象深刻的进展,神经隐式视觉语言SLAM用于机器人的下游任务可以成为我们未来的工作方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~