IROS'24开源 | 更高定位精度！LCP-Fusion：增强局部约束的神经隐式SLAM

科技 2024-11-09 00:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：LCP-Fusion: A Neural Implicit SLAM with Enhanced Local Constraints and Computable Prior

作者：Jiahui Wang, Yinan Deng, Yi Yang, Yufeng Yue

机构：Beijing Institute of Technology

原文链接：https://arxiv.org/abs/2411.03610

代码链接：https://github.com/laliwang/LCP-Fusion

1. 导读

近年来，基于神经隐式表示的密集同步定位与地图创建(SLAM)在孔洞填充和高保真地图创建方面取得了令人瞩目的进展。然而，现有的方法要么严重依赖于已知的场景边界，要么由于潜在闭环区域的漂移而遭受不一致的重建，或者两者兼有，这可归因于不灵活的表示和缺乏局部约束。在本文中，我们提出了LCP-Fusion，这是一个具有增强的局部约束和可计算先验的神经隐式SLAM系统，它采用包含特征网格和SDF先验的稀疏体素八叉树结构作为混合场景表示，实现了映射和跟踪过程中的可扩展性和鲁棒性。为了增强局部约束，我们提出了一种新的基于视觉重叠的滑动窗口选择策略来解决闭环问题，并提出了一种实用的扭曲损失来约束相对姿态。此外，我们将SDF先验估计为隐式特征的粗略初始化，这带来了额外的显式约束和鲁棒性，特别是当采用轻量但有效的自适应提前结束时。实验表明，与现有的RGB-D隐式SLAM相比，我们的方法获得了更好的定位精度和重建一致性，特别是在具有挑战性的真实场景(ScanNet)以及具有未知场景边界的自拍场景中。

2. 引言

稠密视觉同步定位与地图构建（SLAM）在未知环境中的感知、导航和操作过程中发挥着至关重要的作用。近几十年来，传统SLAM方法在定位精度和实时应用方面取得了显著进展。然而，由于采用明确的场景表示方法，如占用网格、点云、有符号距离函数（SDF）和曲面元（surfels），这些方法直接在固定分辨率下存储和更新有限的场景信息，而不考虑上下文环境，因此难以在内存消耗和地图分辨率之间取得平衡，同时无法在噪声区域或未观测区域中重建完整且一致的表面。

因此，近期研究聚焦于使用神经网络或辐射场的隐式表示，将场景中的任意点编码为连续函数，该函数可用于以任意分辨率提取等值面或合成逼真的未见视图。利用隐式表示的连贯性和渲染未见视图的能力，涌现出众多神经隐式SLAM系统，可在各种场景中执行高保真度地图构建和相机跟踪。然而，由于场景表示缺乏灵活性，其中大多数系统需要已知的场景边界，这导致在未知场景中性能下降或失败。

针对未知场景中的应用，主流解决方案之一是利用灵活的稀疏体素八叉树（SVO），在表面区域动态分配隐式特征网格。由于基于SVO的方法仅使用稀疏体素网格中的高维特征来表示场景，它们在闭环区域的局部约束不足，因此容易受到里程计漂移的影响。这可能导致重建结果不一致，如图1所示。此外，结合明确的SDF八叉树先验，提出了混合方法以实现精确地图构建，但使用传统的视觉里程计作为跟踪模块。因此，对于利用神经隐式表示进行跟踪和地图构建的统一稠密SLAM系统而言，值得研究如何在具有潜在闭环的未知场景中减轻由定位漂移引起的重建不一致性。

为此，我们引入了LCP-Fusion（一种具有增强局部约束和可计算先验的神经隐式SLAM系统），该系统能够在没有其他外部模块的情况下减轻潜在闭环中的漂移。我们的关键思想如下：首先，为了处理未知场景边界，我们利用SVO动态分配包含粗略SDF先验和残差隐式特征的混合体素网格，通过稀疏体绘制得到场景几何形状和颜色。其次，通过帧间的像素重投影，我们提出了一种基于视觉重叠的新颖滑动窗口选择策略，该策略不仅加强了局部约束，还缓解了灾难性遗忘。除了仅评估单个帧外，还引入了一种实用的扭曲损失来约束相对位姿，以进一步提高定位精度。第三，为了减少联合优化中迭代的冗余性，我们采用了一种自适应提前终止策略，由于我们提出的混合表示，该策略不会导致显著的性能下降。

我们在一系列RGB-D序列上进行了广泛评估，以证明我们方法在定位方面的改进，以及在具有未知边界的真实场景中的应用。

3. 效果展示

由于潜在闭环区域(由第119、3449和5549帧(顶部)组成)的漂移，表面不一致。我们的方法可以利用增强的局部约束和容易计算的SDF先验(下图)以较小的漂移重建未知场景。

4. 主要贡献

我们的贡献包括：

• 我们提出了LCP-Fusion，这是一个基于混合场景表示的神经隐式SLAM系统，能够在没有已知边界的场景中动态分配包含隐式特征和估计SDF先验的混合体素。

• 我们引入了一种基于视觉重叠的新颖滑动窗口选择策略和一种约束相对位姿的扭曲损失，以增强局部约束。推荐课程：（第二期）彻底搞懂基于LOAM框架的3D激光SLAM：源码剖析到算法优化。

• 在各种数据集上的广泛评估表明，我们的方法在定位精度和重建一致性方面表现出色，同时对迭代次数较少和场景边界独立具有鲁棒性。

5. 方法

我们系统的概述如图2所示。接收连续RGB-D帧的颜色图像和深度图像（无位姿信息），我们的扩展混合表示首先根据跟踪过程中估计的位姿，在存在有效点云的位置分配混合体素。然后，基于射线-体素交点的体绘制通过SDF先验和隐式特征网格进行处理，生成渲染后的RGB图像、深度图像和用于优化的预测SDF值。通过采用基于视觉重叠的滑动窗口选择策略，在捆绑调整优化过程中评估与当前帧相关的更多关键帧。然后，定义了几个损失函数（包括我们的扭曲损失）来优化跟踪和地图构建过程中的相机位姿和场景表示。

SDF先验估计的可视化。为了避免由于闭塞造成的不合理的SDF先验，我们从左到右指出三种极端情况。

6. 实验结果

在ScanNet上的评估：为了证明定位精度的提升，尤其是在真实捕获中具有挑战性的场景中。我们首先在ScanNet中具有代表性的序列上对我们的系统进行了评估，这些序列是从具有潜在闭环的真实场景中捕获的，并且深度输入中包含更多的噪声。定量结果如表I所示。可以看出，在这些具有闭环的挑战性场景中，我们的定位精度远超有界和无界方法。此外，我们还从重建和渲染质量的角度，将我们的系统与基线进行了定性比较，如图5和图6所示。可以看出，由于局部约束和先验信息带来的定位精度提升，场景中的不一致表面减少了，这在之前的重建中很常见，例如scene0181中的墙壁、scene0169中的桌子和scene0525中的衣柜。

在Replica上的评估：我们还对Replica合成RGB-D序列中的定位增强进行了评估。由于该合成数据集的图像质量特别纯净，并且每张图像都可以为跟踪和建图提供足够的几何和颜色约束，因此我们的基线已经实现了较高的定位精度。即便如此，由于我们在捆集调整优化中加入了额外的约束，我们的系统仍然能够在一定程度上超越它们。定量结果如表II所示。

在自捕获数据集上的评估：为了评估我们在具有未知边界的实际场景中的性能，我们使用安装在移动机器人上的Azure Kinect相机捕获了两个RGB-D序列，这些序列中的缺失深度值比ScanNet更多。由于事先不知道场景的边界，我们仅将我们的LCP-Fusion与Vox-Fusion*进行了比较，因为它们都使用了可扩展的基于SVO的场景表示。图8中的定量和定性结果表明，我们的方法在不准确或噪声区域（如sc601中的不完整墙壁和sc614中的校准板）实现了更好的定位精度和重建一致性。

对场景边界的独立性：由于有界的神经隐式SLAM系统需要场景边界作为输入来进行联合编码和网格提取[36]，我们为[18]提供了不准确的场景边界，以放大其对场景边界的依赖以及与我们的LCP-Fusion的本质区别。使用不同场景边界的重建结果如图7的第一行所示：(a) 编码和行进立方体（marching cubes）的边界过大；(b) 两者都过小；(c) 编码的边界不准确但行进立方体的边界准确；(f) 无边界先验的LCP-Fusion（我们的方法）。可以看出，在[18]中，对于两者都使用不准确的场景边界会导致糟糕的网格结果。此外，即使行进立方体的边界准确，由于编码尺度不当，表面纹理仍然会扭曲。对于使用基于SVO的场景表示的LCP-Fusion，我们在动态分配的混合体素内对场景进行编码并提取表面，使其更适合于具有未知边界的场景。

7. 总结 & 未来工作

我们提出了LCP-Fusion（一种具有增强局部约束和可计算先验的神经隐式SLAM系统）。利用基于SVO的混合场景表示，我们展示了在一个包含局部重叠和历史关键帧的新型滑动窗口中联合优化场景表示和姿态，并通过翘曲损失约束相对姿态和几何形状，可以在具有噪声和潜在闭环的真实场景中实现准确的定位和一致的重建。此外，我们引入的可计算SDF先验为参数编码提供了合理的初始化，即使在映射迭代减少时，也能进一步改进和稳定性能。与基线相比，我们在真实数据集上的定位精度提高了28.1%，在合成数据集上提高了10.6%，并且在我们自捕获的数据集上也得到了进一步验证。然而，LCP-Fusion仍然局限于从RGB-D输入中对几何和颜色的基本空间理解。注意到网络预训练的视觉语言模型（VLMs）取得了令人印象深刻的进展，神经隐式视觉语言SLAM用于机器人的下游任务可以成为我们未来的工作方向。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710158&idx=2&sn=028d5641a1a1f41bd549c3fa6cc59ade

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉