更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

文摘 2024-11-15 07:01 中国

作者 | 3DCV

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

0. 论文信息

标题：Optimizing NeRF-based SLAM with Trajectory Smoothness Constraints

作者：Yicheng He, Guangcheng Chen, Hong Zhang

机构：Southern University of Science and Technology

原文链接：https://arxiv.org/abs/2410.08780

1. 导读

神经辐射场和相机轨迹的联合优化因其优越的密集映射质量和一致性而被广泛应用于SLAM任务。基于NeRF的SLAM使用隐式地图表示的约束来学习相机姿态。由这种形式的约束导致的广泛观察到的现象是不稳定的和物理上不真实的估计相机运动，这反过来影响地图质量。为了解决当前基于NeRF的SLAM算法的这一不足，本文提出了TS-SLAM算法。它通过用具有连续加速度的均匀三次B样条来表示相机轨迹，从而在相机轨迹上引入了平滑约束，保证了相机的平滑运动。受益于B样条的可微性和局部控制特性，TS-SLAM可以使用滑动窗口范式端到端地增量学习控制点。此外，我们通过在进一步平滑轨迹之前利用动力学来调整相机轨迹。实验结果表明，与基于NeRF的SLAM相比，TS-SLAM实现了更好的轨迹精度并提高了映射质量，而基于NeRF的SLAM没有采用上述平滑约束。

2. 引言

同时定位与地图构建（SLAM）在机器人系统实现定位和场景重建方面得到了广泛研究。经过数十年不懈的研究，涌现出了众多复杂的SLAM系统。然而，传统SLAM系统生成的稀疏地图往往无法满足场景理解和路径规划等任务的需求。神经辐射场（NeRF）是一种利用多层感知器（MLP）对场景进行连续表示的技术，它解决了这一局限性，其工作原理是最小化捕获图像与渲染图像之间的颜色差异。

最近，NeRF已被整合到SLAM系统中，以重建高质量、连续的地图，本文将这种类型的SLAM称为基于NeRF的SLAM，简称NeRF-SLAM。根据相机跟踪策略，NeRF-SLAM可以分为解耦和耦合两种类型。前者利用外部跟踪器计算的相机位姿和图像作为NeRF的输入进行密集映射。后者则将相机位姿与其隐式地图表示一同视为可学习参数。在耦合NeRF-SLAM中，相机位姿和地图被统一在一个可微计算图中，并通过最小化光度误差和几何误差来学习，以实现定位和地图构建。这种简单而高效的模式近年来得到了广泛研究，因为它将SLAM表征为一个完整的优化问题，消除了任何外部预计算信息（即关键点或预训练网络）。在本研究中，我们关注耦合NeRF-SLAM，因其优雅的公式和与解耦方案相当的性能。

与传统使用显式多视图几何约束的SLAM不同，耦合NeRF-SLAM学习受隐式地图表示约束的相机位姿，而无需对相机位姿之间潜在的空间关系进行显式监督。这些间接约束导致相机轨迹在全局上是合理的，但在局部却是不连贯和不现实的。这样的轨迹显然不准确，会对需要精确定位的下游任务（如导航和路线教学-重复操作）产生不利影响。此外，不准确的轨迹还会损害重建地图的质量。

3. 效果展示

(a)传统SLAM，(b)耦合NeRF-SLAM，以及(c)我们的方法的相机姿态约束方案。由于间接约束优化，当前耦合的NeRF-SLAM的估计轨迹(红线)不稳定。我们的方法通过引入从相机轨迹的B样条表示导出的平滑约束来提高轨迹精度和增强重建质量。

4. 主要贡献

本文提出了轨迹平滑SLAM（TS-SLAM），旨在提高NeRF-SLAM的相机跟踪性能。TS-SLAM采用均匀三次B样条来表示相机轨迹，从而间接约束轨迹的平滑性，并能够直接学习B样条的控制点。TS-SLAM不是单独处理每个相机位姿，而是使用控制点来约束时间上相邻的相机位姿。这种表示可以视为具有支持物理解释的低通滤波器，能够防止突然跳跃并避免估计轨迹出现物理上不合理的运动。此外，为了稳定学习过程，提出了局部捆集调整（bundle adjustment），在滑动窗口内从粗到细联合优化地图和控制点。此外，我们还使用动力学正则化来惩罚不符合物体加速度动力学先验的预测位姿。由于我们提出的系统无需修改隐式场景表示和重建损失，因此其组件可以无缝集成到任何耦合NeRF-SLAM系统中。推荐课程：彻底剖析激光-视觉-IMU-GPS融合SLAM算法：理论推导、代码讲解和实战。

5. 方法

在本节中，我们将详细介绍TS-SLAM，图2概述了系统的工作原理。我们采用了Co-SLAM中的场景表示，并在其优化框架中添加了平滑性约束。

TS-SLAM以端到端的方式联合优化地图和控制点。每个控制点影响轨迹上时间上接近的帧，如图3所示。此外，使用三次B样条插值的位姿自然具有C2连续性。基于这些特性，B样条在时间上接近的相机位姿之间引入了几何平滑约束。

对于每个时间间隔Δt，TSSLAM（时间同步空间局部调整映射）运行一个由局部BA（Bundle Adjustment，光束平差法）和全局BA组成的映射线程。局部BA在滑动窗口中优化场景表示和控制点，以实现平滑的相机轨迹。B样条的局部控制特性使得可以使用滑动窗口来实现局部BA，如图4所示。具体而言，滑动窗口包含最新的M个控制点，且步长为一个控制点。

6. 实验结果

我们在ScanNet的六个房间规模序列和TUM RGBD的三个真实场景上评估了相机跟踪。使用ATE（绝对轨迹误差）评估全局准确性，使用RPE（相对位姿误差）评估局部误差，以此来评估轨迹准确性。结果如表I和表II所示。我们的方法在定位准确性方面，尤其是局部准确性方面（由RPE反映），显示出显著提高。与Co-SLAM相比，TSSLAM在TUM和ScanNet上的RPE分别降低了78.5%和40.5%。TS-SLAM的平滑约束显著避免了轨迹不连续，如图6中的对齐轨迹所示，并提高了全局准确性，如图5所示。TS-SLAM连接时间上接近的相机位姿，这可以理解为将每个轨迹段视为一个整体，并通过控制点对其进行优化，从而可以减少轨迹漂移，实验结果证明了这一点。

我们在Neural-RGBD的七个合成场景上评估了重建质量。与其他合成数据集不同，它模拟了深度传感器数据中的噪声。TS-SLAM直接采用了Co-SLAM的地图表示，没有进行任何修改。我们的方法可以显著提高重建质量，如表III所示。轨迹平滑约束导致相机跟踪更准确，因此重建结果也更准确，如图5右列所示。

7. 总结 & 局限性

在本文中，我们提出了TS-SLAM，这是一种密集视觉SLAM方法，通过引入平滑约束（利用B样条表示的相机轨迹）来提高相机跟踪准确性，并间接提升地图质量。通过利用B样条的可微性，TS-SLAM以端到端的方式学习控制点。此外，我们设计了一个动力学正则化项来惩罚相机运动的过度加速，从而获得更物理真实的轨迹。为了稳定学习过程，我们利用B样条的局部支持特性，并设计了一种从粗到细优化控制点的局部光束平差法。大量实验表明，轨迹平滑约束可以有效改进现有的NeRF-SLAM方法。

局限性。我们的方法使用均匀三次B样条来表示轨迹，这需要预先确定固定的时间间隔和样条阶数。未来的工作将探索如何自适应地调整这些超参数。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247516317&idx=3&sn=1effc27fd076b9c9786f7f1d96a94f1a

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉