港大ArcLab重磅开源LVI-GS：3DGS紧耦合LiDAR-视觉-惯性SLAM！实时照片级建图！

科技 2024-11-08 07:01 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：LVI-GS: Tightly-coupled LiDAR-Visual-Inertial SLAM using 3D Gaussian Splatting

作者：Huibin Zhao, Weipeng Guan, Peng Lu

机构：The University of Hong Kong

原文链接：https://arxiv.org/abs/2411.02703

1. 导读

3D Gaussian Splatting (3DGS)在快速渲染和高保真映射方面显示了它的能力。在本文中，我们介绍了LVI-GS，这是一个与3DGS紧密耦合的激光雷达-视觉-惯性测绘框架，它利用激光雷达和图像传感器的互补特性来捕捉3D场景的几何结构和视觉细节。为此，从彩色激光雷达点初始化3D高斯，并使用可区分渲染进行优化。为了实现高保真绘图，我们引入了一种基于金字塔的训练方法来有效地学习多级特征，并结合从激光雷达测量中获得的深度损失来改善几何特征感知。通过为高斯图扩展、关键帧选择、线程管理和自定义CUDA加速精心设计的策略，我们的框架实现了实时照片级真实感映射。数值实验被用来评估我们的方法相对于最先进的3D重建系统的优越性能。

2. 引言

同时定位与地图构建（SLAM）系统在机器人技术、增强现实和自主导航等多个领域均不可或缺。这些系统通过构建地图并在构建过程中实时估算自身在这些空间中的位置，使设备能够理解和导航复杂环境。要实现有效的SLAM，精确的定位和全面的场景重建都至关重要。

传统的SLAM系统使用环境地标、点云、占用网格、有符号距离函数（SDF）体素网格或网格来表示环境。其中，点云是一种直观的场景表示方式，可以轻易地从摄像头和激光雷达（LiDAR）等传感器中获得。基于点云的SLAM系统能够实现精确的定位，并构建稀疏或稠密的地图，但这些地图往往缺乏丰富的视觉细节。

神经辐射场（NeRF）的出现为高保真场景重建引入了一种新方法。NeRF通过优化连续的体场景函数，在辐射场中隐式表示场景，从而实现了最小的内存占用。一些基于NeRF的SLAM方法利用该框架的新颖视图合成和高保真重建能力来建模场景。例如，iMAP构建了可用于跟踪的隐式三维占用和颜色模型，而NICE-SLAM则通过粗细结合的方法来表示更大的场景。Vox-Fusion、CoSLAM和ESSLAM等增强方法在不同程度上提升了SLAM系统的性能。然而，由于涉及的优化过程广泛，这些系统难以实现实时性能。此外，在多层感知器中存储地图还存在灾难性遗忘和边界有限等挑战，这会阻碍场景重建。

三维高斯泼溅（3DGS）提供了一种令人兴奋的替代方案，它通过可微分的三维高斯形状基元，为三维场景的建模提供了一种连续且可适应的表示。作为一种半隐式映射方法，它在显著加快优化和渲染速度的同时，牺牲了一些新颖视图合成能力。尽管基于优化，3DGS与点和面元云相似，因此继承了它们的效率、局部性和适应性——这些属性对SLAM映射非常有益。3DGS能够以每秒200帧的速度在1080p分辨率下进行渲染，并且使用点云进行初始化，使其能够利用传统SLAM系统生成的稀疏或稠密点云来生成高保真图像。推荐课程：彻底搞懂视觉-惯性SLAM：基于VINS-Fusion。

最近，一些集成三维高斯分布的SLAM方法已显示出令人鼓舞的结果。例如，SplaTAM、MonoGS、GS-SLAM和Photo-SLAM等方法采用顺序RGB-D或RGB数据来建立完整的SLAM系统。然而，这些技术在具有复杂光照、复杂背景和快速运动等挑战的大规模、不受控的室外环境中遇到了困难。虽然激光雷达为三维高斯分布提供了高质量的几何初始化，并且在室外环境中通常比摄像头更稳健，但将其集成到SLAM系统中也带来了独特的挑战。LIVGaussianmap和LetsGo利用激光雷达来初始化三维高斯分布，而Gaussian-LIC则结合了激光雷达-惯性-摄像头设置来进行全面的三维高斯构建。然而，像LIV-Gaussianmap和LetsGo这样的系统仅限于离线处理，而Gaussian-LIC则需要复杂的前端里程计，并需要维护大量的关键帧。

3. 效果展示

我们比较了MonoGS、Photo-SLAM、我们提出的方法以及真实场景（如图2所示）。我们的观察结果表明，MonoGS在室内环境中表现良好，但在室外场景中会出现明显的模糊。相比之下，我们的方法在恢复地板和墙壁等表面的纹理细节方面明显优于Photo-SLAM。通过利用激光雷达在纹理丰富区域生成的更密集的空间点云，我们的方法在同样数量的训练迭代中实现了更优的细节恢复。

图3提供了来自hkust campus 00(m2)序列的四帧中的渲染细节示例。即使在包含密集纹理、玻璃表面、树枝和台阶等具有挑战性的场景中，我们的方法也始终保持高渲染质量。

4. 主要贡献

本研究的主要贡献可以概括如下：

1）我们开发并实现了一个先进的实时LVI-GS系统，该系统能够维护一个动态超基元模块。该系统利用三维高斯泼溅（3DGS）在三维空间中实现高质量、实时的渲染，从而确保对复杂环境的有效且准确表示。

2）为了进一步提升系统的性能和可扩展性，我们采用了粗细结合的地图构建方法。该方法利用RGB图像金字塔和深度图像金字塔来逐步细化不同细节级别的地图。此外，我们还实现了一种先进的线程管理技术来优化计算效率，确保即使处理大型数据集也能实现流畅的实时操作。

3）为了改善地图表示和渲染质量，我们设计了一种稳健的关键帧管理策略，以实现关键帧的有效选择和处理。此外，通过将深度损失纳入系统，我们提高了三维高斯地图的准确性，从而实现更精确的重建和视觉上更优越的渲染结果。

5. 方法

我们的框架通过两个并行线程实现系统的完整功能。一个线程处理里程计，另一个线程对三维高斯进行实时优化。两个线程共同维护一个共享的超基元模块。在这两个线程之间，会交换诸如三维点云、相机姿态、相机图像和深度信息等数据。

6. 实验结果

为了评估映射性能，我们基于从构建的地图中生成的渲染RGB图像进行评估。表I总结了测试方法的定量性能。从这些结果中可以看出，尽管NeRF-SLAM通过结合DroidSLAM提供的额外深度信息实现了可接受的性能，但它仍然侧重于使用神经隐式表示生成全分辨率图像。相比之下，SplaTAM通过使用各向同性三维高斯分布来建模场景，从而实现了更快的执行速度，但故意忽略了与视图相关的影响。虽然这种优化显著提高了处理速度，但牺牲了视觉质量，并在复杂、无界的环境中导致性能下降。

表II比较了不同数据集上几种基于开源RGB和RGBD的方法。我们的实验证实了类似的趋势：对于RGB-D方法（如SplaTAM和Gaussian-SLAM），三维高斯的初始化在很大程度上依赖于深度图。激光雷达点云生成的伪深度图固有的稀疏性导致高斯初始化不准确，进而导致次优的映射性能。MonoGS在室内移动较慢的场景中表现有效，但随着场景尺寸的增加或运动速度的加快，其映射质量会降低。Photo-SLAM利用ORB-SLAM3进行连续特征点初始化，与其他基于RGB或RGB-D的3DGS SLAM方法相比，其指标相对更好。与上述方法相比，我们的算法实现了最佳的渲染结果。

在运行时分析中，我们跟踪了每次迭代中特定关键帧的峰值信噪比（PSNR）和结构相似性（SSIM），如图4所示。如图5所示，经过大约105次迭代后，实现了逼真的渲染质量，总运行时间约为3秒。

7. 总结 & 未来工作

在本文中，我们提出了LVI-GS，这是一个紧耦合的激光雷达-视觉-惯性SLAM系统，它利用三维高斯泼溅（3DGS）进行实时、高保真的场景重建和渲染。我们的方法结合了激光雷达和图像数据，即使在具有挑战性的室外环境中，也能捕获精确的几何结构和详细的视觉信息。通过有效整合高斯地图扩展、关键帧管理、线程管理和基于CUDA的加速，我们的系统实现了逼真的映射质量，并具有显著的计算效率。大量实验表明，LVI-GS在保持渲染质量和效率方面优于现有的基于RGB或RGB-D的3DGS SLAM系统，尤其是在各种复杂场景中。我们的消融研究进一步验证了基于金字塔的训练和深度损失对于提高地图表示准确性的益处。未来的工作将探索整合额外的传感器模态，并进一步优化框架，以在实时机器人应用和AR/VR环境中实现更广泛的应用。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710075&idx=1&sn=069e5aaad213ef00a0143b7c406443e3

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉