商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

文摘 2024-11-11 07:01 上海

作者 | 计算机视觉life 编辑 | 计算机视觉life

点击下方卡片，关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

0. 论文信息

标题：LiVisSfM: Accurate and Robust Structure-from-Motion with LiDAR and Visual Cues

作者：Hanqing Jiang, Liyang Zhou, Zhuang Zhang, Yihao Yu, Guofeng Zhang

机构：SenseTime Group Inc、Zhejiang University

原文链接：https://arxiv.org/abs/2410.22213

1. 导读

本文提出了一种精确和鲁棒的运动结构(SfM)管道LiVisSfM，这是一种基于SfM的重建系统，充分结合了激光雷达和视觉线索。与大多数现有的严重依赖与惯性测量单元(IMU)耦合的激光雷达配准的激光雷达-惯性里程计(LIO)和激光雷达-惯性-视觉里程计(LIVO)方法不同，我们提出了一种激光雷达-视觉SfM方法，该方法创新性地以点到高斯残差度量对激光雷达体素图进行激光雷达帧配准，并以束优化的方式结合激光雷达-视觉BA和显式闭环，以实现精确和鲁棒的激光雷达姿态估计，而不依赖于IMU的结合。此外，在激光雷达帧配准和激光雷达-视觉BA优化过程中，我们提出了一种增量式体素更新策略，以实现高效的体素地图更新。实验表明，我们的LiVisSfM框架优于最先进的LIO，LIVO works对公共KITTI基准和各种自捕获数据集进行了更准确和鲁棒的激光雷达姿态恢复和密集点云重建。

2. 引言

大规模3D重建因其广泛应用于3D导航、混合现实（MR）、3D模拟和数字孪生城市等领域而备受关注，并且近期随着以神经辐射场（NeRF）和3D高斯溅射（3DGS）技术为代表的可微分神经3D表示的兴起，其关注度持续上升。随着数码相机和无人机（UAV）的普及，捕获高分辨率多视角照片或视频变得越来越便捷，这使得通过执行多视图立体（MVS）或高斯溅射来重建自然场景的高质量3D点云或3DGS模型成为计算机视觉和摄影测量领域的重要研究课题。然而，所捕获的场景中通常包含无纹理或非朗伯表面，这给MVS或3DGS方法带来了巨大困难，由于视觉模糊问题，这些方法难以实现几何完整性和准确性。

最近，随着商用激光雷达（LiDAR）扫描仪的成熟，许多激光雷达惯性里程计（LIO）工作，都利用了主动LiDAR传感技术，以更好地解决由挑战性弱纹理区域引入的视觉模糊问题。这些工作通常将多个LiDAR帧对齐到3D空间中，并将注册的LiDAR点融合到全局点云中，而不结合特征匹配等视觉任务，以减轻视觉模糊问题。然而，具有可重复几何形状的场景（如平面、球形或圆柱形结构）可能会因几何模糊而导致LiDAR帧对齐错误。此外，频繁出现的反射表面仍然会导致扫描的LiDAR数据中的几何不准确。而且，商用扫描仪的LiDAR点云在远距离处通常很稀疏，间隙过大，无法捕获足够的高频视觉线索。这些问题肯定会降低最终的重建质量，并依赖于通过图像和视频捕获的额外视觉线索来更好地解决。其他一些激光雷达惯性视觉里程计（LIVO）工作，，尝试通过将视觉惯性里程计（VIO）子系统与主要LIO系统相结合来松散地结合视觉线索，其中多视图图像通过最小化光度误差与LiDAR地图点对齐，以用于LiDAR点云着色。不幸的是，这些方法很少充分利用视觉线索。其中大多数仅使用光度线索来指导图像姿态对齐，以更好地进行点云着色，而点云融合则仅基于LiDAR数据执行，这使得这些方法难以在远距离输入的LiDAR数据上实现高质量的大规模3D重建。具有远距离回环的大规模场景也给这些LIO和LIVO工作带来了巨大的挑战，以消除累积误差或漂移，因为它们通常没有对LiDAR帧进行回环闭合，并且传统的视觉回环闭合可能无法处理没有足够特征匹配以确保足够回环边连接的复杂回环。为了确保既完整又准确的高质量大规模重建，本文提出了一种新的激光雷达-视觉运动恢复结构（SfM）流程，名为LiVisSfM，这是一个基于SfM的重建系统，它充分结合了来自主动LiDAR传感器的LiDAR点云和来自鱼眼数码相机的视觉线索，以恢复具有挑战性的远距离场景中的精确密集点云。推荐课程：室内、室外激光SLAM关键算法、代码和实战剖析(cartographer+LOAM+ LIO-SAM)。

对于大规模SfM，激光雷达和视觉线索的融合是一个研究较少的课题。大多数现有的LIO和LIVO方法，利用卡尔曼滤波进行惯性测量单元（IMU）数据融合，以增强LiDAR帧跟踪的鲁棒性，而没有使用视觉信息或视觉线索（主要用于LiDAR着色），这使得这些方法严重依赖于LiDAR数据的质量和IMU的准确性。这些方法的另一个问题是，基于滤波的系统很容易陷入长期漂移，而没有对LiDAR和视觉地图进行明确的全局捆集调整（BA）。为了更好地解决这些问题，我们的离线激光雷达-视觉SfM系统充分融合了激光雷达和视觉线索，用于激光雷达和相机帧注册，并结合全局BA和回环闭合来精炼LiDAR和相机帧，从而摆脱了对IMU鲁棒性的依赖。

我们的激光雷达-视觉SfM采用基于体素地图的激光雷达-视觉姿态估计策略，以交替方式将鱼眼相机帧和LiDAR点云准确注册到全局视觉和LiDAR地图中，每个LiDAR帧都通过在我们的点到高斯残差度量基础上最大化新LiDAR点在LiDAR体素地图中的概率来进行注册。同时，为了高效优化LiDAR和相机姿态以及LiDAR地图和视觉特征地图，我们执行了全局BA，并结合了明确的LiDAR和视觉回环闭合，以逐渐消除累积的姿态误差。在我们为LiDAR和相机帧获得优化的全局SfM姿态后，将每个LiDAR点投影到时间最接近的相机帧上，以获取其视觉颜色。将着色的多帧LiDAR点融合为具有精确几何细节的最终完整全局点云。

3. 效果展示

图1展示了一个名为“Outdoor Tianren Office”的大规模示例，以证明与最先进的（SOTA）LIO和LIVO方法相比，我们的LiVisSfM框架在重建更完整、更密集的点云方面具有更好的性能，其累积漂移更少，几何细节恢复更准确，尤其是在无纹理和反射区域。

激光雷达与视觉位姿的替代估计。(a-c)分别是GICP、NDT以及我们的方法在KITTI“07”序列上估计的激光雷达位姿，其中激光雷达帧被融合在一起，以定性比较三种方法的位姿精度，并将估计的激光雷达位姿的绝对位置误差（APE）和相对位置误差（RPE）以米为单位的平均绝对误差（MAE）/均方根误差（RMSE）与KITTI提供的真实位姿（GT poses）进行比较，以定量评估位姿精度。可以看出，与NDT相比，GICP存在明显的位姿估计误差，但NDT在融合的激光雷达点云中仍显示出长距离累积误差。我们的方法在估计的激光雷达位姿和融合的点云方面表现最佳，这也可以通过APE和RPE中的最高精度得到验证。

4. 主要贡献

我们的LiVisSfM系统主要在以下几个方面做出了贡献：

• 我们提出了一种基于体素地图的LiDAR姿态估计方法，该方法通过点到高斯残差度量稳健地注册LiDAR点，从而解决了由远距离累积误差引入的对齐问题。

• 提出了一种新的全局LiDAR-视觉BA方案，该方案通过采用增量更新策略，以高效的方式联合优化LiDAR和视觉相机姿态，并更新体素地图。同时，建立了明确的LiDAR和视觉回环，用于姿态图优化，以进一步消除累积误差。

• 将LiDAR和视觉姿态的交替估计以及全局LiDAR-视觉捆集优化充分结合到一个创新的激光雷达-视觉SfM框架中，用于准确恢复LiDAR和视觉姿态并进行点融合，从而获得场景的高质量密集点云，且不依赖于IMU。

5. 方法

用户使用商用3D扫描仪扫描大规模场景，该扫描仪包含一个LiDAR传感器以捕获场景的连续LiDAR点云序列，记为L，其中每个LiDAR点云Lt称为时间戳t时的LiDAR帧，以及两个鱼眼相机以拍摄场景的同步多视角视频流，分别记为I1和I2，无需额外的传感器如IMU。LiDAR帧和鱼眼相机帧并非严格同步，可能会相差几百毫秒。这里保证LiDAR传感器和鱼眼相机包含出厂时的内参和外参，基于这些参数，LiDAR传感器和鱼眼相机已经相互校准。我们的LiVisSfM系统应用于输入的LiDAR帧和多视角鱼眼图像，以稳健地重建捕获场景的精确密集点云，记为P。

我们实施了LiDAR-视觉SfM方案来联合估计LiDAR和视觉相机的位姿。我们的系统包含三个主要模块：LiDAR和视觉地图初始化、交替LiDAR和视觉位姿配准以及映射。

首先，在两个鱼眼相机的多视角视觉帧之间进行特征提取和匹配。然后，通过视觉相机帧的双视图几何关系，从视觉帧中初始化视觉地图，其中通过时间戳找到与两个已注册的视觉帧最接近的两个LiDAR帧，使用迭代最近点（ICP）算法计算其位姿，以构建以哈希表组织的体素图形式表示的初始LiDAR地图，每个哈希条目根据LiDAR点在体素中的概率分布的平面性被划分为八叉树。初始LiDAR地图通过最小二乘法（LSM）进一步与视觉地图对齐。

在LiDAR和视觉地图初始化完成后，其余视觉相机和LiDAR位姿交替估计，通过最大化新帧的LiDAR点位于LiDAR地图中对应体素内的概率，为新的LiDAR帧的位姿估计提供一对新估计的同步相机位姿作为初始先验。同时，在映射模块中执行全局LiDAR-视觉BA，以高效方式联合优化LiDAR和视觉相机位姿，并通过明确的闭环来进一步消除累积的位姿误差。LiDAR-视觉位姿估计和全局LiDAR-视觉BA均基于我们的点到高斯残差度量和增量体素更新策略。

在获得优化的全局LiDAR和视觉相机位姿后，多帧LiDAR点通过视觉帧着色并融合到最终的完整全局点云中，该点云具有准确的几何细节。提出的LiDAR-视觉SfM方案在图2中概述。

6. 实验结果

关于激光雷达-视觉束调整（BA）、时间相关权重和显式闭环的消融研究。（a）仅使用视觉BA时，激光雷达位姿存在明显的累积误差。（b）激光雷达-视觉BA显著提高了激光雷达位姿的准确性，但仍然存在累积漂移。（c）在引入时间相关权重后，位姿累积误差进一步减小。（d）激光雷达-视觉BA、时间相关权重和显式闭环的结合在估计的激光雷达位姿和融合的激光雷达点云上均取得了最佳重建结果，如蓝色矩形高亮放大的区域所示，同时在以米为单位的平均绝对误差（MAE）/均方根误差（RMSE）评估的绝对位置误差（APE）和相对位置误差（RPE）方面也表现出最佳的位姿精度。

（a）展示了两个自采集案例“走廊”和“茶室”的输入。（b-d）将我们的LiVisSfM在这两个案例上重建的相机轨迹和融合的密集点云与FAST-LIO2和VoxelMap进行了比较，红色矩形高亮放大的区域展示了我们的方法在重建精度和鲁棒性方面的优势。

（a）展示了两个KITTI序列“00”和“09”的输入。（b-d）将我们的管道在这两个序列上重建的相机轨迹和融合的密集点云与LOAM和VoxelMap进行了比较，蓝色矩形高亮放大的区域展示了我们的激光雷达重建具有更高的准确性，漂移和累积误差更少。

7. 总结 & 未来工作

本文提出了一种新的激光雷达-视觉结构从运动恢复（SfM）框架，称为LiVisSfM。该框架首先在初始化阶段通过ICP对齐视觉和激光雷达地图，然后采用点到高斯残差测量以获得更准确的位姿，从而在体素地图表示中交替地将激光雷达和视觉帧注册到视觉地图和激光雷达地图上。同时，为了消除累积误差，我们执行了激光雷达-视觉束调整（BA）和显式闭环检测，并以高效增量方式更新体素地图，以提高映射模块的运行时性能。在KITTI和自采集数据集上的实验证明了所提出的LiVisSfM系统的重建精度。

我们的系统类似于单向激光雷达-视觉SfM，其中视觉位姿作为激光雷达位姿注册的初始值。未来，为了更好地适应各种复杂环境，更希望采用双向反馈来联合优化视觉和激光雷达位姿。此外，密集重建只是简单地将激光雷达帧融合以获得点云，而视觉帧仅用于着色。如何充分结合激光雷达点和视觉线索来重建更准确和完整的密集网格或三维几何结构（3DGS）模型，仍是未来的另一项工作。

【3D视觉之心】技术交流群

3D视觉之心是面向3D视觉感知方向相关的交流社区，由业内顶尖的3D视觉团队创办！聚焦三维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习，星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线，每天分享干货、代码与论文，星球内嘉宾日常答疑解惑，交流工作与职场问题。

http://mp.weixin.qq.com/s?__biz=MzkyMDY0OTc1NA==&mid=2247515932&idx=2&sn=497be33e34bba7207619106dbdc13192

3D视觉之心

3D视觉与SLAM、点云相关内容分享

最新文章

如何创立一家惯性导航公司

融合神经辐射场和视觉同时定位与地图构建的混合场景表示方法

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

克服LiDAR固定分辨率的限制！LiV-GS：首个大规模室外场景对齐离散点云与高斯地图的方法

MVSplat360：从稀疏视图到360°全景合成的前馈方法

Siggraph Asia 2024 | Adobe发布MagicClay：可通过文字引导对3D模型特定部分进行雕刻！

谷歌2024博士奖学金名单公布

首个基于高斯点云建图的动态SLAM框架！DGS-SLAM：解决动态物体引起的光度和几何不一致

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

ECCV 2024 | PARE-Net：用于鲁棒点云配准的位置感知旋转等变网络

NeurIPS 2024高中赛道开卷！人大附中、北师大实验中学等摘得3篇Spotlight

加州大学 | 基于视觉语言模型的端到端导航：零样本，无需数据训练！

港大DEIO：首个学习与传统非线性图优化结合的单目事件惯性里程计

基于语义似然与高精度地图匹配的智能车辆同时定位与检测

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

超越现有3DGS网格重建方法！DyGASR：速度提高25%、内存使用量减少30%

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

身处相机内外参之间（EG3D/NeRF/3D Gaussian Splatting）

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

突破多场景训练方法限制！ETH开源SplatFormer：首个专门设计用于在3DGS上运行的点变换器模型

【清华大学】RINO：基于非迭代估计的精确、鲁棒雷达惯性里程计

论文分享｜无监督点云语义分割

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

丰田研究院综述「机器人领域中的神经场」

顶刊TGRS | 使用端到端深度神经网络从高分辨率遥感图像和数字表面模型中提取3D建筑实例

让纸片人动起来! DrawingSpinUp：从单个绘图生成高质量3D动画

浙大西湖大学开源MBA-SLAM！解决NeRF、3DGS中的运动模糊问题！

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

ICP还能玩出什么花样？RA-L'24全新GenZ-ICP：根据环境几何特性自适应，解决依赖单一误差度量

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

更高轨迹精度、建图质量！基于NeRF轨迹平滑约束的SLAM优化

15 个改变世界的开源项目：塑造现代技术的先锋力量

多实例点云配准新SOTA！3DFMNet：简单而有效的3D聚焦与匹配网络(NeurIPS'24)

LidaRefer：户外3D视觉定位的创新框架

腾讯发布HunYuan-3D，支持文本到3D和图像到3D，10秒即可生成高分辨率细3D模型

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

新国立联合微软共同打造：3D和4D场景均可生成的GenXD来了！

MVDrag3D：灵活强大的拖拽式多视图3D编辑技术

基于单目视觉惯性的同步定位与地图构建方法综述

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

不用encoder也能重建点云？PCP-MAE：基于中心预测的点云MAE自监督新框架（NeurIPS'24 Spotlight）

商汤&浙大SfM新工作！LiVisSfM：利用激光雷达和视觉线索，获得精确鲁棒的三维重建

slam相关开源数据集资源汇总（KITTI、CODD、MAOMaps）

3D激光雷达分辨率对基于图的SLAM方法究竟有何影响？

3DV 2024 | 基于超点图聚类的可扩展三维全视分割

突发！OpenAI七年元老、安全副总裁Lilian Weng官宣离职！北大本科，决定专心写博客

倘若能有一场时空对话，我将告诉曾经的我如何做vslam

2024年图像匹配挑战赛：银牌解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉