作者 | 计算机视觉life 编辑 | 计算机视觉life
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
0. 论文信息
标题:LiVisSfM: Accurate and Robust Structure-from-Motion with LiDAR and Visual Cues
作者:Hanqing Jiang, Liyang Zhou, Zhuang Zhang, Yihao Yu, Guofeng Zhang
机构:SenseTime Group Inc、Zhejiang University
原文链接:https://arxiv.org/abs/2410.22213
1. 导读
本文提出了一种精确和鲁棒的运动结构(SfM)管道LiVisSfM,这是一种基于SfM的重建系统,充分结合了激光雷达和视觉线索。与大多数现有的严重依赖与惯性测量单元(IMU)耦合的激光雷达配准的激光雷达-惯性里程计(LIO)和激光雷达-惯性-视觉里程计(LIVO)方法不同,我们提出了一种激光雷达-视觉SfM方法,该方法创新性地以点到高斯残差度量对激光雷达体素图进行激光雷达帧配准,并以束优化的方式结合激光雷达-视觉BA和显式闭环,以实现精确和鲁棒的激光雷达姿态估计,而不依赖于IMU的结合。此外,在激光雷达帧配准和激光雷达-视觉BA优化过程中,我们提出了一种增量式体素更新策略,以实现高效的体素地图更新。实验表明,我们的LiVisSfM框架优于最先进的LIO,LIVO works对公共KITTI基准和各种自捕获数据集进行了更准确和鲁棒的激光雷达姿态恢复和密集点云重建。
2. 引言
大规模3D重建因其广泛应用于3D导航、混合现实(MR)、3D模拟和数字孪生城市等领域而备受关注,并且近期随着以神经辐射场(NeRF)和3D高斯溅射(3DGS)技术为代表的可微分神经3D表示的兴起,其关注度持续上升。随着数码相机和无人机(UAV)的普及,捕获高分辨率多视角照片或视频变得越来越便捷,这使得通过执行多视图立体(MVS)或高斯溅射来重建自然场景的高质量3D点云或3DGS模型成为计算机视觉和摄影测量领域的重要研究课题。然而,所捕获的场景中通常包含无纹理或非朗伯表面,这给MVS或3DGS方法带来了巨大困难,由于视觉模糊问题,这些方法难以实现几何完整性和准确性。
最近,随着商用激光雷达(LiDAR)扫描仪的成熟,许多激光雷达惯性里程计(LIO)工作,都利用了主动LiDAR传感技术,以更好地解决由挑战性弱纹理区域引入的视觉模糊问题。这些工作通常将多个LiDAR帧对齐到3D空间中,并将注册的LiDAR点融合到全局点云中,而不结合特征匹配等视觉任务,以减轻视觉模糊问题。然而,具有可重复几何形状的场景(如平面、球形或圆柱形结构)可能会因几何模糊而导致LiDAR帧对齐错误。此外,频繁出现的反射表面仍然会导致扫描的LiDAR数据中的几何不准确。而且,商用扫描仪的LiDAR点云在远距离处通常很稀疏,间隙过大,无法捕获足够的高频视觉线索。这些问题肯定会降低最终的重建质量,并依赖于通过图像和视频捕获的额外视觉线索来更好地解决。其他一些激光雷达惯性视觉里程计(LIVO)工作,,尝试通过将视觉惯性里程计(VIO)子系统与主要LIO系统相结合来松散地结合视觉线索,其中多视图图像通过最小化光度误差与LiDAR地图点对齐,以用于LiDAR点云着色。不幸的是,这些方法很少充分利用视觉线索。其中大多数仅使用光度线索来指导图像姿态对齐,以更好地进行点云着色,而点云融合则仅基于LiDAR数据执行,这使得这些方法难以在远距离输入的LiDAR数据上实现高质量的大规模3D重建。具有远距离回环的大规模场景也给这些LIO和LIVO工作带来了巨大的挑战,以消除累积误差或漂移,因为它们通常没有对LiDAR帧进行回环闭合,并且传统的视觉回环闭合可能无法处理没有足够特征匹配以确保足够回环边连接的复杂回环。为了确保既完整又准确的高质量大规模重建,本文提出了一种新的激光雷达-视觉运动恢复结构(SfM)流程,名为LiVisSfM,这是一个基于SfM的重建系统,它充分结合了来自主动LiDAR传感器的LiDAR点云和来自鱼眼数码相机的视觉线索,以恢复具有挑战性的远距离场景中的精确密集点云。推荐课程:室内、室外激光SLAM关键算法、代码和实战剖析(cartographer+LOAM+ LIO-SAM)。
对于大规模SfM,激光雷达和视觉线索的融合是一个研究较少的课题。大多数现有的LIO和LIVO方法,利用卡尔曼滤波进行惯性测量单元(IMU)数据融合,以增强LiDAR帧跟踪的鲁棒性,而没有使用视觉信息或视觉线索(主要用于LiDAR着色),这使得这些方法严重依赖于LiDAR数据的质量和IMU的准确性。这些方法的另一个问题是,基于滤波的系统很容易陷入长期漂移,而没有对LiDAR和视觉地图进行明确的全局捆集调整(BA)。为了更好地解决这些问题,我们的离线激光雷达-视觉SfM系统充分融合了激光雷达和视觉线索,用于激光雷达和相机帧注册,并结合全局BA和回环闭合来精炼LiDAR和相机帧,从而摆脱了对IMU鲁棒性的依赖。
我们的激光雷达-视觉SfM采用基于体素地图的激光雷达-视觉姿态估计策略,以交替方式将鱼眼相机帧和LiDAR点云准确注册到全局视觉和LiDAR地图中,每个LiDAR帧都通过在我们的点到高斯残差度量基础上最大化新LiDAR点在LiDAR体素地图中的概率来进行注册。同时,为了高效优化LiDAR和相机姿态以及LiDAR地图和视觉特征地图,我们执行了全局BA,并结合了明确的LiDAR和视觉回环闭合,以逐渐消除累积的姿态误差。在我们为LiDAR和相机帧获得优化的全局SfM姿态后,将每个LiDAR点投影到时间最接近的相机帧上,以获取其视觉颜色。将着色的多帧LiDAR点融合为具有精确几何细节的最终完整全局点云。
3. 效果展示
图1展示了一个名为“Outdoor Tianren Office”的大规模示例,以证明与最先进的(SOTA)LIO和LIVO方法相比,我们的LiVisSfM框架在重建更完整、更密集的点云方面具有更好的性能,其累积漂移更少,几何细节恢复更准确,尤其是在无纹理和反射区域。
激光雷达与视觉位姿的替代估计。(a-c)分别是GICP、NDT以及我们的方法在KITTI“07”序列上估计的激光雷达位姿,其中激光雷达帧被融合在一起,以定性比较三种方法的位姿精度,并将估计的激光雷达位姿的绝对位置误差(APE)和相对位置误差(RPE)以米为单位的平均绝对误差(MAE)/均方根误差(RMSE)与KITTI提供的真实位姿(GT poses)进行比较,以定量评估位姿精度。可以看出,与NDT相比,GICP存在明显的位姿估计误差,但NDT在融合的激光雷达点云中仍显示出长距离累积误差。我们的方法在估计的激光雷达位姿和融合的点云方面表现最佳,这也可以通过APE和RPE中的最高精度得到验证。
4. 主要贡献
我们的LiVisSfM系统主要在以下几个方面做出了贡献:
• 我们提出了一种基于体素地图的LiDAR姿态估计方法,该方法通过点到高斯残差度量稳健地注册LiDAR点,从而解决了由远距离累积误差引入的对齐问题。
• 提出了一种新的全局LiDAR-视觉BA方案,该方案通过采用增量更新策略,以高效的方式联合优化LiDAR和视觉相机姿态,并更新体素地图。同时,建立了明确的LiDAR和视觉回环,用于姿态图优化,以进一步消除累积误差。
• 将LiDAR和视觉姿态的交替估计以及全局LiDAR-视觉捆集优化充分结合到一个创新的激光雷达-视觉SfM框架中,用于准确恢复LiDAR和视觉姿态并进行点融合,从而获得场景的高质量密集点云,且不依赖于IMU。
5. 方法
用户使用商用3D扫描仪扫描大规模场景,该扫描仪包含一个LiDAR传感器以捕获场景的连续LiDAR点云序列,记为L,其中每个LiDAR点云Lt称为时间戳t时的LiDAR帧,以及两个鱼眼相机以拍摄场景的同步多视角视频流,分别记为I1和I2,无需额外的传感器如IMU。LiDAR帧和鱼眼相机帧并非严格同步,可能会相差几百毫秒。这里保证LiDAR传感器和鱼眼相机包含出厂时的内参和外参,基于这些参数,LiDAR传感器和鱼眼相机已经相互校准。我们的LiVisSfM系统应用于输入的LiDAR帧和多视角鱼眼图像,以稳健地重建捕获场景的精确密集点云,记为P。
我们实施了LiDAR-视觉SfM方案来联合估计LiDAR和视觉相机的位姿。我们的系统包含三个主要模块:LiDAR和视觉地图初始化、交替LiDAR和视觉位姿配准以及映射。
首先,在两个鱼眼相机的多视角视觉帧之间进行特征提取和匹配。然后,通过视觉相机帧的双视图几何关系,从视觉帧中初始化视觉地图,其中通过时间戳找到与两个已注册的视觉帧最接近的两个LiDAR帧,使用迭代最近点(ICP)算法计算其位姿,以构建以哈希表组织的体素图形式表示的初始LiDAR地图,每个哈希条目根据LiDAR点在体素中的概率分布的平面性被划分为八叉树。初始LiDAR地图通过最小二乘法(LSM)进一步与视觉地图对齐。
在LiDAR和视觉地图初始化完成后,其余视觉相机和LiDAR位姿交替估计,通过最大化新帧的LiDAR点位于LiDAR地图中对应体素内的概率,为新的LiDAR帧的位姿估计提供一对新估计的同步相机位姿作为初始先验。同时,在映射模块中执行全局LiDAR-视觉BA,以高效方式联合优化LiDAR和视觉相机位姿,并通过明确的闭环来进一步消除累积的位姿误差。LiDAR-视觉位姿估计和全局LiDAR-视觉BA均基于我们的点到高斯残差度量和增量体素更新策略。
在获得优化的全局LiDAR和视觉相机位姿后,多帧LiDAR点通过视觉帧着色并融合到最终的完整全局点云中,该点云具有准确的几何细节。提出的LiDAR-视觉SfM方案在图2中概述。
6. 实验结果
关于激光雷达-视觉束调整(BA)、时间相关权重和显式闭环的消融研究。(a)仅使用视觉BA时,激光雷达位姿存在明显的累积误差。(b)激光雷达-视觉BA显著提高了激光雷达位姿的准确性,但仍然存在累积漂移。(c)在引入时间相关权重后,位姿累积误差进一步减小。(d)激光雷达-视觉BA、时间相关权重和显式闭环的结合在估计的激光雷达位姿和融合的激光雷达点云上均取得了最佳重建结果,如蓝色矩形高亮放大的区域所示,同时在以米为单位的平均绝对误差(MAE)/均方根误差(RMSE)评估的绝对位置误差(APE)和相对位置误差(RPE)方面也表现出最佳的位姿精度。
(a)展示了两个自采集案例“走廊”和“茶室”的输入。(b-d)将我们的LiVisSfM在这两个案例上重建的相机轨迹和融合的密集点云与FAST-LIO2和VoxelMap进行了比较,红色矩形高亮放大的区域展示了我们的方法在重建精度和鲁棒性方面的优势。
(a)展示了两个KITTI序列“00”和“09”的输入。(b-d)将我们的管道在这两个序列上重建的相机轨迹和融合的密集点云与LOAM和VoxelMap进行了比较,蓝色矩形高亮放大的区域展示了我们的激光雷达重建具有更高的准确性,漂移和累积误差更少。
7. 总结 & 未来工作
本文提出了一种新的激光雷达-视觉结构从运动恢复(SfM)框架,称为LiVisSfM。该框架首先在初始化阶段通过ICP对齐视觉和激光雷达地图,然后采用点到高斯残差测量以获得更准确的位姿,从而在体素地图表示中交替地将激光雷达和视觉帧注册到视觉地图和激光雷达地图上。同时,为了消除累积误差,我们执行了激光雷达-视觉束调整(BA)和显式闭环检测,并以高效增量方式更新体素地图,以提高映射模块的运行时性能。在KITTI和自采集数据集上的实验证明了所提出的LiVisSfM系统的重建精度。
我们的系统类似于单向激光雷达-视觉SfM,其中视觉位姿作为激光雷达位姿注册的初始值。未来,为了更好地适应各种复杂环境,更希望采用双向反馈来联合优化视觉和激光雷达位姿。此外,密集重建只是简单地将激光雷达帧融合以获得点云,而视觉帧仅用于着色。如何充分结合激光雷达点和视觉线索来重建更准确和完整的密集网格或三维几何结构(3DGS)模型,仍是未来的另一项工作。
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。