MIT开源!轨迹精度暴涨37%!ROMAN:无惧特征稀疏和感知混淆,超鲁棒的全局定位!

科技   2024-11-13 07:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:ROMAN: Open-Set Object Map Alignment for Robust View-Invariant Global Localization

作者:Mason B. Peterson, Yi Xuan Jia, Yulun Tian, Annika Thomas, Jonathan P. How

机构:Massachusetts Institute of Technology、University of California, San Diego

原文链接:https://arxiv.org/abs/2410.08262

代码链接:https://acl.mit.edu/ROMAN/

官方主页:https://acl.mit.edu/ROMAN/

1. 导读

全球定位是长期无漂移机器人导航所需的基本能力。然而,当面对显著不同的观点时,当前的方法无法重新定位。我们提出ROMAN(Robust Object Map Alignment Anywhere ),这是一种鲁棒的全局定位方法,能够在具有挑战性和多样性的环境中基于创建和对齐开集和视图不变对象的地图进行定位。为了解决由特征稀疏或感知混淆环境引起的定位困难,ROMAN使用统一的图论全局数据关联方法制定并解决了对象子地图之间的配准问题,该方法同时考虑了对象形状和语义相似性以及重力方向上的先验。通过在室内、城市和非结构化/森林环境中进行的一系列具有挑战性的大规模多机器人或多会话SLAM实验,我们证明ROMAN实现了比其他基于对象的地图对齐方法高36%的最大召回率,以及比使用视觉特征进行循环闭合低37%的绝对轨迹误差。

2. 引言

全局定位是指在先前的制图阶段或由另一台机器人在实时环境中生成的参考地图中定位机器人的任务,即协同SLAM(Simultaneous Localization and Mapping,即同时定位与地图构建)中的机器人间回环闭合。它是GPS拒止场景中实现无漂移导航的核心能力。在本文中,

我们考虑使用对象级或片段级表征进行全局定位,近期工作表明,这些表征在涉及视角、外观和光照剧烈变化的挑战性领域具有巨大潜力。

对象级定位的核心问题是全局数据关联问题,它需要在没有初始猜测的情况下,找到观测对象与地图中已有对象之间的对应关系。早期方法依赖于基于RANSAC的几何验证,但在高离群值情况下,这种方法表现出难以处理的计算复杂性。最近,图论方法已成为一种强大的替代方案,在解决对应关系问题时表现出更高的准确性和鲁棒性。特别是,基于一致性图的方法构建了一个图,其中节点表示假设的对象对应关系,边表示它们的几何一致性。数据关联问题通过提取大型且密集连接的节点子集来解决,从而得出所需的一组相互一致的对应关系。

虽然这些方法代表了当前的最先进技术,但在相互几何一致性不足的挑战性环境中,它们的性能受到严重限制。例如,当环境中物体较少或物体的空间配置高度模糊时,就会出现这种情况。推荐课程:扩散模型入门教程:数学原理、方法与应用

在本文中,我们通过扩展图论数据关联以使用超出相互(成对)几何一致性的信息来解决上述技术空白。我们开发了一种统一的图论公式,其中融入了:(i)开放集语义,作为语义上有意义的3D片段,其描述符来自视觉-语言基础模型CLIP;(ii)片段级几何属性,如片段的体积和3D形状,它们提供了额外的区分能力;(iii)关于重力方向的额外先验信息,该信息可轻松从机载惯性传感器中获得。通过将这些信息融合到数据关联公式中,我们的方法在精确度和召回率指标方面显著优于当前最先进的方法。

3. 效果展示

一对分段子地图,由两个在越野环境中以相反方向行进的机器人匹配。通过所提出的方法找到的关联片段通过线连接并投影到图像平面上。(顶部)每对关联的线段都用相同的颜色绘制。剩余的、不匹配的段以随机颜色显示,所有其他背景点以灰色显示。(底部)在原始图像观察中显现出相同的相关片段及其凸包。

越野环境下的定性姿态图轨迹估计。对比使用ROMAN和视觉特征进行环路闭合的简易、中等和困难三种情况。蓝色线条代表单机器人环路闭合,绿色线条表示多机器人环路闭合。简易情况是指所有路径同向,中等情况是指除了连接颈部的小段路径外,所有路径均反向,而困难情况是指所有路径均反向。当路径方向相反时,使用视觉特征无法检测到环路闭合。

4. 主要贡献

贡献。我们提出了ROMAN(Robust Object Map Alignment Anywhere,即任意环境下的鲁棒对象地图对齐)方法,这是一种在未见过的挑战性环境中进行全局定位的鲁棒方法。具体而言,ROMAN包括以下贡献:

一条从单个机载RGB-D(Red Green Blue-Depth,即红绿蓝-深度)相机创建开放集3D片段地图的管道,使用FastSAM进行开放集图像分割,使用CLIP计算开放集特征描述符。这些地图将详细的RGB-D点云紧凑地概括为稀疏且视角不变的表示,包括片段位置和度量-语义属性,从而实现高效且鲁棒的全局定位。

对的图论全局数据关联方法进行扩展,以纳入使用CLIP描述符和基于形状和体积的几何属性计算的片段级相似性。当已知重力方向时,还利用重力方向先验。我们的方法隐式地引导求解器在挑战性环境中纠正3D片段到片段的关联,当仅对象质心不足以识别正确关联时(例如,由于重复的几何结构或包含少量明显对象的场景)。

使用涉及城市和越野场景的真实世界数据集对提出的方法进行了广泛的实验评估(见图1)。我们的方法在涉及大视角变化的挑战性问题实例中,将全局定位的召回率提高了36%。当使用ROMAN而不是视觉特征进行机器人间回环闭合时,我们的方法在大规模协同SLAM问题(涉及6-8台机器人)上的整体定位误差降低了7.6%,在特别具有挑战性的序列子集上降低了37%。

5. 方法

ROMAN包含三个模块:映射、数据关联和位姿图优化。前端映射管道跨RGB-D图像跟踪片段以生成片段地图。数据关联模块将来自子地图的语义和形状几何属性以及重力先验融入ROMAN对齐模块,以对齐地图并检测回环闭合。然后将这些回环闭合和视觉惯性里程计(Visual-Inertial Odometry,VIO)用于位姿图优化。

6. 实验结果

我们首先使用在麻省理工学院校园内记录的室外Kimera-Multi数据集评估ROMAN的地图对齐效果。每个机器人使用Kimera-VIO创建一组子地图用于里程计,我们尝试将每个子地图与其他子地图对齐,以搜索机器人间和机器人内的回环闭合,如第三节所述。这相当于超过120,000对子地图作为方法的输入,其中420对在覆盖面积方面至少有2/3的重叠。

在图3中,我们展示了在观察一对子地图时,召回率作为精确度、估计变换的距离误差和航向差的函数的组合图。通过改变阈值(tau)来创建精确度-召回率图,从而直观地了解一种方法在确定正确地图对齐的同时拒绝错误对齐的能力。此外,我们还比较了在不同对齐距离误差下的召回率,以证明地图对齐的准确性。最后,我们比较了不同相对真实航向角下的召回率,以展示在更具挑战性的视角场景中各种方法的比较情况。当航向差较小时,对齐相对容易。虽然相反视角在物体外观差异方面构成了最具挑战性的场景,但垂直交叉路径意味着与相反方向行驶相比,看到的共同物体更少,使得接近90度的航向差成为最难正确对齐的场景。

图3显示,ROMAN实现了更高的精确度和召回率,对齐地图时的误差更小,并且能更成功地对齐从不同航向角观察到的场景的地图,优于基线方法。对于同向匹配(航向差接近零),ROMAN的最大召回率为0.67。对于反向匹配(航向差接近180度),ROMAN的最大召回率为0.26,远高于次优方法RANSAC-1M,后者仅实现0.11的召回率。此外,如表II所示,ROMAN的速度比RANSAC-1M快4.5倍。在通信和子地图存储大小方面,每个对象包括一个3D质心、一个四维形状描述符和一个768维语义描述符。由于每个子地图最多包含N=40个对象,因此子地图数据包大小严格小于250KB。对于1公里长的轨迹,整个地图的存储需求将小于24MB。

我们在隧道、混合和室外Kimera-Multi数据集上运行了完整的SLAM管道,并比较了估计的多机器人轨迹的绝对轨迹误差(Absolute Trajectory Error,ATE)的均方根误差(Root Mean Square Error,RMSE),如表III所示。结果表明,ROMAN在挑战性视觉场景中获取回环闭合的能力使整体ATE得到了适度改善。这是因为根据实验设计,机器人路径连接良好,且大多数回环闭合机会发生在机器人同向行驶时,导致显著改进的机会有限。然而,表IV显示了一组包含视觉回环闭合困难实例(例如,垂直路径交叉和高视觉混淆场景)的机器人轨迹,并表明ROMAN在这些挑战性场景中具有显著更低的ATE。

7. 总结 & 未来工作

本文提出了ROMAN方法,该方法通过鲁棒地注册3D开放集片段地图,在具有挑战性的室外环境中实现全局定位。地图之间的关联基于3D片段位置的几何形状、对象形状和语义属性以及对象地图中的重力矢量方向。未来的工作将包括结合从学习的形状描述符中获得的额外形状信息来计算形状相似性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章