彻底解决尺度漂移!浙大新作BEV-ODOM:使用BEV增强单目VO!定位精度SOTA!

科技   2024-11-20 07:01   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:BEV-ODOM: Reducing Scale Drift in Monocular Visual Odometry with BEV Representation

作者:Yufei Wei, Sha Lu, Fuzhang Han, Rong Xiong, Yue Wang

机构:浙江大学

原文链接:https://arxiv.org/abs/2411.10195

1. 导读

单目视觉里程计(MVO)在自主导航和机器人领域至关重要,它提供了一种经济高效且灵活的运动跟踪解决方案,但单目设置中固有的比例模糊性往往会随着时间的推移导致误差累积。在本文中,我们提出了BEV-ODOM,一种新的MVO框架,利用鸟瞰图(BEV)表示来解决规模漂移。与现有方法不同,BEV-ODOM将基于深度的透视图(PV)集成到BEV编码器、相关性特征提取颈部和基于CNN-MLP的解码器,使其能够估计三个自由度上的运动,而无需深度监控或复杂的优化技术。我们的框架减少了长期序列中的尺度漂移,并在各种数据集上实现了精确的运动估计,包括NCLT、牛津和KITTI。结果表明,BEV-ODOM优于当前的MVO方法,表现出降低的标度漂移和更高的精度。

2. 引言

单目视觉里程计(MVO)因其成本效益高,在机器人技术和自动驾驶领域成为了一种重要的解决方案,多年来备受关注。它作为GPS和惯性导航系统等导航辅助设备的经济实用、易于部署的补充手段。尽管具有诸多优势,但MVO的广泛应用却受到一个关键挑战的限制:尺度不确定性。由于缺乏通用的深度信息,单目系统通常只能以相对尺度来估计运动。

传统的MVO方法,如基于特征的方法,半直接方法,以及直接方法,在初始化过程中确定尺度,并将其作为全局参考。这种方法将尺度估计与初始运动紧密联系在一起,使得跟踪性能对启动运动速度高度敏感。此外,这些方法严重依赖于初始尺度设置,随着时间的推移会出现严重的尺度漂移问题。

基于学习的MVO方法利用机器学习强大的拟合能力来模拟训练数据中的先验分布。使用卷积神经网络(CNN)自动从图像中提取特征,并基于时序建模方法回归姿态。此外,一些方法将传统方法的可解释性与深度学习的强大数据拟合能力相结合。这些方法将深度学习融入到绝对尺度恢复和特征点选择等步骤中,以实现绝对尺度并增强匹配鲁棒性。为了获得高精度的深度估计,这些方法通常会引入深度监督或光流监督作为额外的监督手段,但这会带来额外的成本。

近年来,随着鸟瞰图(BEV)变换技术的进步以及BEV表示在三维检测和场景分割中的卓越表现,一些方法已经开始利用BEV表示来实现视觉里程计。使用BEV表示的动机在于利用自动驾驶中的共同地面平面假设来简化六自由度(6-DoF)里程计估计问题。然而,这些方法并没有超出BEV表示下其他三维任务的框架;它们需要先进行场景分割,然后使用分割结果来估计姿态。使用辅助任务监督引发了关于固有尺度属性是来自BEV表示本身还是来自监督的疑问。此外,这些方法导致标签获取成本高,并且没有充分利用BEV表示提供的直接信息。推荐课程:(第二期)彻底搞懂基于LOAM框架的3D激光SLAM:源码剖析到算法优化

为了解决这个问题,我们提出了BEV-ODOM,这是一种利用BEV表示的新型MVO方法。我们的框架围绕基于深度的透视视图到鸟瞰图编码器、用于评估两个具有不同位移的BEV之间相似性的相关特征提取颈以及整合了卷积神经网络(CNN)和多层感知器(MLP)的解码器来估计三个自由度(3-DoF)内的运动而构建。与现有的基于学习的MVO方法不同,我们的方法避免了诸如光束平差、姿态图优化和辅助任务监督等复杂程序。与其他依赖于BEV表示的视觉里程计方法不同,我们的方法不依赖于BEV地图或占用地图下的分割结果进行姿态估计,也不需要额外的监督。这种简化不仅提高了我们方法的效率,而且避免了不准确的分割结果对MVO的影响,并降低了数据收集成本。通过充分利用BEV表示的一致尺度属性和精确、详细的特征提取能力,我们的方法表现出了出色的尺度一致性,并在具有挑战性的数据集上实现了3-DoF评估下的最优(SOTA)性能。由于NCLT和Oxford数据集在z轴平移、俯仰和横滚方面变化极小,我们的方法在6-DoF评估下同样表现出色。

3. 效果展示

MVO方法比较:传统方法缺乏一致的尺度;基于学习的方法需要额外的监督。相比之下,我们的方法仅使用BEV表示的姿态监督即可实现低尺度漂移。

在轨迹分析中,如图4所示,对于NCLT和Oxford数据集,左侧图像描绘了完整轨迹,而右侧图像展示了这些轨迹中的选定部分。这一区分对于全面评估至关重要:

• 完整轨迹分析(左侧图像):这些轨迹图像是对三个完整序列进行训练并在另一个完整序列上进行测试所得结果的可视化。仅展示了我们的方法,因为其他方法在整个序列上通常会产生不可靠的轨迹。这凸显了现有MVO方法在长期或复杂环境中保持尺度一致性和准确轨迹估计所面临的挑战。

• 选定段分析(右侧图像):这些轨迹图像展示了在同一序列的部分序列上进行训练并在完全未见过的场景中进行测试所得结果的可视化。这种测试方法评估了我们的方法在新环境中的泛化能力和准确性,我们的方法在此次评估中仍然表现最佳。

这种双重分析证明了BEV-ODOM的鲁棒性和适应性。它能够可靠地处理长且复杂的轨迹,并在不熟悉的环境中表现良好,这凸显了在满足平面假设的复杂和远距离场景中,使用BEV表示进行MVO任务的优势。

4. 主要贡献

我们的工作贡献如下:

• 我们提出了一种利用BEV表示的新型MVO框架,有效解决了尺度漂移问题,并提高了准确性。

• 我们的方法简化了基于BEV表示的基于学习的MVO流程,无需深度估计、分割和占用图生成等辅助任务的监督,提高了效率和鲁棒性。

• 我们的方法在具有挑战性的数据集上,在当前MVO方法中实现了最优性能。

5. 方法

BEV-ODOM引入了一种MVO方法,该方法利用BEV表示的固有尺度一致性进行运动估计。它除了视觉输入和姿态监督外,不需要额外的模块。该过程从透视视图(PV)中提取特征开始,然后通过截头体投影将这些特征映射到BEV平面上。然后,我们计算两个不同位移帧之间的多通道BEV特征图的相关性,识别出揭示自我运动平移和旋转的匹配项。最后,我们使用CNN和MLP对这些特征进行细化并生成最终输出。

BEV-ODOM的中间过程和结果:预测和实际轨迹(左上),四个位置的相机图像(A-D,右上),以及BEV特征图和BEV光流信息的可视化(下)。

6. 实验结果

表I展示了我们的方法在KITTI、NCLT和Oxford数据集上与其他方法的性能比较。

在KITTI数据集中,我们的方法在seq.09的大多数指标上取得了最佳或次佳结果,特别是在衡量整体轨迹漂移的绝对轨迹误差(ATE)方面表现尤为出色。在seq.10上,我们的方法在平移精度方面不是最优,部分原因是整个序列中存在显著的海拔变化。这表明我们的方法在不符合平面假设的场景中有改进空间。另一个原因是DF-VO使用立体相机数据进行训练。

对于更具挑战性的NCLT和Oxford数据集,我们的方法几乎在所有指标上都显著优于其他方法。

DF-VO在KITTI数据集上表现更好,因为它使用立体深度信息进行训练。然而,即使在最先进的提供双向光流和单目深度估计的基础模型上进行测试的NCLT和Oxford数据集上,其性能仍然不佳。这突显了此类方法在数据集缺乏深度和光流监督数据或车辆未配备必要的数据采集设备时面临的困难。相比之下,即使在没有深度监督的情况下,我们的方法也能实现良好的尺度一致性和精确的相对位姿估计。它在没有Sim(3)对齐的实时场景中表现出色,并且在NCLT和Oxford数据集上的ATE指标优于使用Sim(3)对齐的其他方法。

最后,与需要连续多帧优化的DROID-SLAM和涉及预测中间深度和双向光流的DF-VO等技术相比,我们的方法在速度和内存消耗方面均有所提升。我们的方法在RTX4090显卡上实现了每秒超过60帧(fps)的速度。这种高效性和资源使用的减少简化了基于学习的方法的部署,使我们的方法在实际应用中更具实用性。

我们还展示了图5,该图显示了各种方法沿路径的对数尺度因子的变化。与其他方法相比,我们的方法在整个路径上保持了一致的尺度因子。

结果表明,我们的方法在各种数据集上均保持了高水平性能,仅在KITTI数据集的一个测试序列上相较于经过立体训练的DF-VO方法表现不佳。通过观察图5并分析该序列的真实值,我们发现尺度漂移的主要原因是路径最后50%的上坡路段。由于我们的方法仅预测3自由度(3-DoF)运动,因此会导致此类误差。

此外,值得注意的是,即使在严重抖动的NCLT数据集中,我们的方法也始终如一地保持了从头至尾的尺度准确性。这是因为在严重抖动的情况下,BEV特征的运动幅度小于透视视图(PV)特征。BEV编码器专注于根据深度将特征映射到BEV空间,因此更能应对这些情况,而在高频、大振幅往复运动期间,找到PV特征的准确匹配项具有挑战性。

7. 总结

在本文中,我们提出了BEV-ODOM,这是一种旨在解决视觉里程计系统中尺度漂移问题的视觉里程计框架。我们从透视视图图像中提取特征并估计其深度分布,将其投影到三维空间并压缩为BEV表示。接下来,我们使用相关特征提取模块来捕获BEV特征图之间的运动信息。最后,基于卷积神经网络-多层感知器(CNN-MLP)的位姿解码器估计3-DoF运动。我们在广泛使用的NCLT、Oxford和KITTI数据集上进行了大量实验,以验证我们方法的有效性。结果表明,所提出的方法在所有数据集上均表现出优越的性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章