NeurIPS24 | 无需复杂地图! 基于城市白模的无人机视觉定位新方法

文摘   2024-10-22 08:02   荷兰  

 RS   DL 

论文介绍

题目:LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment

会议:Conference on Neural Information Processing Systems 2024

论文:https://arxiv.org/abs/2410.12269

代码:https://victorzoo.github.io/LoD-Loc.github.io/

年份:2024
单位:国防科技大学、商汤科技
注:本篇由论文原作者审阅

NeurIPS 2024遥感方向论文合集:NeurIPS024
视频介绍

创新点

  • 基于LoD模型的创新:提出使用轻量化的Level of Detail (LoD) 3D模型代替复杂的纹理化3D模型进行视觉定位。这种方法避免了使用高分辨率的3D模型,减少了数据的存储需求,并保护隐私。
  • 线框对齐优化:通过预测的神经网络线框与LoD模型投影的线框进行对齐,提出了新颖的姿态估计方法,并在估计后利用可微的高斯-牛顿方法进行6-DoF姿态优化。
  • 端到端训练:整个姿态估计流程是可微的,允许网络通过姿态监督进行端到端训练,大大提升了效率。
  • 多级特征提取与分层优化:该方法采用了多级特征提取器和逐层细化的姿态估计方案,提升了姿态选择的精度。

背景

文章背景聚焦于空中视觉定位这一领域的主要任务是通过无人机拍摄的图像,结合已知的地图信息,确定无人机的全球位置和方向。该技术在许多关键应用中发挥重要作用,如货物运输、监控、搜索与救援等。

当前问题与挑战

  • 依赖复杂的3D模型:现有的空中视觉定位方法通常依赖高精度的纹理化3D模型(如SfM或网格模型),这些模型需要通过高质量的摄影测量数据构建,生成复杂且存储空间庞大的3D模型。然而,构建和维护全球范围内的这些高质量3D地图既昂贵又费时,尤其是在地貌外观随时间变化的情况下。
  • 存储和计算成本高:高分辨率3D模型占用大量存储空间,难以直接在无人机上部署,而只能在云端处理。此外,纹理化模型的细节可能暴露定位区域的敏感信息,带来隐私保护和安全问题。
  • 现有方法的局限:现有的空中视觉定位方法通常需要将图像中的2D特征与3D地图中的特征点进行匹配,之后再通过算法(如PnP RANSAC)估计摄像头的姿态。这类方法对高质量3D地图的依赖使得定位精度与地图质量紧密相关。

数据

数据集由作者团队收集

  • UAVD4L-LoD 数据集
    • 该数据集基于一个大规模的斜摄影场景,通过半自动化方法生成LoD3.0模型,覆盖2.5平方公里区域。无人机采集的RGB图像以及相关的传感器数据(GPS、IMU等)也包括在数据集中。

    • 主要用于测试该方法在城市复杂环境下的表现。数据集中的建筑物模型具有详细的几何信息,如建筑物的高度、屋顶和侧柱等细节。

    • 无人机的图像分为轨迹内(in-Traj.)和轨迹外(out-of-Traj.)两类,分别对应有预设飞行路径和自由飞行路径的图像采集方式。


  • Swiss-EPFL 数据集
    • 该数据集由瑞士联邦当局(SwissTOPO)提供的LoD2.0模型生成,覆盖8.18平方公里的区域,主要是EPFL(洛桑联邦理工学院)附近的建筑物区域。

    • 相比LoD3.0模型,LoD2.0模型细节较少,建筑物的几何结构更加简化,主要包含建筑物的高度和屋顶信息。这个数据集用于测试方法在简化模型下的表现。

    • 该数据集的图像来自CrossLoc项目,通过无人机拍摄RGB图像并记录相关的传感器数据。

方法

文章提出了空中视觉定位方法LoD-Loc,该方法基于轻量化的LoD(Level of Detail)3D模型,并通过神经网络的线框对齐来进行无人机的姿态估计。

1. 多级特征提取器

  • 主要目标:从输入的无人机拍摄的RGB图像中提取出能够代表建筑物轮廓的特征。
  • 方法:使用卷积神经网络(U-Net架构),通过对输入图像进行多层次特征提取,不同层次的特征图以单通道输出,表示每个像素是建筑物线框一部分的可能性。通过这种方式,逐步提取出图像中建筑物的粗略到细致的结构信息。

2. 姿态假设生成与选择

  • 目标:从图像的初步姿态估计中生成多个姿态假设,并通过评估这些假设与实际图像之间的吻合度,选择最佳姿态。
  • 过程:

    • 根据无人机的传感器数据(如GPS、惯性单元等)提供的粗略姿态,生成多个姿态假设。

    • 通过对LoD模型进行投影,将其建筑物的3D线框投影到图像平面上,与通过神经网络提取的线框进行对齐。

    • 每个姿态假设根据线框的对齐程度打分,形成一个姿态评分表,利用该表选择出对齐程度最好的姿态。

3. 逐层优化与不确定性调整

  • 目标:通过逐层优化和不确定性采样,逐步细化姿态估计。
  • 过程:

    • 使用多级优化机制,逐步对姿态进行细化。在初级阶段,姿态估计范围较大,通过初步对齐缩小范围。随着层级的加深,采样范围变得更小,姿态估计变得更加精确。

    • 在每一级优化中,使用上一层的姿态估计不确定性信息来调整下一层的采样范围,使得采样范围能够自适应调整,进一步提升姿态精度。

4. 姿态优化

  • 目标:在选择出最佳姿态后,进一步精细调整姿态以确保3D线框与图像中的线框对齐得更加精确。
  • 过程:

    • 通过优化算法,对姿态进行最终微调,确保从3D LoD模型投影到图像中的线框与神经网络预测的线框高度吻合。

    • 此步骤通过反复优化的方式,减少图像中预测线框与实际线框之间的偏差,从而获得更精确的无人机6自由度(6-DoF)姿态。

5. 端到端训练与可微分优化

  • 目标:让整个流程(包括特征提取、姿态选择和姿态优化)都可以通过端到端的方式进行训练,使得网络能够自动学习最优的特征和姿态估计。
  • 过程:整个定位过程是可微分的,意味着可以将地面真实的姿态作为监督信号来训练神经网络。这种训练方式能够帮助网络自动优化特征提取、姿态选择等步骤,从而提升最终的定位精度。

结果和精度

精度对比

消融实验

可视化

更多图表分析可见原文



欢迎关注会议论文赏读系列

因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。


公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!




问题及讨论可直接在文章下方留言


相关链接:


NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones
论文赏读 | ECCV24 | 使用全景-BEV联合检索网络进行跨视角图像地理定位
论文赏读 | CVPR24 |单目遥感图像3D建筑重建,多级监督框架MLS-BRN

  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章