论文赏读 | ECCV24 | 使用全景-BEV联合检索网络进行跨视角图像地理定位

文摘   2024-08-18 00:08   荷兰  

 RS   DL 

论文介绍

题目:Cross-view image geo-localization with Panorama-BEV Co-Retrieval Network

会议:The European Conference on Computer Vision 2024 (ECCV) 

论文:http://arxiv.org/abs/2408.05475

数据/代码:https://github.com/yejy53/EP-BEV

作者单位:中山大学、上海人工智能实验室、商汤科技

年份:2024
注:本篇由论文原作者审核

ECCV 2024遥感方向论文合集:ECCV2024

创新点

  • 全景-BEV 协同检索网络:本文提出了一种新的跨视角地理定位方法,通过利用几何关系和地面平面假设,将街景全景图像转换为鸟瞰图 (BEV)。这种转换减少了街景视角和卫星图像之间的视角差异。
  • 双分支检索:该网络结合了原有的街景检索分支和基于 BEV 的检索分支。这个组合可以利用全局布局和局部详细信息,解决了 BEV 的局限性,例如感知范围有限的问题。
  • 构建CVGlobal 数据集:作者构建了一个新的全球跨视角数据集 CVGlobal,该数据集具有更现实的设置,包括多变的街景方向、跨区域和跨时间检索任务,以及地图数据检索。与现有的数据集(如 CVUSA 和 CVACT)相比,该数据集更接近真实世界的场景。

数据

CVGlobal 数据集的构建

  1. 数据收集:
  • 街景图像:CVGlobal 数据集包含了从全球七个城市(慕尼黑、多伦多、新加坡、圣保罗、布里斯班、开普敦、约翰内斯堡)收集的134,233张街景图像。这些图像是通过Google Street View下载工具在2023年收集的,每两张图像之间的平均距离为50米。
  • 跨时间图像:此外,还收集了布里斯班在2013年、2016年和2019年的街景图像,以便评估算法的跨时间检索能力。
  • 卫星图像和地图数据:使用Google Maps Static API,根据街景图像的经纬度获取相应的卫星图像和地图数据。卫星图像的尺寸为512×512,覆盖约70米×70米的空间范围。地图数据和卫星图像共享相同的覆盖范围和分辨率。


  • 数据集特点:
    • 全球范围:CVGlobal 数据集覆盖了风格各异的全球城市,可以有效评估算法在不同场景下的鲁棒性。
    • 不固定的街景方向:由于街景图像是通过车载相机拍摄的,因此通常以道路为中心,方向不固定。这一特点使得数据集更贴近真实的应用场景。
    • 多时段数据:数据集中包含了布里斯班不同年份的街景图像(2013年、2016年、2019年),使得算法能够在不同时间段的图像上进行检索测试。
    • 地图数据补充:数据集还包括与卫星图像对齐的地图数据切片,用于探索地图数据在跨视角检索任务中的应用潜力。


      方法

      在跨视角检索任务中,目标是根据输入的街景全景图像查询数据库中最相似的卫星图像,以实现街景图像的地理定位。为了解决街景图像和卫星图像之间存在的显著视角差异,本文提出了一种显式全景鸟瞰图(BEV)转换方法,来减少这两种视角之间的差距,并进一步通过全景-BEV协同检索网络进行检索。

      显式全景 BEV 转换:

      • 过程描述:
        • 首先,预设一个与卫星图像视角对齐的 BEV 平面,假设相机位于该平面的中心位置。

        • 通过几何关系,确定街景全景图像中的每个像素如何映射到 BEV 视图中。这种转换将街景图像从地面视角“抬升”到鸟瞰视角,使得图像中的道路、建筑等元素与卫星图像中的相应元素更容易匹配。

        • 转换后的 BEV 图像更直观地显示了街景图像中的关键信息,尤其是那些在卫星视角下同样可见的信息(如道路、建筑物的屋顶等)。
      • 优点:
        • 这种转换减少了街景图像与卫星图像之间的视角差异,使得跨视角信息(如道路方向和建筑轮廓)更加一致。

        • 转换后的图像失去了地面视角下的高层建筑细节,但这些细节在卫星图像中本身就是不可见的,因此这种损失并不影响整体匹配效果。


      双分支协同检索网络

      为了更好地利用转换后的 BEV 图像,本文设计了一个双分支的协同检索网络。

      • 街景检索分支:这个分支直接处理街景全景图像,提取其全局布局信息,并将其与卫星图像进行匹配。由于全景图像能够覆盖更广的视野,这个分支有助于捕捉全局性特征,尤其是在大范围的场景下。

      • BEV 检索分支:这个分支处理转换后的 BEV 图像,重点关注街景图像中与卫星图像视角一致的局部细节。由于 BEV 图像已经调整了视角差异,这个分支在捕捉细节特征和精确匹配方面表现出色。

      • 协同检索:这两个分支分别训练,以独立提取街景图像的全局和局部特征。在实际检索过程中,网络同时应用这两个分支,并结合它们的结果来得出最终的匹配决策。这种协同方式确保了在处理复杂场景时,既能保持全局布局的一致性,也能精确匹配局部细节。

      结果和精度

      精度评价

      跨区域和跨时间:

      街景到地图检索:

      可视化对比



      欢迎关注CVPR/ECCV 2024系列

      因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



      关于AI回复功能:


      公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



      问题及讨论可直接在文章下方留言


      相关链接:


      论文赏读 | CVPR24 |单目遥感图像3D建筑重建,多级监督框架MLS-BRN
      论文赏读 | CVPR24 | 结合卫星和街景图像实现精细的建筑属性分割,入选Highlight!
      论文赏读 |CVPR24 |无监督用于跨视角地理定位,夏桂松教授团队新作

        欢迎关注  


      分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



      欢迎加入遥感与深度学习交流群(点此加入)


      遥感与深度学习
      聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
       最新文章