提出街景定位大模型AddressCLIP:一张图实现街道级精度定位!

文摘   2025-01-11 00:44   江苏  

中科院自动化所和阿里云一起推出了街景定位大模型AddressCLIP,只要一张照片就能实现街道级精度的定位。

比如给模型看一张北京南锣鼓巷的街景之后,它直接给出了具体的拍摄位置,并列举了附近的多个候选地址。

基于图像的地理定位和地址定位任务的比较。所提出的任务的目标是预测给定图像的语义文本地址,而不是数字 GPS 坐标,而无需检索库。

相关链接

论文地址:https://arxiv.org/abs/2407.08156

项目主页:https://addressclip.github.io

GitHub:https://github.com/xsx1001/AddressCLIP

论文阅读

AddressCLIP:为城市范围内的图像地址定位提供视觉语言模型

摘要

论文介绍了社交媒体和新闻摄影提出的一个新问题,即图像地址定位 (IAL),旨在预测拍摄图像的可读文本地址。现有的两阶段方法涉及预测地理坐标并将其转换为人类可读的地址,这可能会导致歧义并耗费大量资源。

相比之下,文中提出了一个名为 AddressCLIP 的端到端框架,以更多语义的方式解决该问题,它由两个关键要素组成:

  1. 图像文本对齐,通过对比学习将图像与地址和场景标题对齐。
  2. 图像地理匹配,以流形学习的方式用空间距离约束图像特征。

此外专门针对 IAL 问题构建了匹兹堡和旧金山三个不同规模的数据集。实验表明该方法在所提出的数据集上取得了令人瞩目的表现,并且优于视觉语言模型的代表性迁移学习方法。此外,广泛的消融和可视化展示了所提出方法的有效性。

方法

将 IAL 问题表述为图像和地址对之间的视觉-文本对齐问题。上图描述了该方法的框架。在训练期间,图像和地址的嵌入分别由图像编码器和文本编码器提取,然后通过图像-地址对比学习进行对齐。引入附加场景标题作为地址的补充,以丰富纯文本信息。场景标题与图像地址共享相同的文本编码器,并将得到的标题嵌入和图像嵌入结合起来进行图像-标题对比学习。此外,以地理位置信息为指导,增加地理位置相近的图像特征之间的相似性,同时增加地理位置较远的图像特征之间的差异性。图像-地理匹配是通过地理空间距离和图像特征相似度来学习的。在推理过程中,与查询图像的嵌入相似度最高的地址表示最可能的地址。

数据集

现有的图像地理定位数据集仅包含拍摄图像的 GPS 坐标。同时,LAION-5B 等热门图像文本数据集中的文本主要描述相应图像的语义内容,而不是地理信息。为了支持 IAL 问题的研究,我们引入了三个 IAL 数据集,分别名为 Pitts-IAL、SF-IAL-Base 和 SF-IAL-Large,它们分别源自 Pitts-250k 和 SF-XL。上图提供了地址注释的示例,下面给出了所提数据集的可视化效果。

实验

上表显示了在引入的 Pitts-IAL、SF-IAL-Base 和 SF-IAL-Large 数据集上与上述基线的比较结果。AddressCLIP方法在三个数据集上的各个指标上都取得了显著的表现。零样本 CLIP 模型由于在预训练期间缺乏图文对中的明确地址信息而表现不佳。在使用地址对 CLIP 进行微调后,三个数据集上的地址定位准确率均显著提高,形成了强大的基线。得益于精心设计的图像文本对齐和图像地理匹配机制,AddressCLIP 在 Pitts-IAL、SF-IAL-Base 和 SF-IAL-Large 数据集上的 SSA-1 分别比代表性的视觉语言提示学习方法高出 7.41%、4.86% 和 6.29%。

可视化

如上图所示,使用 AddressCLIP 在匹兹堡对给定的文本地址查询进行地址定位。散点越亮,图像与查询地址文本之间的嵌入相似度越高。红色框表示地图上查询街道的实际地理范围。

该图显示了所提出的 AddressCLIP 根据给定的图像查询生成的 Top-5 文本地址预测及其在地图上的位置。提供的示例来自 Pitts-IAL 和 SF-IAL-Base 数据集。在大多数情况下,正确的预测是在第一个地址(Top-1)内确定的,这证明了 AddressCLIP 的精确地址定位能力。后续预测的地址也接近正确位置。此外,我们展示了一些失败示例,其中 Top-1 预测不正确。即便如此,仍然可以在 Top-5 地址中预测正确的地址,并且 Top-1 预测的地址通常接近实际位置。

三个图像地址定位数据集的地址注释示例及其在地图上的位置。

具有代表性的多模态大型语言模型与该方法的LLaVA-IAL在匹兹堡IAL任务中的比较实例。

结论

该研究介绍了图像地址定位问题,并提出了三个 IAL 数据集以供评估和后续研究。为了便于对齐图像和地址以解决该问题,提出了由图像文本对齐和图像地理匹配组成的 AddressCLIP 框架。在所提出的数据集上进行的大量实验验证了该方法优于将 CLIP 迁移到下游任务的迁移学习方法。将所提出的方法与现有的基于图像地理定位技术的两阶段地址定位流程进行了比较,并讨论了 AddressCLIP 在实际情况下的应用。最后在文中探讨了多模态大型语言模型在地址定位方面的潜力。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章