ECCV2024 ｜一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP

教育 2024-09-18 10:01 浙江

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

点击进入→ FightingCV交流群

拔草星人的好消息来啦！

中科院自动化所和阿里云一起推出了街景定位大模型，只要一张照片就能实现街道级精度的定位。

有了模型的帮助，再也不用害怕遇到种草“谜语人”了。

比如给模型看一张旧金山的街景之后，它直接给出了具体的拍摄位置，并列举了附近的多个候选地址。

该模型名为AddressCLIP，基于CLIP构建。‍

相关论文AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization已入选顶会ECCV2024。

传统的图像位置识别往往致力于以图像检索的方式来确定图像的GPS坐标，这种方法称为图像地理定位。

但GPS对于普通人来说晦涩难懂，并且图像检索需要建立并维护一个庞大的数据库，难以本地化部署。

本篇工作提出了更加用户友好的，端到端的图像地理定位任务。二者的对比示意图如下：

针对这个任务，为了实现上述效果，研究人员主要从数据集构建与定制化的模型训练两方面入手开展了研究。

图像地址定位数据集构建

图像地址定位本质上是需要将街景图像与地址文本进行图文模态的对齐，因此首先需要收集大量的图像-地址对。

考虑到现有的用于多模态训练的图文数据中包含地址信息的数据比例过于稀少，研究人员选择基于图像地理定位中的图像-GPS数据对进行数据集的构造。

具体来说，通过使用地图中的Reverse Geocoding API，可以对一个GPS查询到一系列的相近的地址。

接着，通过筛选、投票等数据清洗机制，可以过滤得到每个图像的街道级地址文本。

这一过程如下图所示：

然而，考虑到街道本身的长短分布差异巨大，导致这个分布极度不均衡，同时街道级别的定位精度仍然过于粗糙。

因此，研究人员模仿人类描述位置的习惯，对于街道级别的地址进行了进一步的语义地址划分。

该过程通过使用道路交叉的十字路口等信息来对地址信息进行加强，其具体过程以及最终形成的地址文本描述如下：

最终，论文构造了位于两个城市，三种不同尺度的数据集，相关数据信息如下：

AddressCLIP具体实现

有了上述街景-地址文本的数据准备之后，似乎直接模仿CLIP的方式进行对比学习的微调即可。

但考虑到本任务的图像-文本数据对的语义关联十分微弱，这和CLIP预训练的数据存在着比较大的差异。

因此研究人员首先从数据和损失函数层面进行了对CLIP原始的训练框架进行了改进。

具体来说，借助以BLIP为代表的多模态生成模型的图像标注能力，研究人员对于训练数据中每个街景图像进行了语义文本的自动化标注。

然后，作者将语义文本与地址文本按照一定规则直接进行拼接，显式的弥补了本任务和CLIP预训练任务的差异。

这样一来，微调过程优化更加容易，并且也能过通过语义隐式增强了地址文本的判别性。

此外，考虑到图像特征，地址文本特征在预训练特征空间的分布可能是十分不均匀的。

受到流形学习的启发，作者认为本任务中图像-地址文本的理想特征应该位于一个和真实环境匹配的低维流形上。

具体来说，研究人员们引入了在真实地理环境中距离相近的两个点，其地址与图像特征在特征空间也应当接近，反之亦然这一假设。

利用图像与图像两两之间归一化后的真实地理距离来监督它们在特征空间中的距离，从而实现了图像特征与真实地理环境的在距离层面的匹配，使得模型学到的特征空间更加均匀。

因此，AddressCLIP将经典的CLIP损失优化为图像-地址文本对比损失，图像-语义对比损失以及图像-地理匹配损失，最终实现了准确、均匀的图像-地址文本对齐。

完成上述训练后，AddressCLIP可以通过给定候选地址集的形式进行推理。

值得一提的是，得益于模型将图像与各种地址的良好对齐，推理所用的候选文本可以是十分灵活与多样的形式，而非一定要按照训练集的书写规则。

效果优于通用多模态模型

在定量实验结果中，团队主要将模型与与zero-shot的CLIP，直接对齐地址的CLIP以及各种CLIP微调策略方法等进行对比。

可以看到，AddressCLIP在不同数据集，不同指标上均优于各个所比较方法。

在定性实验中，论文主要展示了AddressCLIP在推理形式上的灵活性与泛化性。

通过给定不同精细程度的地址文本的查询（如街区，街道，子街道），模型都可以在测试集图像上展示出与其真实覆盖地理分布一致的激活。

此外，研究人员也畅想了这一任务与数据集与多模态大模型结合的场景。

通过将数据集构造成关于地址问答的多轮对话形式，团队对LLaVA-1.5-vicuna进行了视觉指令微调，实现了对图像地址的生成式识别。

在与前沿多模态模型的对比中展现出明显的优势，尤其是针对图像中不存在地标与明显线索的图像。

作者预计，未来这一技术可以进一步扩展应用于社交媒体基于位置的个性化推荐上，或者与多模态大模型结合进行更加丰富的地址，地理信息相关问答，提供更加智能的城市、地理助手。

论文地址：
https://arxiv.org/abs/2407.08156
项目主页：
https://addressclip.github.io
GitHub：
https://github.com/xsx1001/AddressCLIP

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247531641&idx=1&sn=b32e1eca8b018fc98bab5eb388cb255e

ECCV2024 ｜ 一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP

图像地址定位数据集构建

AddressCLIP具体实现

效果优于通用多模态模型

ECCV2024 ｜一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP