作者:香港城市大学 贾鹏越
今天跟大家分享一篇来自于香港城市大学、百度关于全球地理定位领域的论文。该论文针对全球范围内精确定位照片提出了一种新颖的基于检索增强生成(Retrieval-Augmented Generation, RAG)的框架G3。首先,论文指出现有研究在扩展到全球范围时面临的挑战,例如捕捉细微的地理语义信息的难度以及图像数据的地理分布不均。为了解决这些问题,G3框架分为三个步骤,分别是地理对齐(Geo-alignment)、地理多样化(Geo-diversification)和地理验证(Geo-verification),来优化全球地理定位中的检索和生成阶段。在IM2GPS3k和YFCC4k两个数据集上的实验验证了该方法相较于其他最先进方法的优越性。
论文:https://arxiv.org/abs/2405.14702
代码:https://github.com/Applied-Machine-Learning-Lab/G3
MP16-Pro 数据集:https://huggingface.co/datasets/Jia-py/MP16-Pro
摘要
全球地理定位旨在精确定位世界任何地方拍摄的照片的坐标位置。该任务面临诸多挑战:首先,要捕捉细微的地理语义信息非常困难;其次,图像数据的地理分布极不均衡。因此,现有的研究在扩展到全球范围时有明显的局限性,容易混淆具有相似视觉内容但地理距离遥远的图像,或者无法适应全球各地不同数量的相关数据。为了应对这些问题,作者提出了一种名为G3的新框架,基于检索增强生成(Retrieval-Augmented Generation, RAG)技术。G3框架包括三个步骤:地理对齐(Geo-alignment)、地理多样化(Geo-diversification)和地理验证(Geo-verification),用于优化全球地理定位中的检索和生成阶段。在地理对齐过程中,该方案通过联合学习图像、GPS以及文本描述的多模态表达,捕捉位置相关的语义,从而实现对给定查询的附近图像的有效检索。在地理多样化阶段,使用了一种基于提示集成的方法,缓解了不同图像查询下检索性能的不一致性。最后,在地理验证阶段,结合检索得到的GPS候选和生成的GPS候选,完成最终的定位预测。
主要创新点
提出了G3框架用于全球地理定位任务,提出了三项技术创新:
地理对齐(Geo-alignment):用于学习具有丰富地理语义的图像表示。 地理多样化(Geo-diversification):用于提升GPS候选生成的鲁棒性。 地理验证(Geo-verification):将检索的候选和生成的候选结合起来进行最终预测。 发布了新的数据集MP16-Pro,在原始数据集MP16的基础上为每个样本增加了文本描述,以促进地理定位领域的后续研究。
在两个经典数据集IM2GPS3k和YFCC4K上进行了广泛实验,G3相较于其他最先进的基线方法表现出显著的优越性。
方法
Database Construction
G3框架需要一个图像数据库来保留图像表示。现有工作通常直接使用视觉编码器(例如,CLIP的ViT编码器或ResNet)对图像进行编码,但视觉相似性并不能完全反映地理接近性。为了解决这个问题,G3引入了“地理对齐(Geo-alignment)”,通过多模态对齐将地理信息整合到图像表示中。
Geo-alignment
在地理对齐中,地理特征可分为连续特征和离散特征,这些特征在地理定位中是非常重要的。例如,气候、地形和植被等是沿着经度或纬度逐渐变化的连续特征,而城市或国家名称等离散特征则可以帮助确定地理位置,尤其是在国家边界附近会发生明显变化。为了编码适合地理定位的表示,G3采用了一种多模态对齐方法。
在图像编码过程中,我们使用了预训练的视觉编码器和两个可训练的转换层来编码图像,一个用于文本地理描述,另一个用于GPS数据,以使图像表示与文本描述和GPS数据对齐。
在GPS数据编码过程中,我们采用了Mercator投影因为其等角属性。
经度 和纬度 ,其中 表示中央子午线经度, 为地球半径的比例常数。投影后的坐标为 ,表示变换后的平面坐标。
在投影之后,作者使用了之前工作GeoCLIP中的方法来捕捉高频模式和层次化表示,这些表示是通过具有多种频率的随机傅里叶特征(Random Fourier Features, RFF)来实现的。RFF 函数 用于转换投影坐标 :
其中, 表示从高斯分布 中采样的矩阵,用于限制频率。为了捕捉层次化表示,我们对具有不同 的输出进行求和:
其中, 是批次中第 个样本的 GPS 表示, 表示层次层数, 是第 层的前馈函数, 控制第 层的频率:
其中, 和 控制 的范围。
文本编码。在地理对齐中,作者使用地理反向编码来获取GPS坐标的文本描述。例如,GPS坐标(60.37, 6.72)可以转换为描述“拍摄自挪威韦斯特兰的一张照片”。这些描述输入到预训练的文本编码器中,然后通过前馈网络进行向量变换:
其中, 表示批次中第 个样本的文本描述编码, 是文本编码器函数, 是批次中第 个样本的文本描述, 是前馈变换层。
在优化过程中,地理对齐的优化目标是通过以下公式来对齐图像表示与文本描述和GPS信息:
其中, 表示从模态 到模态 的损失函数, 表示编码表示, 表示温度参数。G3需要将图像表示与文本描述和GPS数据对齐,因此最终的优化目标为:
在图像矢量化方面,在地理对齐之后,我们将数据集中的图像矢量化并存储在数据库中。为了保持与地理定位任务一致的图像表示,我们将原始视觉表示与对齐后的表示拼接,得到最终的表示:
表示最终表示, 是通过预训练视觉编码器直接获得的图像表示, 和 是与文本描述和GPS信息对齐后的图像表示。
Location Prediction
在之前的工作中,直接使用相似图像的GPS坐标通过单一的RAG提示生成预测。然而,由于查询图像的异质性,参考坐标的数量会影响每个样本的最佳预测性能。为了应对这个问题,Geo-diversification通过提示集合扩展了候选池,包含不同数量的参考坐标。Geo-verification为每个样本选择最佳的预测坐标。在位置预测阶段,引入了Geo-diversification和Geo-verification来确定最终生成的预测并选择置信度最高的结果。
Geo-diversification
由于查询图像的异质性,RAG过程中参考坐标的数量会随着每个样本的预测需求而变化。为了解决这一问题,引入了Geo-diversification。具体而言,首先构造了 个RAG提示,这些提示包含不同数量的参考坐标(零参考坐标表示零样本生成),每个提示将生成 个结果。此过程可以表示为:
其中, 表示通过第 个RAG提示生成的候选坐标, 是第 个RAG提示。最终的候选池包含了从相似图像检索的前 个坐标候选和生成的坐标候选,如图2所示,记为:
Geo-verification
给定坐标候选集合 ,选择最佳的预测是非常重要且具有挑战性的。为了实现这一目标,作者重新使用了Geo-alignment中的Image-to-GPS模型。图像表示 和GPS表示 之间的相似性通过以下公式计算得到:
具有最高相似性的坐标 被选为最终的预测结果:
MP16-Pro Dataset
为了促进后续研究,作者提出了MP16-Pro数据集,这是在MediaEval Placing Tasks 2016 (MP-16) 数据集的基础上,为每个样本增加了地理文本描述。具体而言,作者利用开源地理编码工具Nominatim获取每个样本的GPS位置对应的多级地理文本描述(总共4.72百万个位置)。地理单元包括八个级别:邻里、城市、县、市、州、国家、国家代码以及大洲。这些地理文本描述为地理定位任务提供了额外的信息,使模型不仅依赖于图像和GPS对齐,还能够突破原有的限制,支持更多样化的建模方法。
实验
我们在IM2GPS3K和YFCC4K数据集上进行了广泛的实验,实验结果如下。从实验结果可以发现G3在所有数据集的所有指标上都取得了优异的效果,证明了G3的有效性。
Ablation Study
为了理解G3中各个模块的具体作用,作者设计了以下几种变体:
w/o Geo-A: G3不包含Geo-alignment,直接使用CLIP中的ViT来构建数据库。 w/o Geo-D: G3不包含Geo-diversification,只使用一个RAG提示生成预测,并包含10个正样本和10个负样本(参数已经调优)。 w/o Geo-V: G3不包含Geo-verification,取而代之的是在Geo-alignment中随机选择候选中的最终预测结果。
我们可以得出以下结论:
所有三个模块对最终性能有显著贡献。 与不包含Geo-alignment的版本相比,G3性能更优,因为Geo-alignment将地理信息整合到了图像表示中。因此,检索到的图像在地理上与查询图像更相似,提高了RAG过程中参考的有效性。 G3优于不包含Geo-diversification的版本,因为在面对异质查询图像时,每个样本达到最佳预测性能所需的参考坐标数量是不同的,Geo-diversification的缺失会导致次优的候选。 与不包含Geo-verification的版本相比,G3的性能显著更好,这表明Geo-verification是必要的。
超参数实验
RAG 提示数量的影响
为了研究不同数量的RAG提示对性能的影响,作者设计了以下实验:使用了四组RAG提示,每组参考坐标数量不同:0正样本、0负样本;5正样本、5负样本;10正样本、10负样本;15正样本、15负样本。从第一个提示开始,逐步添加后续提示,以改变RAG提示的数量。每个提示生成的候选数量固定为5个。如图3所示,不同提示数量对预测性能的影响在不同指标阈值下是保持一致的。当提示数量从1增加到2时,性能有显著提升。这是因为零样本提示(0正样本和0负样本的RAG提示)无法为全球图像提供高质量的预测,而信息不足。随着提示数量从2增加到4,模型性能逐渐提高,因为更多的候选会增加包含真实坐标的可能性。
候选数量的影响
图4展示了每个提示的候选数量变化的结果。在这项实验中,提示的数量固定为4。我们观察到,在不同的地理层次上,性能下降的拐点表现出逐渐增加的趋势。具体来说,在街道级别,性能在只有一个候选时就下降;在城市级别,拐点为三个;在区域和国家级别,拐点为五个;在大陆级别,拐点为七个。以下三个关键点值得注意:
初期上升趋势是由于语言模型生成涉及随机性。引入更多候选可以缓解这种随机性。 随着候选数量增加,最终性能下降的原因可能是由于更多候选的引入增加了预测中的噪声。 随着地理层次的增加,性能逐级下降的程度变小,因为较大的地理范围对包括噪声候选表现出更强的容错能力。
Geo-alignment和Mercator投影的有效性
为了评估Geo-alignment和墨卡托投影的有效性,作者进行了以下实验,重点分析参考检索阶段:通过不同的嵌入技术构建图像数据库,并检索与查询图像最接近的Top-N图像。计算它们坐标与查询图像之间的测地距离。嵌入方法包括:
CLIP ViT:直接使用CLIP中的视觉编码器ViT进行图像嵌入。 G3+EEP:使用等面积投影(Equal Earth Projection, EEP)进行Geo-alignment。 G3+Mercator:使用墨卡托投影进行Geo-alignment。
表3展示了使用不同嵌入方法时检索参考图像的测地距离统计数据。可以得出以下结论:
G3+EEP优于CLIP ViT,因为CLIP ViT只考虑视觉相似性,而G3+EEP中的图像表示既包含视觉相似性又包含地理相似性,这对于地理定位任务非常重要。 G3+Mercator优于G3+EEP,因为EEP投影方法强调面积投影的准确性,但忽略了角度失真,这增加了训练的复杂度并限制了性能表现。
LMMs对G3效果的影响
为了探索LMMs对G3的影响,作者在IM2GPS3K上对G3和Img2Loc进行实验,使用了LLAVA(LLaVA-Next-LLAMA3-8b)。从表4可以得出以下结论:
在将LMMs从GPT4V替换为LLAVA后,G3在各种指标上表现出了一些性能下降,但依然具有竞争力。 相比于Img2Loc(LLAVA),G3(LLAVA)显著优于Img2Loc,这证明了提出模块的有效性。 最后,通过比较G3(LLAVA和GPT4V)与Img2Loc(LLAVA和GPT4V)的性能,可以观察到G3在不同LMMs上的性能更加稳定。
Geo-alignment中三种模态对齐的必要性
为了验证在Geo-alignment中对图像、GPS和文本三种表示对齐的必要性,作者在IM2GPS3K上对以下变体进行了实验:
IMG:直接使用预训练的CLIP视觉编码器作为编码器。 IMG+GPS:在Geo-alignment中对齐图像表示和GPS表示,不使用文本描述。 **IMG+GPS+TEXT (G3)**:在Geo-alignment中同时对齐三种模态。
表5显示了以下结果:
通过比较IMG+GPS+TEXT、IMG+GPS和IMG,发现添加GPS和文本信息可以比单独使用原始图像信息更好地增强特征表示。 通过比较IMG+GPS+TEXT与IMG+GPS,发现IMG+GPS在较小尺度下表现更好,而IMG+GPS+TEXT在较大尺度下表现更好。这可能是因为GPS更适合建模小尺度的变化,而文本描述在小尺度下的变化不显著,甚至可能保持不变。
Case Study
参考图像检索案例研究
图5直观地展示了G3在参考图像检索中的优越性。显然,如果使用CLIP的ViT作为图像编码器,模型主要关注图像中的人像部分(例如“照片中央的两个人一起摆姿势”),而忽略了对地理定位有帮助的背景元素。
在Geo-alignment中,G3将地理信息整合到图像表示中。因此,检索到的图像更侧重于地理上的接近性(在前五个候选图像中,有三个参考图像位于实际拍摄位置1公里范围内)。这些有价值的参考图像进一步辅助了RAG过程,从而增强了最终的预测性能。
END
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(上)
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(下)
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习
震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!