CricaVPR:开启视觉位置识别新篇章,跨图像相关性助力性能飞跃

文摘   2025-01-22 11:24   安徽  



1. 【导读】

【论文标题】Correlation-aware Representation Learning for Visual Place Recognition

【论文链接】https://arxiv.org/abs/2402.19231

【代码链接】github.com/Lu-Feng/Cric

【论文出处】CVPR 2024


点击下方卡片,关注“AI前沿速递”公众号

各种重磅干货,第一时间送达

2. 【摘要】

该论文针对视觉位置识别(VPR)任务,创新性地提出了一种具备卓越跨图像相关性感知能力的鲁棒全局表示方法 ——CricaVPR。在模型构建中,该方法巧妙运用自注意力机制,对批处理中呈现出不同条件(如光照变化、天气差异)或视角(俯仰角、偏航角变化)的多幅图像进行深度关联 。通过这种独特设计,模型能够精准捕捉并利用图像间的细微变化,将其转化为有效的学习信号,从而指导特征提取过程,确保所生成的特征具有强大的鲁棒性,能够在复杂多变的实际场景中保持稳定表现。

为进一步夯实 CricaVPR 在复杂场景下的性能表现,该论文引入了精心设计的多尺度卷积增强策略。该策略深度挖掘多尺度局部信息,通过将不同尺度下的图像细节特征进行有机融合,对预训练的视觉基础模型进行针对性优化与改进。这一过程使得模型能够更加精准地把握图像中不同层次的信息,显著提升对 VPR 任务中图像间复杂关系的敏感度,从而更为高效地完成视觉位置识别任务。大量实验结果表明,相较于当前主流的先进方法,CricaVPR 不仅在训练效率上实现了质的飞跃,训练时间大幅缩短,同时在性能指标上也实现了显著超越,展现出极高的实用价值与研究意义 。

3. 【论文背景】

(1)关于仅依赖全局特征方法的鲁棒性考量

视觉位置识别(VPR)任务于实际应用场景里,遭遇着诸多复杂且极具挑战性的难题。主要涵盖条件变化,像照明强度、天气状况以及季节更替等因素带来的影响;视角变化,包括拍摄时相机的俯仰角、偏航角以及倾斜角度的变动;还有感知歧义问题,即面对外观高度相似的图像时,难以精准区分。这些问题相互交织,给 VPR 任务的实现造成严峻挑战,而对于仅依赖全局特征的方法来说,要同时应对这些复杂状况更是困难重重。

该研究采用了一种创新方法。首先,利用带有池模块的骨干网络生成初始特征表示。此步骤意在从原始图像数据中提炼出初步的特征信息,为后续处理奠定基础。随后,借助配备自注意力机制的交叉图像编码器,对批处理中的多个图像表示展开深入剖析,计算它们之间的相关性,进而获取最终的特征表示。这里涉及的批量图像来源广泛且多样,它们可能在不同照明条件下拍摄,或从不同角度获取,甚至可能来自不同地理位置。经由这样的处理流程,每个特征都能借助其他图像特征中的有用信息实现自我增强,从而生成具备卓越条件稳健性、视角稳健性以及判别性的特征表示。这种表示不仅能有效应对各类复杂的条件变化与视角差异,在面对感知歧义问题时,也能展现出强大的区分能力。

(2)预训练基础模型在 VPR 任务中的应用挑战与应对策略

在 VPR 任务中,直接应用预训练基础模型并非坦途,而是面临一系列亟待解决的挑战。一方面,预训练基础模型处理 VPR 任务时,可能会忽视关键的背景信息,而这些信息对准确识别位置至关重要。另一方面,动态前景的干扰也会对模型性能产生负面影响,致使识别结果出现偏差。尽管微调技术能在一定程度上提升模型在 VPR 任务中的性能表现,但并非尽善尽美。微调过程可能致使模型丧失其在预训练阶段学到的原有能力,即所谓的 “灾难性遗忘” 问题。这意味着模型在适应新任务时,可能会遗忘之前学到的重要知识,进而影响其在不同场景下的泛化能力。

为解决这些问题,该研究创新性地选用可视化基础模型作为整个架构的核心支柱。在此基础上,精心设计一种多尺度卷积增强适应方法。具体来说,在保持预训练基础模型参数冻结的前提下,巧妙插入一些可训练的轻量级适配器。这些适配器能够引入多尺度本地先验知识,对基础模型进行针对性调整,使其更契合 VPR 任务的特殊需求。通过这种方式,既充分利用预训练基础模型在大规模数据上习得的通用特征,又避免微调过程中可能出现的灾难性遗忘问题,从而实现 VPR 任务中对预训练基础模型的高效利用与性能优化。

4. 【研究方法】

(1)跨图像相关性感知的位置表征

在视觉位置识别(VPR)这一快速发展且至关重要的研究领域中,随着深度学习技术的蓬勃发展,神经网络驱动的方法凭借其在特征提取与模式识别方面的显著优势,已然成为当下 VPR 研究与应用的主流手段。这些方法普遍遵循的模式是,仅仅依托图像自身所包含的信息来生成深度特征表示。在相对简单、稳定的环境条件下,例如光照均匀、场景固定且物体姿态变化较小的场景中,此类基于单幅图像生成的深度特征表示确实能够满足基本的视觉位置识别需求,能够较为准确地对场景位置进行定位与判断。

然而,当 VPR 任务面临更为复杂、苛刻的挑战性环境时,这些仅依赖单幅图像的特征表示便暴露出诸多局限性。具体而言,在诸如照明条件发生剧烈变化的场景中,如从明亮的白天突然转换到昏暗的夜晚,或者在不同季节场景差异显著的情况下,如冬季白雪皑皑与夏季郁郁葱葱的场景对比,以及相机视角大幅改变的情形,像从平视角度切换到俯瞰角度,这些仅基于单幅图像生成的特征往往难以保持其稳定性和可靠性,呈现出鲁棒性严重不足的问题。更为棘手的是,当面对感知别名问题时,即存在一些外观极为相似,仅依靠单一图像所提取的特征难以进行有效区分的图像时,传统的基于单幅图像生成特征的方法便显得力不从心,无法准确地识别出图像所对应的真实位置。

有鉴于此,本文开创性地试图构建一种全新的跨图像相关性感知的位置表征方式。具体来说,本文计划将一批场所图像的特征紧密关联起来。这一批场所图像来源广泛,涵盖了不同时间、不同角度以及不同地理位置所拍摄的图像。通过精心设计的算法与模型架构,使得每个图像表示都不再是孤立存在的个体,而是能够与其他图像表示进行深度交互,从而从其他图像表示中获取丰富且有用的信息。例如,一幅在特定光照条件下拍摄的图像,可以从其他具有不同光照但场景相似的图像中学习到如何在不同光照下保持特征的一致性;一幅从某个角度拍摄的图像,能够借鉴其他不同角度拍摄的图像信息,从而完善自身对场景的全方位理解。通过这种方式,每个图像表示自身的鲁棒性得到显著增强,不仅能够有效应对各类复杂多变的环境条件,还能够在面对外观相似的图像时,凭借从其他图像获取的信息,更为准确地区分不同图像所对应的位置,进而为 VPR 任务在复杂现实场景中的高效、准确实现提供坚实的基础。具体来说,一组图像可能包括同一地点在不同视角或条件下拍摄的照片,或者是看起来相似(或不相似)的不同地点的照片,如图2所展示的那样。一方面,通过相关编码,同一地点不同视角和条件下的图像表征能够相互增强视角和条件的稳定性。另一方面,不同地点的图像表征互相促进,产生更具区分力的特征。因此,本文方法能提供高度鲁棒的全局表示,以应对视角变化、条件变化和感知别名。

在这里插入图片描述

在基于视觉位置识别 (VPR) 任务的研究中,该研究采用了先进的 ViT 骨干网络对图像进行处理。ViT 骨干网络 在处理图像时,会将输入的图像划分为多个 Patch,其输出的一批图像的 Patch Tokens 会被重塑为具有维度的特征图。这里,代表批处理中的图像数量,分别对应特征图的宽度和高度, 则是特征维度。这一重塑过程将图像的 Patch Tokens 转换为一种便于后续操作的格式,为生成有效的特征表示奠定基础。 随后,该研究运用空间金字塔方法来生成初始特征表示。具体而言,将上述特征图在三个不同层次进行分割,分别是。这种多尺度的分割方式能够从不同粒度上提取图像的特征信息,有助于模型捕捉到更全面的图像特征。接着,使用 GeM 池化对划分区域内的局部 (patch) 特征进行处理。通过 GeM 池化操作, 能够将每个区域内的局部特征进行聚合,为每张图像获取总共 14 个区域特征。值得注意的是,由于第一层是全局聚合,为了进一步提升性能,该研究直接使用类别令牌替换这一层的 GeM 特征。类别令牌在模型训练过程中学习到了具有代表性的全局信息,用其替换第一层的 GeM 特征,能够让模型在处理图像时更好地利用全局信息,从而提高模型的性能表现。 接下来,跨图像编码器是批量建模不同图像特征之间相关性的核心组件。该研究将批图像中所有图像的第个区 域特征视为一个嵌入向量序列,即:

并将这 14 个嵌入向量序列输入跨图像编码器,以建模一批图像的第个区域特征之间的相关性。跨图像编码器并非直接使用自注意力层,而是采用两个 Transformer 编码器层构建,这些层还包括后续的 MLP 层和跳跃连接,以此相关联一批中的图像表示,实现稳定训练和更佳性能。每个图像的 14 个输出区域特征被顺序串联 (展平)作为图像的最终全局表示,最后的检索过程与常见的基于全局检索的方法相同,即使用单个图像的全局特征进行检索。

5.【实验结果】

1、对比实验

这四个颇具挑战性的示例充分展现了视角与条件的剧烈变化。相比之下,本文所提出的CricaVPR方法表现出色,成功地给出了正确结果,而其他方法却纷纷返回了错误的图像。具体来看,在每个示例中,由于感知歧义的存在,部分方法会误将来自不同地方的相似图像当作匹配结果(显然是错误的)。特别地,在第二个示例里,查询图像是于夜间拍摄的,这一条件致使所有其他方法都错误地返回了不同地方的夜间图像,而本文的CricaVPR方法却独具慧眼,准确地返回了同一地点白天拍摄的图像,可谓是正确无误。这些示例有力地证明了CricaVPR方法在应对复杂变化场景时的优越性。

2、消融实验

跨图像相关性感知上的消融

在本研究中,我们定义了几种不同的模型表示方式。其中,“+Crica” 表示在模型中增加了本文所提出的跨图像相关性感知机制,通过这种方式来获取最终的全局特征,该机制是本文方法的核心创新点之一,能够有效提升模型对图像特征的感知和处理能力,从而增强模型的整体性能。“SPM” 则代表了本文所采用的同时使用类令牌和 GeM 的空间金字塔模型表示,这种组合方式能够充分利用类令牌的全局信息和 GeM 池化的局部特征聚合能力,为模型提供更丰富、更具代表性的特征表示。而 “SPMG” 是仅基于 GeM 的空间金字塔模型,与 SPM 相比,它缺少了类令牌的使用。

此外,在实验设置中,除了直接使用未调整的骨干网络(作为基线)的 DINOv2-GeM 和 DINOv2-SPM 外,所有其他版本的模型都采用了本文所提出的方法进行了微调。这种微调操作是为了使模型能够更好地适应特定的任务需求,通过对模型参数的精细调整,进一步优化模型的性能,使其在视觉位置识别等任务中能够取得更优的结果。通过这样的实验设计和模型设置,我们能够全面地评估不同模型组件和微调方法对模型性能的影响,从而为本文方法的有效性提供有力的证据支持。

多尺度卷积增强适配器上的消融

在视觉位置识别(VPR)任务中,模型对于图像中不同区域的关注程度对识别结果起着关键作用。最初,预训练的 DINOv2 模型在处理图像时,其所关注的区域与位置识别任务并无紧密关联。这意味着在面对位置识别的具体需求时,预训练模型难以准确聚焦到对定位有帮助的关键信息上。

然而,当使用精心设计的适配器对 DINOv2 进行微调后,情况发生了显著改变。经过适配器微调的 DINOv2 模型在处理图像时,开始专注于对 VPR 具有区分性的区域。在各类场景元素中,建筑物由于在较长时间跨度内相对保持不变,能够为位置识别提供稳定的参考信息,因此获得了模型最高程度的关注。植被在短期内通常不会出现剧烈变化,同样能够为定位提供一定程度的有效信息,所以会得到模型适度的关注。相比之下,像天空和地面这类在不同位置可能呈现相似外观的非区分性元素,以及动态变化的车辆,因其无法为位置识别提供可靠且独特的信息,在模型处理过程中被忽略。这种变化表明,通过适配器的微调,DINOv2 模型能够更精准地捕捉到与 VPR 任务密切相关的关键信息,从而为实现更准确的视觉位置识别奠定基础。在该研究涉及的模型构建与实验设计中,为了清晰区分不同模型版本及其所采用的技术策略,该研究进行了一系列明确的定义。具体而言,对于模型特征的使用方式,除了那些带有“-GeM”后缀的版本采用GeM特征之外,其余所有版本均运用了该研究创新性提出的带有跨图像感知的空间金字塔表示,以此来生成全局特征。这种跨图像感知的空间金字塔表示,能够从多个尺度对图像进行特征提取,并结合不同图像之间的关联性,为模型提供更为丰富且具有针对性的全局特征,有助于提升模型在视觉位置识别等任务中的性能表现。

在骨干网络的选择与调整方面,该研究设定了不同的对比组。其中,FrozenDINOv2代表使用冻结参数的DINOv2作为骨干网络,这意味着在模型训练过程中,DINOv2的参数保持固定,不会随着训练进行更新,主要用于对比观察在不改变骨干网络参数的情况下,其他组件对模型性能的影响。而FullTunedDINOv2则表示使用完全微调的DINOv2作为骨干网络,即对DINOv2的所有参数进行训练调整,以探究在充分适应任务需求后,模型能够达到的性能上限。

此外,在对DINOv2骨干网络进行微调的方法上,该研究设置了不同的适配器策略。VanillaAdapter代表使用基础适配器对DINOv2进行微调,这种基础适配器是一种较为简单的结构,通常由基本的线性变换层和激活函数组成,作为一种基础对比方案,帮助该研究了解基本适配器对模型性能的影响程度。ConvAdapter则表示采用卷积适配器来微调DINOv2,卷积适配器通过卷积层的设计,旨在引入图像相关的局部归纳偏置,为模型赋予一定的局部特征提取能力。最后,MulConvAdapter代表使用该研究提出的多尺度卷积适配器对DINOv2进行微调,这种多尺度卷积适配器创新性地结合了不同尺度的卷积操作,能够从多个尺度提取图像的局部信息,为模型引入更为丰富的局部先验知识,以更好地适应视觉位置识别任务的复杂需求。通过对比这几种不同的适配器策略,该研究能够全面评估不同微调方法对模型性能的影响,从而验证该研究提出的多尺度卷积适配器的有效性和优越性。

描述符维度上的消融

从直觉层面来考量,高维描述符往往能够承载更为丰富的信息,这使得它们在理论上具备实现更优性能的潜力。然而,在实际应用场景中,数据中不可避免地存在冗余或噪声信息,而有效去除这些无用信息常常能够显著提升模型的性能表现。

在本研究中,作者着重分析了描述符维度对模型性能的影响,相关结果在上图中得以直观呈现。在部分数据集中,由于存在剧烈的条件变化以及感知别名问题,场景的复杂性大幅增加,这就要求描述符具备足够高的维度,以便提供充足的信息,从而准确区分不同地点。当描述符维度下降时,模型在这些数据集上的性能出现了明显的下降趋势。这是因为低维描述符难以捕捉到数据集中复杂变化所需要的关键信息,无法有效应对条件变化带来的特征差异以及感知别名所造成的混淆,进而导致模型在识别和区分地点时的准确性降低。

这种现象表明,在处理包含复杂变化和感知混淆的数据集时,描述符维度的选择至关重要。尽管高维描述符可能会引入一些冗余信息,但在应对复杂场景时,其提供的丰富信息能够为模型提供更多的判别依据,有助于提升模型性能。然而,如何在高维描述符中去除冗余和噪声信息,以达到最佳性能,仍然是一个需要进一步研究和解决的问题 。



本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

AI前沿速递
持续分享最新AI前沿论文成果
 最新文章