跨语言跨模态检索(CCR)旨在基于非英语查询检索视觉上相关的内容,而在训练期间不依赖人工标记的跨模态数据对。一种流行的方法是通过利用机器翻译(MT)创建伪平行数据对,建立视觉和非英语文本数据之间的对应关系。然而,由于视觉和文本之间存在显著的语义鸿沟,以及非英语表示因预训练编码器和数据噪声导致的较低质量,对齐它们的表示存在挑战。为了克服这些挑战,我们提出了LECCR,一种新颖的解决方案,它结合了多模态大型语言模型(MLLM)来改善视觉和非英语表示之间的对齐。具体来说,我们首先使用MLLM生成详细的视觉内容描述,并将它们聚合到多视图语义槽中,这些语义槽封装了不同的语义。然后,我们取这些语义槽作为内部特征,并利用它们与视觉特征进行交互。通过这样做,我们增强了视觉特征中的语义信息,缩小了模态之间的语义鸿沟,并为后续的多级匹配生成了局部视觉语义。此外,为了进一步增强视觉和非英语特征之间的对齐,我们引入了在英语指导下的软化匹配。这种方法提供了更全面可靠的视觉和非英语特征之间的模态对应关系。在四个CCR基准测试上的广泛实验,即Multi30K、MSCOCO、VATEX和MSRVTT-CN,证明了我们提出的方法的有效性。
我们翻译解读最新论文:跨语言跨模态检索,文末有论文链接。
作者:张长旺,图源:旺知识
1. 引言
跨语言跨模态检索(CCR)旨在开发能够基于非英语查询检索相关视觉内容的模型,而在训练期间不依赖人工标记的非英语跨模态数据对。与传统的跨模态检索相比,CCR超越了英语的限制,可以转移到其他语言。目前,该领域的大多数研究[21, 32–34, 44, 47]都采用MT生成伪平行数据对,如图1(a)所示。这些研究通过建立视觉和非英语数据之间的直接对应关系,取得了显著的性能。
图1:比较了先前方法和我们提出的CCR方法。(a)先前的方法通常在由图像/视频和对应的英语标题及其相应的非英语翻译组成的集合上进行训练。(b)我们的方法利用MLLM生成详细的视觉描述,并将其用作内部表示来增强视觉表示。此外,我们利用英语特征作为指导来改善视觉和非英语特征之间的对齐。(c)在推理期间,给出非英语查询以检索相关的视觉内容。
然而,非英语标题的表示质量往往比英语数据差,这可以归因于预训练文本编码器在处理非英语语言时的限制以及翻译的质量。因此,对齐视觉特征和非英语特征是一个重大挑战。为了克服这一挑战,一些方法[21, 26, 44, 47]采用了单流结构(如图2(a)所示),使用跨模态融合模块来捕获模态之间的细粒度交互。虽然这些方法已经显示出显著的性能提升,但它们遭受了增加的计算成本和推理时间的困扰。这是因为所有可能的查询-候选对都需要通过融合模块来处理以计算相似性分数。相比之下,另一种方法[32–34]采用了更高效的双流结构(如图2(b)所示),其中使用它们的全局特征的点积来计算相似性。他们通过引入鲁棒性设计来改善跨语言跨模态对齐。然而,这些方法独立提取视觉和语言特征,没有任何信息融合,导致模态之间持续存在语义鸿沟。此外,图像(或视频)通常比文本传达更丰富的内容,正如俗话说的,“一图胜千言”。现有数据集中的标题通常很简短,可能只捕捉到部分视觉信息(见图1(a))。因此,仅依赖独立提取的全局特征可能无法完全实现视觉和非英语特征之间的语义对齐。
图2:CCR方法的比较。其中, “𝐹𝑣”, “𝐹𝑐 ”, “𝐹𝑠 ”, 和 “𝐹𝑡 ” 分别代表视觉编码器、描述编码器、英语编码器和非英语编码器。我们的方法遵循双流结构,并结合MLLM来增强视觉特征中的语义,帮助弥合模态之间的差距。此外,为了改善视觉和非英语特征之间的对齐,我们提出使用英语表示作为指导。这可以为视觉和非英语特征提供更全面可靠的模态间对应关系。
考虑到MLLM(如GPT4[1]和videochat2[19])在多模态理解方面展现出的卓越能力,我们认为可以使用MLLM生成补充上下文描述来增强视觉特征中的语义(如图1(b)和图2(c)所示)。这种方法使我们能够更有效地弥合模态之间的语义鸿沟。同样,其他工作[24, 36, 38, 39, 41, 42]也结合了MLLM来增强现有的视觉-语言模型。然而,这些工作简单地使用[CLS]标记或所有描述与视觉特征进行交互,可能导致上下文信息不完整或计算成本高。因此,进一步研究如何有效利用这些视觉描述来增强视觉表示,从而改善视觉和非英语特征之间的对齐,至关重要。为了应对上述挑战,我们提出了LECCR(多模态LLM增强的跨语言跨模态检索),一种新颖的双流解决方案。具体来说,给定由MLLM生成的描述,我们首先将这些描述聚合到多视图语义槽中,并引入正则化损失,迫使这些语义槽关注描述中存在的不同语义(例如,图像中的不同对象)。随后,我们引入一个多视图视觉-语义交互模块,使这些语义槽与视觉特征进行交互。该模块不仅增强了视觉特征中的语义,还生成了局部视觉上下文语义,实现了多级跨语言跨模态匹配,并有效地缩小了模态之间的语义鸿沟。最后,我们使用英语特征作为指导,建立视觉和非英语特征之间更全面对应的关系。
我们提出的方法LECCR在两个文本-图像检索基准测试Multi30K和MSCOCO上进行了评估和与先前工作的比较,以及两个文本-视频检索基准测试VATEX和MSR-VTT-CN。我们的方法在大多数评估设置中一致优于先前的方法,突出了其在CCR任务中的有效性。我们的贡献可以总结如下:
(1)我们提出了一种新的双流CCR解决方案LECCR,它结合了MLLM来改善视觉和非英语特征之间的对齐。
(2)为了弥合模态之间的语义鸿沟,我们利用由MLLM生成的详细视觉描述,并将它们聚合到多视图语义槽中以增强视觉特征。然后我们引入多级匹配和在英语指导下的软化匹配,以改善视觉和非英语特征之间的对齐。
(3)我们在四个CCR基准测试上进行了广泛的实验,展示了我们方法的有效性和潜力。
2 相关工作
2.1 跨语言跨模态检索(CCR)
CCR越来越受到研究人员的关注。与传统的跨模态检索[3, 8, 10, 13, 15– 17, 20, 22, 23, 35, 46]相比,这种方法为基于非英语的检索提供了一种高效且成本效益高的解决方案,减少了对人工标记数据的依赖。现有方法可以根据模型架构分为两类。第一种方法[21, 26 44, 47]采用了单流结构,该结构结合了跨语言跨模态融合模块,在统一的语义空间中对图像区域和多语言文本词表示进行建模,捕获它们之间的细粒度关系。例如,Ni等人[26]使用代码切换策略和掩蔽建模损失来模拟视觉和多种语言之间的交互。然而,这种方法包括一个额外的跨模态融合模块,可能会导致计算开销和更慢的推理速度。因此,它可能不适用于现实世界设置中大规模CCR任务的实践。第二种方法[4, 12, 14, 32–34]涉及双流结构,每个流专门用于建模视觉或语言输入。例如,Jain等人[14]使用可扩展的双编码器模型,用对比损失进行训练,以学习语言和图像的编码器,结合图像-文本匹配和文本-文本匹配任务。这种方法将不同模态的全局特征映射到一个共同的语义空间中,以学习跨模态对齐。然而,尽管其效率,这种方法仍然面临着由于缺乏明确的跨模态交互而带来的挑战。此外,现有数据集中的标题通常很简短,可能只捕捉到部分视觉信息。两种模态之间的信息不平衡进一步加剧了对齐它们特征的难度。在本文中,我们采用了双流结构,并结合了MLLM来为视觉特征提供额外的上下文语义。这有助于缩小模态之间的语义鸿沟,并进一步提高视觉和非英语特征之间的对齐。
2.2 LLM增强的视觉-语言模型
凭借其卓越的语言理解能力,LLM[2, 29, 30, 30]在各种任务中表现出色,如图像描述和视觉问题回答。最近,出现了一种新的趋势[18, 24, 27, 36, 38, 39, 41, 42],将它们结合起来增强视觉-语言模型(VLM)。例如,在分类任务中,Menon等人[24]和Pratt等人[27]利用LLM为每个类别生成文本描述,将图像与这些描述进行比较,而不是直接估计图像与类别名称的相似性。同样,Yang等人[39]使用GPT-3以及图像的文本描述进行视觉问题回答(VQA)任务。在这项工作中,我们将描述性LLM扩展到CCR任务中生成视觉上下文描述。在跨模态检索的另一项相关工作中,Wu等人[36]利用LLM生成辅助标题来增强文本-视频匹配。然而,他们的方法主要使用辅助标题进行数据增强,并简单地使用[CLS]嵌入与视觉特征进行交互。相反,我们的目标是利用丰富的描述为视觉特征提供语义上下文。此外,我们引入了多视图语义槽来全面表示描述内容,从而为视觉特征提供上下文语义信息。
3 方法
图3展示了我们方法的概述。接下来,我们将简要描述CCR定义和我们的基线方法(在第3.1节)。然后,我们将介绍我们的方法LECCR,包括多视图语义槽生成(在第3.2节),多视图视觉-语义交互(在第3.3节),多级匹配(在第3.4节)和在英语指导下的软化匹配(在第3.5节)。
3.1 预备知识
CCR任务的目标是使用非英语查询检索相关的视觉内容(即图像或视频),同时仅依赖于训练期间标注的配对视觉-英语样本对。按照先前的研究[32, 34, 44],我们使用MT基于英语标题生成翻译标题。这使我们能够构建一个包含三元样本对的数据集D = (𝑉 , 𝑆,𝑇 ) 其中𝑉 , 𝑆, 和𝑇 分别代表视觉项目(例如,图像或视频),英语标题和非英语标题。然后,我们将它们作为输入,并使用视觉编码器F𝑣 , 英语编码器F𝑠, 和非英语编码器F𝑡来提取相应的序列表示
Z𝑣 ∈ R 𝑁𝑣×𝑑𝑣, Z𝑠 ∈ R 𝑁𝑠 ×𝑑𝑠 和 Z𝑡 ∈ R 𝑁𝑡 ×𝑑𝑡,其中𝑁𝑥 ∈ {𝑣,𝑠,𝑡 }表示每个序列的长度,𝑑𝑥 ∈ {𝑣,𝑠,𝑡 } 表示通道维度。最后,我们将它们投影到一个多语言多模态公共空间中。这个过程可以表示为:
其中𝜙 (·)表示用于将特征投影到公共空间的线性投影函数,Z𝑐𝑙𝑠𝑥是[CLS]特征,h𝑥 ∈ R𝑑表示在公共空间中的相应潜在特征,其中𝑥 ∈ {𝑣, 𝑠, 𝑡 }。接下来,我们引入对比损失,将配对样本拉近,将非配对样本推开。它可以定义为:
其中,对比损失L𝑐𝑡𝑟𝑎 可以表述为:
其中𝐵表示迷你批量大小,𝜏表示温度系数,
表示相似性函数,用于计算第i个特征向量a和第j个特征向量b之间的相似性。最终目标可以计算为:: L𝑏𝑎𝑠𝑒 = L𝑣𝑠 + L𝑡𝑠 + L𝑣𝑡。
在推理期间,我们计算视觉特征h𝑣和非英语特征h𝑡之间的相似性𝑆𝑔 (h𝑣, h𝑡)以执行检索。注意,我们将上述过程作为我们的基线方法。
3.2 多视图语义槽生成
在本节中,我们的目标是将由MLLM生成的视觉描述聚合到多视图语义槽中,使我们能够捕获其中的多样化语义。这与现有方法有显著不同,现有方法只使用[CLS]标记或全部表示,可能无法充分利用描述中的上下文信息。具体来说,给定图像(或视频),我们将它们输入MLLM,并提示例如“### Please describe the contents of this image in detail.”以生成丰富的视觉描述𝐶(如图4所示)。值得注意的是,我们的视觉描述是以英语生成的,没有额外的翻译,避免了质量的进一步损失。然后,我们使用描述编码器F𝑐提取描述嵌入Z𝑐 ∈ R 𝑁𝑐 ×𝑑𝑐,并使用𝑁𝑞可学习的查询对其进行聚合。这个聚合过程使我们能够生成多视图语义槽M∈ R 𝑁𝑞×𝑑,其中每个视图封装了输入描述的不同语义。数学上,这可以表示为:
其中𝑀𝐻𝐶𝐴表示多头交叉注意力模块,𝜙𝑐 (·) 和 𝜙𝑞 (·) 表示线性投影函数,𝐿𝑁 (·)表示层归一化。
3.3 多视图视觉-语义交互
我们提出了一个视觉-语义交互模块,该模块使用上述多视图语义槽作为内部表示来弥合模态之间的语义差距。该模块主要有两个目的:(1)语义槽到视觉(C2V),它提供额外的上下文语义信息来增强视觉特征中的语义;(2)视觉到语义槽(V2C),使多视图语义槽能够捕获它们对应的视觉信息,并生成局部上下文视觉语义。具体来说,我们将视觉表示Z𝑣和多视图语义槽𝑀作为输入输入到双注意力块。这个模块使我们能够生成两个输出:语义增强的视觉特征Zˆ𝑣和局部上下文视觉语义Mˆ。我们为交互提供两个替代选项如下:(1)双交叉注意力:我们使用两个交叉注意力块,其中视觉特征Z𝑣和多视图语义槽M分别用作查询。然后这些块从彼此的特征中聚合信息:
其中𝜙𝑧 (·) 和 𝜙𝑚 (·) 表示线性投影函数。(2)共同注意:我们将视觉特征Z𝑣和语义槽M连接在一起,并通过自注意力块处理它们:
其中𝑀𝐻𝑆𝐴表示多头自注意力,[; ]表示沿序列的长度维度进行连接操作。此外,为了防止语义槽专注于相同的视觉语义,我们引入了一个多视图正则化损失,以鼓励槽之间的多样性。这个目标可以表述为:
其中
表示视图之间的相似性分布,mˆ𝑖,𝑗 表示第j个样本的第i个视图语义槽。
3.4 多级匹配
在视觉-语义交互之后,多视图语义槽聚合了相应的局部上下文视觉特征,可以被视为局部特征。接下来,我们引入多级匹配,包括标题-槽匹配(局部级别)和标题-视觉匹配(全局级别),以促进跨语言跨模态对齐。
标题-槽匹配。考虑到每个视图的语义槽可能与视觉内容的不同方面相关,不同视图之间可能存在显著的语义差异。因此,我们选择与语义最相关的槽与标题对齐,而不是对所有视图语义槽施加严格的对齐约束。为了实现这一点,计算标题和语义槽之间的相似性分数如下:
其中S𝑙(h𝑖𝑥, mˆ𝑗)表示第i个标题和第j个多视图语义槽之间的相似性分数。然后,标题-槽匹配目标L𝑐可以表述为:
标题-视觉匹配。类似于方程3,在这种情况下,我们使用语义增强的视觉特征Zˆ𝑣与标题特征对齐,表示为:
其中hˆ𝑣 = 𝜙𝑣 (Zˆ 𝑣 𝑐𝑙𝑠) 表示全局视觉特征。最后,多级匹配目标可以定义为L𝑚𝑙 = L𝑣 + 𝜆1L𝑐 , 其中𝜆1是一个超参数。
3.5 在英语指导下的软化匹配
方程3中使用的真值标签是硬一键标签,它假设未配对样本之间没有相关性。这种方法给所有负样本分配了相等的权重,忽略了可能有价值的模态间关系。这使得对齐视觉和非英语特征更具挑战性。为了解决这个问题,我们提出使用英语特征作为非英语特征的指导。我们的目标是使用视觉-英语相似性作为软化目标来指导视觉和非英语特征之间的对齐。这种软化目标有助于建立模态之间的全面关系。为了更有效地捕获模态之间的关系,我们计算了视觉-英语相似性在多个级别,包括局部和全局级别。然后我们整合这些相似性以生成指导非英语特征的软化目标。这个过程可以数学表示如下:
其中𝑌 ∈ R 𝐵×𝐵 表示软化目标,𝛼表示权重参数。接下来,我们使用KL-Divergence来监督视觉-非英语对应关系:
最后,方程17中的视觉和非英语特征之间的匹配可以改进为:
其中𝜆2表示权重参数。
3.6 训练和推理
训练。最终训练目标可以表述为:
其中𝜇 用于平衡损失权重。
推理。训练模型后,给定一个非英语的句子查询,我们根据它们与查询的相似性分数对候选视频/图像进行降序排序。具体来说,我们首先计算视觉特征ˆℎ𝑣和查询特征ℎ𝑡之间的相似性,以及语义槽𝑀ˆ和查询特征ℎ𝑡之间的相似性。然后,我们结合两个分数以获得最终的相似性分数。这可以表述为:
其中𝛽表示权重参数,我们在实验中将其设置为0.8。
4 实验
4.1 实验设置
数据集。我们在两个公共多语言图像-文本检索数据集(Multi30K [9]和MSCOCO[6])以及两个视频-文本检索数据集,VATEX [31]和MSRVTT-CN [32]上进行实验。值得注意的是,我们仅在训练过程中使用标注的视觉-英语数据对,而使用非英语查询(人工标记)进行评估。按照先前的工作[32],我们采用谷歌翻译作为MT。
• Multi30K [9]:该数据集包含31,000张图像,是Flickr30K [40]的多语言版本。它涉及四种语言,即英语(en)、德语(de)、法语(fr)和捷克语(cs)。对于数据集划分,我们按照[40]将数据分为训练/开发/测试集,分别为29000/1000/1000。
• MSCOCO [6]:该数据集包含123,287张图像,每张图像有5个标题,涉及两种语言,即中文(zh)和日语(ja)。我们遵循[32, 47]中的数据划分。
• VATEX [31]:VATEX是一个双语视频-文本检索数据集,为超过41,250个视频提供双语标题。每个视频与10个英语句子和10个中文句子相关联。数据集划分与[32]一致。
• MSR-VTT-CN [32]:MSR-VTT-CN是MSR-VTT的多语言版本,涵盖英语和中文。我们遵循[43]的划分,包含9,000和1,000用于训练和测试,分别。
评估指标。按照[34],对于视频-文本检索,我们使用基于排名的指标,即𝑅@𝐾 (𝐾 = 1, 5, 10),以及所有召回的总和(SumR)来评估性能。𝑅@𝐾 是正确检索所需项目在排名列表前𝐴?中的分数。我们仅报告图像-文本检索的SumR。
实现细节。按照[32],我们使用CLIP [28]来提取图像表示,并使用mBERT [7]来提取文本表示。对于视频特征,在MSR-VTT-CN上,我们使用帧级特征ResNet-152 [11]并连接帧级特征ResNeXt-101 [37][25]以获得组合的4,096维特征。在VATEX上,我们采用官方提供的I3D [5]视频特征。对于所有实验,我们用余弦衰减调度器和初始学习率1 × 10−5训练模型40个周期。我们使用videochat2为图像和视频生成视觉描述。此外,所有文本编码器都是参数共享的。
4.2 跨语言图像-文本检索评估
我们在两个广泛使用的图像-文本数据集Multi30K和MSCOCO上对比了我们的LECCR方法与最先进的方法。值得注意的是,M3P、UC2、UMVLP、CCLM、MURAL和MLA在大规模视觉-语言数据集上进行了预训练,而NRCCR、DCOT、CL2CM和我们的方法不需要额外的预训练数据。在表1中,我们的LECCR在所有两种流方法中表现更好。具体来说,与基线方法CL2CM相比,我们的方法在所有语言的SumR方面分别提高了1.4%、1.8%、1.9%、2.6%和3.4%。与单流模型不同,单流模型结合了跨模态融合模块来捕获图像区域和文本词之间的详细交互,我们的LECCR结合了LLM来为视觉特征提供额外的语义上下文信息。这有助于缩小模态之间的差距,并改善视觉和非英语表示之间的对齐。值得注意的是,我们的智能体在推理时间上比CCLM快10倍。此外,当配备更强大的预训练在大规模数据集上的骨干网络时,我们的LECCR†实现了与单流方法CCLM相当的性能。此外,随着训练数据规模的增加(鉴于MSCOCO数据规模超过Multi30k),我们的方法展示了进一步的优势。
表1:在Multi30K和MSCOCO上的跨语言图像-文本检索结果。按照先前的工作,我们使用SumR作为指标。*:在大规模数据集上预训练的模型,例如CC3M及其MT版本。†:与CCLM模型使用相同的初始化参数。“XLMR-L/-B”表示XLMR-Large/-Base。单流方法采用一对一匹配的暹罗架构,因此其推理效率低于双流方法。
表2:在VATEX(en2zh)上的跨语言视频-文本检索结果。*:在大规模数据集MultiHowTo100M[12]上预训练的模型。
表3:在MSRVTT-CN(en2zh)上的跨语言视频-文本检索结果。
表4:我们提出组件的消融研究。“MVSS”、“MM”和“SMEG”分别代表多视图语义槽生成和视觉-语义交互、多级匹配和在英语指导下的软化匹配。“+”符号表示基于上一行逐步添加模块。
4.3 跨语言视频-文本检索评估
在VATEX和MSRVTT-CN数据集上的实验结果分别在表2和表3中报告。我们可以看到,我们的方法LECCR在所有基线方法中表现优于采用双流结构的方法。这进一步证明了我们的方法通过结合LLM提供额外的上下文语义信息来实现有效性。此外,即使与在大规模多语言多模态数据集上训练的MMP相比,我们的方法仍然取得了更好的结果。
4.4 消融研究
在本节中,我们提供了详细的消融研究,以验证我们模型中每个部分的有效性。每个组件的分析。为了验证我们模型中各个组件的有效性,我们对它们进行了消融实验。如表4所示,我们观察到随着组件的逐步添加,性能一致提高。具体来说,引入多视图语义槽及其相应的交互导致性能分别提高了2.8%、1.6%和1.2%。这清楚地表明,由MLLM提供的补充上下文信息有助于弥合模态之间的差距。此外,当我们引入多级匹配和英语指导时,我们观察到了显著的性能提升。
表5:多视图视觉-语义交互的消融研究。
表6:在英语指导下软化匹配的消融研究。
表7:MLLM生成描述的提取消融研究。“CLS”表示使用描述表示的[CLS]标记;“mean”表示使用应用于描述表示的均值池化;“All”表示使用所有描述表示;“Multi-view”表示我们提出的多视图语义槽。
表8:MLLM生成描述的编码方式消融研究。
图5:不同数量(#视图)的语义槽的性能。
图6:多视图视觉-语义交互模块中多视图语义槽的可视化(#视图 = 4)。每个语义槽可以明显地关注图像中的局部语义。
4.5 多视图语义槽的可视化
在图6中,我们可视化了多视图视觉-语义交互模块(V2C)中的最后一层注意力层的注意力图。这些注意力旨在捕获与语义槽相对应的视觉信息。通过这个交互模块,我们获得了专注于图像中不同对象或上下文的多样化局部视觉语义。然后,这些语义在后续的多级对齐目标中被用来改善视觉和非英语特征之间的对齐。如图所示,每个槽专注于图像中的不同对象,展示了多视图语义槽捕获的多样化语义。例如,在第三行中,语义槽分别突出了图像中的“猫”、“橙子”和“蛋糕”。可视化结果进一步证明了交互模块在捕获和整合相关视觉信息方面的有效性。
5 总结和结论
在本文中,我们提出了LECCR,这是CCR任务的一种新颖的双流解决方案。我们的方法旨在通过结合多模态大型语言模型(MLLM)来生成详细的视觉描述,从而弥合模态之间的差距。这些描述为视觉表示提供了额外的上下文语义。此外,考虑到非英语表示的较低质量,我们使用英语表示作为指导,通过提供模态之间的全面关系来改善视觉和非英语特征之间的对齐。广泛的实验表明,LECCR在各种基准测试中显著提高了视觉和非英语特征之间的对齐质量。
作者:张长旺,图源:旺知识
参考资料
标题:Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval
作者:Yabing Wang, Le Wang, Qiang Zhou, Zhibin Wang, Hao Li, Gang Hua, Wei Tang
单位:Xi’an Jiaotong University, INF Tech Co., Ltd., Fudan University, Dolby Laboratories, University of Illinois Chicago
标签:#人工智能 #多模态学习 #跨语言检索 #大型语言模型
概述:文章提出了一种新的跨语言跨模态检索方法LECCR,通过结合多模态大型语言模型(MLLM)来增强视觉和非英语特征之间的对齐。
链接:https://arxiv.org/abs/2409.19961