作者单位:浙江大学、网易
论文链接:
https://arxiv.org/pdf/2305.06152
代码链接:
https://github.com/zjukg/Structure-CLIP
简介
大规模视觉语言预训练在多模态理解和生成任务中取得了显着的性能。然而,现有的方法通常在需要结构化表示(即对象、属性和关系的表示)的图像文本匹配任务上表现不佳。如图1(a)所示,模型无法区分“宇航员骑着马”和“马骑着宇航员”。这是因为他们在学习多模态场景中的表示时未能充分利用结构化知识。本文论。首先,使用场景图来指导语义负例的构建,重视学习结构化表示。此外,还提出了知识增强编码器(KEE),利用 SGK 作为输入来进一步增强结构化表示。实验结果表明,Structure-CLIP 在 VG-Attribution 和 VG-Relation 数据集上实现了最先进的 (SOTA) 性能,分别领先多模态 SOTA 模型 12.5% 和 4.1%。同时,MSCOCO 上的结果表明 Structure-CLIP 在保持通用表示能力的同时显着增强了结构化表示。
图 1:图像和对齐/未对齐标题之间的 CLIP 分数(在两个结果之间标准化后)。结果表明,CLIP模型不具备区分具有结构化语义差异的句子的能力。
动机与贡献
尽管多模态模型在各种任务中表现出色,但这些模型是否能够有效捕获结构化知识(即理解对象属性和对象之间关系的能力)的问题仍未解决。例如,如图 1(a)所示,图像和正确匹配的标题(“宇航员正在骑马”)之间的 CLIP 分数(即语义相似性)与图像和不匹配的标题之间的分数相比,表现出较低的值(“一匹马正在骑着宇航员”)。图 1 (b) 说明了两个对象之间交换属性也会给模型准确区分其语义带来挑战。这些发现表明,CLIP 模型产生的通用表示无法区分包含相同单词但在结构化知识方面存在差异的文本片段。换句话说,CLIP模型表现出类似于词袋方法的趋势,它不理解句子中的细粒度语义。
文中提出了 Structure-CLIP,一种利用场景图知识(SGK)来增强多模态结构化表示的新颖方法。首先,与 NegCLIP 中的随机交换方法相比,作者利用 SGK 来构造更符合潜在意图的单词交换。其次,提出一种知识增强编码器(KEE),利用 SGK 提取必要的结构信息。通过在输入级别合并结构化知识,所提出的 KEE 可以进一步增强结构化表示的能力。
论文贡献如下:
(1) Structure-CLIP 是第一种通过构建语义负样本来增强详细结构化表示的方法。
(2)Structure-CLIP 中引入了知识增强编码器,以利用结构化知识作为输入来增强结构化表示。
(3)实验证明 Structure-CLIP 能够在结构化表示下游任务上实现 SOTA 性能,并在结构化表示方面产生显着改进。
Structure-CLIP
Structure-CLIP 的概述如图 2 所示。首先,利用场景图生成具有相同单词组成但详细语义不同的语义负样本来增强细粒度的结构化表示(图 2 的左侧部分)。其次,提出了一种知识增强编码器,利用场景图作为输入,将结构化知识集成到结构化表示中(图 2 的右侧部分)。
图 2:Structure-CLIP 概述。(a)通过场景图进行语义负采样:从标题中提取场景图以帮助构建高质量的负样本(左部分)。(b)知识增强编码器:知识嵌入模块和多个 Transformers 层用于对输入级别的结构化知识进行建模(右部分)。
通过场景图进行语义负采样
构建具有相似的一般表示但不同的详细语义的负样本,通过将负样本与正样本进行比较来增强表示,从而鼓励模型专注于学习结构化表示。
(1)场景图生成 详细的语义,包括对象、对象的属性以及对象之间的关系,对于理解视觉场景和跨模式学习至关重要。跨模式学习旨在增强视觉和语言的联合表征。采用场景图解析器将文本解析为场景图。
(2)语义负样本的选择 对比学习旨在通过将语义上接近的邻居拉在一起并推开非邻居来学习有效的表示。本文目标是构建具有相似组成但详细语义不同的语义负样本。因此,负样本的质量在结构化表示学习中起着至关重要的作用。文中利用场景图指导来构建高质量的语义负样本,而不是随机交换单词位置。
(3)对比学习目标 将原始小批量图像文本对比学习损失和提出的损失结合起来进行联合训练。因此,最终损失为hinger损失和 InfoNCE 损失的结合。
知识增强编码器
知识增强编码器利用场景图作为文本输入来增强结构化表示。首先从所有输入三元组中提取足够的结构化知识,这些知识可以用作有效的结构化知识来提高结构化表示的性能。因此,知识增强编码器可用于获取文本知识嵌入。然而,仅仅依赖结构化知识可能会导致失去表示一般语义的能力。因此,文中整合了文本嵌入和结构化知识嵌入,这样文本表示既包含整个句子携带的单词信息,也包含句子中详细语义组成的结构化知识。
实验结果
Table2:对 VG-Relation 和 VG-Attribution 数据集进行消融研究以分析不同组成部分的结果 (%)。结果表明,每个组件都极大地提高了结构化表示的能力。
图 3:不同方法的预测。红色和蓝色的单词是两个交换的单词。我们将结构CLIP 与 CLIP 进行比较,以计算图像和标题之间的 CLIP 分数(即语义相似度)。