LSA 用于通过建模每个网格与其邻居之间的关系来进行Transformer中的层内交互。它降低了字幕过程中局部物体识别的难度。LSF 用于层间信息融合,它聚合了不同编码器层的的信息,以实现跨层语义互补。
凭借这两种新颖的设计,所提出的 LSTNet 能够对网格特征的局部视觉信息进行建模,以提高字幕质量。为了验证 LSTNet,我们在竞争性 MS-COCO 基准上进行了大量实验。
实验结果表明,LSTNet 不仅能够进行局部视觉建模,而且在离线和在线测试中都优于许多最先进的字幕模型,例如 134.8 CIDEr 和 136.3 CIDEr。此外,LSTNet 的泛化能力也在 Flickr8k 和 Flickr30k 数据集上得到了验证。
代码:https://github.com/xmu-xiaoma666/LSTNet 论文:https://arxiv.org/abs/2302.06098
@article{ma2023towards,
title={Towards local visual modeling for image captioning},
author={Ma, Yiwei and Ji, Jiayi and Sun, Xiaoshuai and Zhou, Yiyi and Ji, Rongrong},
journal={Pattern Recognition},
volume={138},
pages={109420},
year={2023},
publisher={Elsevier}
}
1. 绪论
图像标题生成是指为给定图像生成一个流畅的句子来描述图像。近年来,该领域取得了快速发展,这得益于大量创新方法 [1,2] 和数据集 [3,4] 的支持。
受自下而上注意机制 [5] 的巨大成功启发,大多数现有的图像标题生成方法采用由对象检测器提取的区域特征作为视觉表示,例如 Faster R-CNN [6]。由于检测器是在大规模视觉基因组数据集 [7] 上预训练的,因此它可以生成图像中显著区域的判别性表示,并为标题生成提供完整的对象信息。为此,基于区域特征 [2,8,9] 在图像标题生成方面取得了显著进展。
为了弥补上述限制,一些研究开始重新审视网格特征的使用。Jiang 等人 [10] 研究了对象检测器的网格特征,以进一步提高视觉问答 (VQA) 任务的性能。RSTNet [11] 和 DLCT [12] 首次在类似 Transformer 的网络中采用网格特征,在图像标题生成方面取得了令人印象深刻的性能。然而,类似 Transformer 的架构不利于感知完整对象。具体而言,如图 1 (b) 所示,一个完整的对象可能会在二维空间中被划分为多个相邻的网格,而 Transformer 中的扁平化操作不可避免地破坏了网格特征的局部关系。同时,最近的进展 [13] 也表明,原始的 Transformer 在局部视觉建模方面效率较低。
然而,区域特征仍然存在明显的缺陷。具体来说,它们是从图像的显著区域中提取出来的,因此往往会忽略背景中的上下文信息。
基于以上分析,我们观察到区域特征和网格特征各有优缺点。区域特征包含显式的物体信息,但缺乏背景和关系信息。相反,网格特征则包含所有信息,但一个物体可能会被分成多个网格。结果,大多数语义信息被破坏,这使得推理更加困难。一个直接的解决方案是同时使用区域特征和网格特征来享受两种特征的优势,例如 DLCT [12] 和 GRIT [14]。然而,这将导致显著更高的计算量和更长的训练时间,因为模型需要同时处理两种特征。一个更有效的方法是在网格特征上对局部信息进行建模,以弥补物体信息不足。
因此,我们在本文中提出了一种新颖的局部敏感 Transformer 网络 (LSTNet)。具体来说,LSTNet 加强了局部建模,以分别从层内交互和层间融合的角度感知物体级信息。对于层内交互,我们提出了一种称为局部敏感注意力 (LSA) 的新型多分支模块,以从不同的感受野中感知细粒度的局部信息,并增强每个网格与其邻居之间的交互。值得注意的是,LSA 在推理过程中可以重新参数化为单分支结构,从而减少多尺度感知的额外开销。对于层间融合,我们设计了一个局部敏感融合 (LSF) 模块,该模块可以对齐和融合来自不同层的网格特征,以进行跨层语义互补。凭借这些新颖的设计,LSTNet 不仅提高了局部视觉建模的能力,而且大大提高了生成字幕的质量。在具有竞争力的 MS-COCO 基准测试中,LSTNet 在离线和在线测试中均表现出优异的性能,即 134.8 CIDEr 和 136.3 CIDEr。除了在 MS-COCO 数据集上表现出色外,LSTNet 的泛化能力也在 Flickr8k 和 Flickr30k 数据集上得到了验证。
总结一下,我们的贡献有三方面:
为了仅用网格特征来感知物体和上下文信息,我们提出了一种用于图像字幕的新型 LSTNet。LSTNet 不仅提高了模型的局部感知能力,而且在具有高度竞争力的 MS-COCO 基准测试中,其性能优于最近提出的许多方法。 我们提出了一种局部敏感注意 (LSA) 用于 Transformer 中的层内视觉建模,它是一个重新参数化的模块,用于增强每个网格特征与其局部邻居之间的交互。 我们提出了一种局部敏感融合 (LSF) 来聚合层间物体语义信息以进行图像字幕,这有利于层间语义理解。
2. 相关工作
2.1. 图像字幕
图像字幕是一项具有挑战性的任务,人们付出了巨大的努力来解决这个问题。经过多年的发展,我们可以观察到许多方法 [5,8,11,15–18] 取得了巨大进步。现有的图像字幕方法可以大致分为两类:1) CNN-RNN 模型,2) 基于 Transformer 的模型。如图 2(a) 所示,CNN-RNN 模型使用 CNN 将图像编码成矢量表示,然后采用基于 RNN 的解码器来融合这些矢量表示,为输入图像提供内容相关的描述。具体来说,Vinyals 等人 [15] 使用卷积神经网络 (CNN) 对图像进行编码,并采用长短期记忆 (LSTM) 作为解码器来生成字幕。Lu 等人 [16] 利用自适应注意力机制来决定在每个时间步长是否要关注视觉信息或非视觉信息。Anderson 等人 [5] 使用预训练的 Fast R-CNN [6] 来提取显著物体作为区域视觉特征,这有利于生成准确的标题。随着 Transformer [19] 的发展,许多研究人员正在研究将基于 Transformer 的模型应用于图像字幕任务,如图 2 (b) 所示。Pan 等人 [8] 将双线性池化引入 Transformer 模型以捕获二阶交互。Zhang 等人 [11] 提出在词预测之前自适应地度量视觉和语言线索在 Transformer 解码器顶部的贡献。Luo 等人 [12] 提出了一种双层协作 Transformer (DLCT) 来实现区域和网格特征的互补性。为了提高 Transformer 的语义理解能力,Ma 等人 [18] 提出了一种基于 Transformer 的字幕模型,该模型同时具有空间和通道注意力。Wang 等人 [20] 提出了一种几何注意力 Transformer (GAT) 模型,以进一步利用图像字幕中的几何信息。为了考虑物体特征的视觉持久性,Wang 等人 [21] 通过在编码器和解码器中插入视觉持久性模块,引入了 VPNet。Zhang 等人 [22] 提出了一种新的 CtxAdpAtt 模型,该模型采用语言上下文来有效地探索不同物体之间的相关视觉关系。为了缓解使用基于 GCN 的编码器来表示场景图之间关系信息的缺点,ReFormer [23] 探索了一种新的架构来明确地表达图像中物体之间的关系。
我们的 LSTNet 与基于 Transformer 的方法一致。但是,在处理网格特征时,Transformer 忽略了视觉局部性,而视觉局部性对于识别图像中的物体很重要。如图 2 (c) 所示,我们提出了局部敏感注意 (LSA) 模块和局部敏感注意 (LSA) 模块来增强局部视觉建模。
2.2. 区域特征和网格特征
在图像字幕中使用的视觉特征经过三个主要阶段:网格 ->区域->网格。在第一个网格阶段,一些开创性的工作 [16,26,27] 采用从 CNN [24] 中提取的网格视觉特征来表示图像,如图 3 (a) 所示。例如,Xu 等人 [26] 首次提出了图像字幕任务,并采用 CNN 对视觉特征进行编码,并采用 RNN 对字幕进行解码。为了捕捉图像中不同网格的重要性,Vinyals 等人 [27] 在解码字幕之前将注意力机制应用于视觉特征。Lu 等人 [16] 提出了对视觉特征的适应性注意力,该特征是从 ResNet101 [24] 的最后一层卷积层中提取的。如图 3 (b) 所示,为了获得前景信息,Anderson 等人 [5] 采用了一个在 VG [7] 上预训练的物体检测器 [6] 来提取区域特征,这些特征被广泛用于许多多模态任务 [2,28] 中。如图 3 (c) 所示,为了弥补区域特征的缺陷(例如,耗时),Jiang 等人 [10] 重温了物体检测器中的网格特征,并发现它可以在 VQA 中取得有竞争力的性能,其有效性也在图像字幕中得到了验证 [11,12]。在 VQA 中的表现,其有效性也在图像字幕中得到了验证 [11,12]。
与基于区域特征的先前方法 [2,8,9] 相比,我们提出的基于网格特征的 LSTNet 可以捕获边界框之外的上下文信息,从而生成更准确的字幕。另一方面,与基于网格特征的现有方法 [11] 相比,我们提出的 LSTNet 考虑了网格特征的局部性,并对相邻网格的关系进行建模,这有利于识别图像中的物体。DLCT [12] 采用边界框来帮助网格特征定位物体。然而,由于采用了网格特征和区域特征,模型需要承担更多的训练和预测开销,例如,LSTNet 在交叉熵训练阶段的运行速度比 DLCT 快三倍以上,其性能受到边界框精度的严重限制。我们提出的 LSTNet 捕获了层内和层间局部关系,从而为图像字幕生成更详细、更细粒度的网格特征。
2.3Transformer 中的多头自注意力机制
Transformer 最初被提出用于解决自然语言处理 (NLP) 任务。由于其强大的建模能力,Transformer 近年来也被广泛应用于计算机视觉 (CV) 和多模态任务中。Transformer 的关键组件是多头自注意力 (MSA) 模块,它可以有效地对不同位置的输入之间的关系和上下文进行建模。具体来说,一个 h-头自注意力机制可以表示为:
其中 𝐐,𝐊,𝐕∈ℝN×d 分别代表输入查询、键和值。N 是输入的长度,d 是每个头的隐藏维度。𝐖O∈ℝhd×d 是所有头输出的可学习矩阵。对于每个头,注意力机制表示如下:
其中 𝐖iQ,𝐖iK,𝐖iV∈ℝd×d 分别是输入查询、键和值的可学习矩阵。
3.方法
3.1概述
如图 4 所示,我们提出的 局部敏感 Transformer 网络 (LSTNet) 遵循编码器-解码器范式。具体来说,编码器将视觉特征作为输入,然后通过编码器层对它们之间的关系进行建模,其中采用 局部敏感注意力 (LSA) 模块来增强局部视觉建模。然后,局部敏感融合 (LSF) 聚合来自不同编码层的视觉特征,基于此,解码器预测字幕词来描述给定的视觉内容。
第 l 个编码器层之前的视觉特征表示为 Vl−1∈ℝNv×c (Nv=h×w),其中 h、w、c 分别代表视觉特征的高度、宽度和通道维度。
LSTNet 的每个编码器层包含三个组件:(1)多头自注意力 (MSA) 模块;(2)局部敏感注意力 (LSA) 模块;(3)前馈神经网络 (FFN)。来自最后一个编码层的视觉特征 Vl−1 首先由 MSA 处理,如下所示(为简洁起见,省略了 LayerNorm 操作):
其中 MSA(⋅) 是 Transformer [19] 中的标准多头自注意力。由于 MSA 可以对输入序列中任意两个位置之间的关系和上下文进行建模,因此 MSA 有助于捕获长距离依赖关系并对网格之间的全局信息进行建模。
自注意力在捕获局部细节方面通常效率低下,然而,正如第 1 节所解释的那样,这对网格视觉特征至关重要。因此,基于 Vl−1′,采用 LSA 来捕获相邻网格的依赖关系,以进一步细化视觉特征:
其中 LSA 的详细信息将在下一小节中介绍。由于 LSA 由级联的卷积层组成,可以对相邻网格之间的关系进行建模,因此 LSA 有助于对网格之间的局部关系进行建模。
然后,LSA 模块的输出被馈送到 FFN 以进行通道域中的交互:
与先前仅将顶层编码器输出馈送到解码器的基于 Transformer 的模型不同,我们提出的 LSF 模块通过局部敏感融合 (LSF) 从所有编码器层聚合视觉特征,以在语义上获得更丰富的特征:
其中 n 是编码器层的数量。
最后,V∗ 被馈送到解码器以生成字幕,这与普通 Transformer [19] 相同。
3.2局部敏感注意力 (LSA)
如图 1(b) 所示,图像中的物体可能被分成几个片段并分布在不同的网格中,这破坏了视觉物体的空间和语义信息。一个合理的方法是加强局部信息的交互,这也符合视觉上彼此靠近的特征更有可能相关的假设。
因此,为了捕获局部细节并对相邻网格之间的交互进行建模,我们提出了一种多尺度局部敏感模块,即局部敏感注意力 (LSA)。具体来说, MSA 模块的输出特征 V′∈ℝN×C 是一个网格序列,其中 N 是网格的数量,C 是通道维度的尺寸。我们首先将 V′∈ℝN×C 重塑为 V′∈ℝH×W×C,其中 H,W 是网格特征的高度和宽度。然后,我们在系列中使用两个多尺度 2D CNN,在它们之间使用一个激活函数(即 ReLU),以获得经过多尺度局部感知后的视觉特征 𝒜,可以表述如下:
其中 σ(⋅) 是激活函数,MSCi(⋅) 表示由多分支 CNN 实现的多尺度 CNN:
其中 i∈{1,2},N 是分支的数量,BNj(⋅) 是批次归一化 [29],Fj(⋅) 表示身份映射、单个卷积模块或多个串联的卷积模块,以及 j∈{1,⋯,N}。在我们的 LSTNet 中,分支的数量 N 为 3。如图 4 中蓝色区域所示,三个分支分别是 (1) 身份映射,(2) 1×1 卷积,以及 (3) 1×1 卷积和 3×3 卷积的顺序组合。
在推理过程中,可以通过使用一些结构重参数化技术 [30, 31] 将多分支结构 MSCi(⋅) 简化为单分支结构,从而在没有任何性能损失的情况下节省参数数量和计算成本:
其中 Fi(x) 是一个 3×3 卷积,而 i∈{1,2}。
为了获得每个网格的注意力权重,我们也对 𝒜 应用 Sigmoid 函数。最后,我们根据局部敏感注意力图重新加权自注意力层 V′ 的输出特征,如下所示:
其中 ⊗ 表示逐元素相乘。
3.3局部敏感融合 (LSF)
不同层的特征往往包含不同层次的语义信息 [2]。然而,大多数现有的图像字幕方法只将顶层编码器的特征馈送到解码器,从而导致 低级信息丢失 . 为了避免这种信息丢失,我们将编码器中所有层的特征融合,然后将融合后的特征输入到解码器。
从技术上讲,我们引入了一个简单的 空间位移 操作,使每个网格与其相邻网格对齐,然后使用多层感知器 (MLP) 不仅在通道域中交互,而且在空间域中交互。
特别地,将来自第 l 个编码层的特征表示为 Vl∈ℝh×w×c(这里省略了重塑操作),V1 和 V2 通过不同的空间位移操作进行位移(即 SS1(⋅) 和 SS2(⋅)), 可以表示为等式 12 和等式 13:
其中 Vi 是第 i 个编码层的输出特征,ds 是空间位移的位移距离,它决定了局部交互的范围。顶层编码器的输出 V3 未经任何位移操作处理。空间位移的说明可以在图 4 和图 5 中观察到。
然后,来自不同层的偏移特征被连接在一起:
从理论上讲,MLP 无法对相邻网格之间的关系进行建模。但是,在经过空间偏移操作的偏移后,每个网格与其相邻网格对齐,MLP 可以在通道和空间域中进行通信:
其中 σ(⋅) 是 ReLU 激活函数,W1∈ℝ3c×3c 和 W2∈ℝ3c×c 是可学习的投影矩阵。
为了进一步增强视觉特征的描述能力,我们将顶层编码器层的输出与融合特征 V~ 通过残差连接组合起来:
其中 Vtop 是顶层编码器层的特征,Vtop=V3 在我们的 LSTNet 中,λ 充当权重因子。
具体来说,LSF 的动机来自于两个方面:1) 不同编码器层的输出特征图具有不同的语义(即 高级特征图具有高级语义信息,低级特征图具有低级语义信息)。传统的 Transformer 仅将编码器最后一层的特征图馈送到解码器,而忽略了低级语义信息。LSF 通过融合所有编码器层的输出解决了这个问题,既考虑了高级语义信息,也考虑了低级语义信息。2) LSF 模块可以通过空间位移操作与局部网格进行交互,有利于对物体级信息进行建模。
3.4目标
给定真实标注的标题 y1:T∗ 和带有参数 θ 的标题生成模型,其中 T 是标题的长度,我们使用交叉熵 (CE) 损失对模型进行预训练,如下所示:
然后,我们使用 CIDEr 和 BLEU-4 分数通过自批判序列训练 (SCST) [32] 进一步优化模型,如下所示:
其中 k 是束大小,r(⋅) 是 CIDEr 和 BLEU-4 的总和,b=(∑ir(y1:Ti))/k 是奖励基线。
4.实验
4.1数据集
我们在流行的 MS-COCO [3] 图像标题生成数据集上进行实验。它包含 123,287 张图像,其中包括 82,783 张训练图像、40,504 张验证图像和 40,775 张测试图像,每张图像都标注了 5 个标题。我们采用 [40] 提供的分割进行离线测试,其中 5,000 张图像用于验证,5,000 张图像用于测试,其余图像用于训练。此外,我们还上传了官方测试集生成的标题以进行在线评估 1。
4.2实现细节
网格特征是从由 [10] 提供的预训练 Faster-RCNN [6] 中提取的,其中使用步长为 1 的 C5 主干和带有两个全连接层的 1 × 1 RoIPool 作为检测头,在 VG 数据集上训练 Faster R-CNN。特别地,我们采用 C5 特征图并对其进行平均池化,使其具有 7×7 空间大小。请注意,除了简单的增强 (e.g., 随机裁剪、随机旋转) 之外,我们没有使用任何额外的预处理数据。LSTNet 中的 dmodel 为 512,FFN 中的扩展率为 4,头的数量为 8,束搜索的大小为 5。
我们使用 Adam 优化器在两个阶段训练我们的模型,并采用 [12] 中的相对位置编码。在交叉熵 (CE) 训练阶段,批次大小为 50,学习率在前 4 个时期线性增加到 1×10-4。之后,我们将其设置为 2×10-5、4×10-6,分别在第 10 和第 12 个时期。在进行 18 个时期的交叉熵 (CE) 预训练后,我们使用 SCST 对模型进行优化,批次大小为 100,学习率为 5×10-6。学习率将在第 35、40、45、50 个时期分别设置为 2.5×10-6、5×10-7、2.5×10-7、5×10-8,SCST 训练将持续 42 个时期。
4.3性能比较
在本节中,我们将 LSTNet 与 SOTA 方法在离线和在线评估方面进行比较。评估 . 比较的模型包括:SCST [32]、Up-Down [5]、RFNet [34]、GCN-LSTM [35]、SGAE [36]、AoANet [9]、ETA [38]、ORT [39]、Transformer [19]、M2Transformer [2]、XTransformer [8]、RSTNet [11] 和 DLCT [12]。遵循标准评估标准,我们采用 BLEU-N [41]、METEOR [42]、ROUGE-L [43]、CIDEr [44]、SPICE [45] 来评估性能。
4.3.1在线评估
表 1 显示了 LSTNet 和其他 SOTA 方法在使用 5 个参考字幕 (c5) 和 40 个参考字幕 (c40) 的 COCO 在线测试服务器上的性能比较。为了公平比较,我们还使用 [2] 中的四种模型的集成,并采用两种常见的骨干网络 (i.e., ResNeXt-101、ResNeXt-152 [46])。值得注意的是,我们的 LSTNet 在所有指标上均显著优于其他 SOTA 方法。令人惊讶的是,我们观察到 带有 ResNeXt-101 的 LSTNet 在大多数指标上表现优于 带有 ResNeXt-152 的 RSTNet 和 带有 SENet-154 的 X-Transformer。
4.3.2离线评估
表 2 总结了最先进模型和我们方法的性能 到 离线 COCO Karpathy 测试集。注意,为了进行公平的比较,我们报告了单个模型的结果,而没有使用任何集成技术。我们可以观察到,我们提出的 LSTNet 在大多数指标上都优于所有其他 SOTA 模型。值得注意的是,我们的 LSTNet 的 CIDEr 分数达到了 134.8%,比采用区域和网格特征的最强竞争对手 DLCT 高出 1.0%。
我们观察到,带有网格特征的 LSTNet 优于一些带有区域特征的模型(例如, M2Transformer [2],XTransformer [8])。我们认为,本文中网格级方案优于对象级方案的原因如下:
区域特征的背景信息缺失,而网格特征提取了图像中的所有信息。具体来说,视觉区域特征是从图像的显着部分收集的,通常省略上下文信息。由于缺乏背景信息,模型在捕获对象之间关系方面表现不佳。另一方面,网格特征从图像中收集所有空间信息。 预训练的对象检测器通常涉及噪声、重叠或错误的检测,最终限制了图像字幕模型的性能上限。另一方面,网格特征不提供检测信息,因此避免了错误检测的影响。 在网格特征中,一个对象被划分为不同的网格,这是本文的动机。我们的方法使模型能够捕获局部信息,并解决了这个问题。
4.3.3与最先进方法的公平比较
为了消除不同视觉特征的干扰,我们在相同的网格特征上进行实验,以比较 LSTNet 和其他最先进方法。如表 3 所示,与在相同视觉特征上的其他方法相比,我们提出的 LSTNet 在所有指标上仍然取得了优异的性能。
4.4消融研究
4.4.1不同 LSA 分支的影响
为了验证每个分支的影响,我们通过利用 LSA 的不同分支进行了一系列实验。表 4 说明了 LSA 使用不同分支的性能。通过分析此表,我们获得了以下观察结果:
与没有 LSA 的模型(第 1 行)相比,采用 LSA(第 2-7 行)无论使用一个或多个分支,都有助于生成更好的标题。此外,采用的分支越多,性能往往越好。这可能是因为所提出的 LSA 模块提高了模型的局部感知能力,因此有利于对物体信息的感知。 如表 4 所示,配备一个分支(第 2、3、4 行)在大多数评估指标上优于没有分支的模型(第 1 行)。通过比较带有一个分支的模型(第 2、3、4 行)和带有两个分支的模型(第 5、6、7 行),我们可以看到,带有两个分支的模型在大多数指标上优于带有一个分支的模型,特别是 CIDEr。此外,我们可以看到,包含所有三个分支的完整 LSTNet(第 8 行)表现最好。这可能是因为图像中的物体大小各不相同,因此更多的分支有利于增强对不同大小物体的多尺度建模能力。重要的是,通过使用重参数化技术,更多分支的 LSA 不会在推理过程中导致更高的开销。
4.4.2不同 LSA 和 SA 排列的影响
为了探索不同排列的局部敏感注意力 (LSA) 和自注意力 (SA) 的影响,我们比较了三种 LSA 和 SA 的组合方法:(1)顺序 LSA-SA,(2)顺序 SA-LSA,(3)SA 和 LSA 的并行使用。如表 5 所示,我们可以观察到顺序 SA-LSA 的性能优于其他方法。主要原因可能是 SA 处理的特征是粗粒度的,而我们提出的 LSA 旨在对局部关系进行建模,有助于进一步细化视觉特征。
4.4.3LSF 不同偏移距离的影响
为了探索 LSF 偏移距离 ds 的影响,我们通过将 ds 从 0 增加到 4 来进行实验(ds=0 表示所有特征均未偏移)。从表 6 中,我们可以观察到偏移的 LSF 优于未偏移的 LSF。这可以归因于偏移的 LSF 使得每个网格在融合过程中可以与相邻网格进行交互,从而增强了局部建模。然而,当偏移距离大于 1 时,性能开始下降,ds=1 表现最佳。原因可能是较大的偏移促进了长距离交互,但忽略了局部建模。
4.4.4LSA 中 λ 的影响
为了选择公式 16 中最佳的权重因子 λ,我们还进行了一组实验。从表 7 中,我们可以发现过大的 λ 会导致性能下降,λ=0.2 在大多数指标上表现良好。因此,除非另有说明,我们将在我们的实验中使用 λ=0.2。
4.4.5分离 LSA 和 LSF 的影响
为了深入了解提出的LSA和LSF模块,我们在实验中对这两个模块进行了分离。如表8所示,与完整模型相比, 这 没有 LSA+LSF 的模型性能显著下降。尤其是在BLEU-4和CIDEr上,分别下降了1.4%和3.5%,这表明LSA和LSF至关重要。特别是,我们的LSA和LSF在CIDEr得分上分别实现了2.3%和2.4%的性能提升。这表明 LSA 和 LSF 模块可以互相促进,以实现更好的性能。
4.4.6不同特征融合方法的效果
为了证明 LSF 的有效性,我们设计了一组实验,通过用不同的模块替换 LSF 来融合特征。如表 9 所示,我们可以发现,与第一行(即 不融合特征)的结果相比,融合来自不同层的特征可以提高性能。主要原因可能是来自不同层的特征在语义信息上是互补的,融合特征将丰富视觉特征。此外,我们提出的LFS模块在很大程度上优于其他模块,这有力地证明了LFS的有效性。
4.4.7不同网格尺寸的影响
为了探索不同网格的影响 尺寸 ,我们通过平均池化将视觉特征设置为不同的尺寸,进行了一系列实验。如表 10 所示,随着网格尺寸的增加,图像字幕的性能逐渐提高。这是因为更大的图像特征提供了更多细粒度和更丰富的语义信息,因此图像字幕模型将生成更准确的描述。
4.5定量分析
通过比较传统指标(例如 BLEU-N、CIDEr、SPICE),很难确定我们的方法是否显著提高了图像字幕的性能。目的是为了展示我们提出的 LSTNet 在 一种直观的方式 ,我们使用成对样本进行双尾 t 检验,将 LSTNet 与 a 标准 Transformer。具体来说,我们首先对每个传统指标进行双尾 t 检验,以探索 LSTNet 生成的字幕质量与标准 Transformer 相比是否显著提高。
此外,我们还报告了 SPICE 得分的语义子类别(即 关系、基数、属性、大小、颜色和对象),这些子类别可用于衡量生成的句子与真实情况之间的语义相关性。此外,对于每个综合 SPICE 得分,我们使用匹配数据进行详细的双尾 t 检验,以查看这些语义指标是否也得到显著提高。
测试集的传统指标和相应的 p 值 the 测试集上的 t 检验显示在表 11 中。我们观察到在显著性水平 α=0.05 下,所有指标的改进在统计上都是显著的,这 展示了 我们提出的 LSTNet 有利于生成字幕的质量。表格 12 详细说明了 SPICE 评分的语义子类别和测试集上 t 检验的 p 值。
我们可以观察到 SPICE 的所有语义子类别都得到了改进,这揭示了 LSTNet 中局部视觉建模的有效性和优越性。此外,我们还可以观察到在显著性水平 α=0.05 下,SPICE 的一些语义子类别(例如, 属性、大小、颜色和对象)获得了显著的改进。值得注意的是,所有这四个指标都描述了对象的属性,因此证明 LSTNet 中的局部视觉建模有助于捕获对象级别的信息。
与其他语义指标相比,关系 指标的改进相对不显著。这可能是因为,要捕获对象之间的关系,仅仅提高模型的局部建模能力是不够的,全局建模能力也很重要。对于单个对象的其他语义指标(例如, 属性、大小、颜色和对象),局部视觉建模已经能够实现显著的性能提升。
4.6定性分析
为了定性验证 LSTNet 的有效性,我们在图 7 中展示了 Transformer 和 LSTNet 在相同网格特征上生成的几个典型字幕示例。我们可以观察到,Transformer 生成的字幕是 信息量不足 即使有误,而 LSTNet 生成的字幕更准确、更具可辨识度,这表明我们提出的 LSA 和 LSF 有助于通过局部建模识别视觉对象。
为了深入了解 LSTNet 能够生成准确字幕的原因,我们在图 7 中进一步说明了 Transformer 和 LSTNet 中顶层编码器的注意力图。通过分析结果,我们得到以下观察结果:1)Transformer 生成的注意力图未能关注图像中的重要视觉对象,而 LSTNet 能够关注重要的视觉对象。
例如,对于图 7 中第一行的图像,Transformer 关注的是桌子,而 LSTNet 关注的是男人和电话。因此,Transformer 生成了错误的字幕(即 “领带”,“桌子”),而 LSTNet 正确地识别出 “一个拿着手机的男人”。2)Transformer 只能关注图像中的一个物体或一小块区域,而 LSTNet 将关注更多的主要物体,从而生成准确和详细的描述。
例如,对于图 7 中第二行的图像,Transformer 仅关注男孩的嘴巴,而 LSTNet 关注男孩和泰迪熊。因此,Transformer 无法识别 “泰迪熊”,但只产生了一个一般的短语(即 “一个毛绒玩具”)。
由于编码器中精确的注意力,LSTNet 成功地识别出 “一个年轻的男孩拿着泰迪熊”。这些观察结果表明,我们提出的 LSA 强制模型不仅关注图像中的重要信息,而且还关注综合信息。
4.8 Flickr 数据集上的泛化
为了验证我们提出的 LSNet 的泛化能力,我们还在 Flickr8k 和 Flickr30k 上进行了广泛的实验数据集.我们提出的 LSTNet 与之前在 Flickr8k[52]和 Flickr30k[53]上的 SOTAs 的性能比较分别如 Tab13和 Tab 14所示。可以观察到,我们提出的 LSTNet 在 Flickr8k 和 Flickr30K 上都以显著的优势优于之前的 SOTAs。这验证了我们提出的 LSTNet 在其他数据集上具有很强的泛化能力。
5.结论
在本文中,我们提出 LSTNet,一种新颖的局部敏感 Transformer 网络,用于图像字幕,它利用局部交互和融合来更好地识别物体 带有网格特征。
具体来说, 我们设计 LSA 模块来模拟 关系 在 一个编码器层 ,这有助于获得每个对象的完整语义信息,并细化视觉特征的细节。然后,我们引入 LSF 模块,通过对相邻网格之间的关系进行建模,将来自不同层的视觉特征融合在一起,从而产生具有更丰富语义信息的视觉特征。
在 MS-COCO 数据集上的实验结果表明,与之前的 SOTA 模型相比,LSTNet 具有显着的性能优势。广泛的消融研究和可视化比较进一步揭示了 LSTNet 各个组件的有效性和见解。
在 Flickr8k 和 Flickr30k 数据集上的额外实验也验证 LSTNet 在其他数据集上的泛化。尽管提出的 LSTNet 显着提高了目标定位能力和字幕性能,但它也引入了额外的计算和参数。然而,与原始 Transformer 的自注意力相比,LSA 和 LSF 模块引入的参数和计算量可以忽略不计。