TPAMI 2024 | 桥接视觉与文本语义:迈向无偏见场景图生成的一致性

文摘   2024-11-10 19:00   辽宁  

 点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目:Bridging Visual and Textual Semantics: Towards Consistency for Unbiased Scene Graph Generation

桥接视觉与文本语义:迈向无偏见场景图生成的一致性

作者:Ruonan Zhang; Gaoyun An; Yiqing Hao; Dapeng Oliver Wu

源码链接:https://github.com/Nora-Zhang98/VTSCN


摘要

场景图生成(SGG)旨在检测图像中的视觉关系。然而,由于长尾偏差,SGG远未达到实用。大多数方法严重依赖于统计共现来生成平衡数据集,因此它们是特定于数据集的,并且容易受到噪声的影响。根本原因是SGG被简化为分类任务,而不是推理任务,因此捕获细粒度细节的能力有限,处理歧义的难度增加。通过模仿认知心理学中的双重过程方式,提出了一种视觉-文本语义一致性网络(VTSCN),将SGG任务建模为推理过程,并显著缓解长尾偏差。在VTSCN中,作为快速自主过程(类型1过程),我们设计了混合联合表示(HUR)模块,分为两个步骤进行空间感知和工作记忆建模。此外,作为高阶推理过程(类型2过程),设计了全局文本语义建模(GTS)模块,单独对成对对象的文本上下文进行建模。作为认知的最终联想过程,设计了异构语义一致性(HSC)模块,以平衡类型1过程和类型2过程。最后,我们的VTSCN提出了一种新的场景图模型设计方式,充分考虑了人类认知过程。在Visual Genome、GQA和PSG数据集上的实验表明,我们的方法优于最先进的方法,消融研究验证了我们VTSCN的有效性。

关键词

  • 跨模态对齐

  • 双重过程理论

  • 场景图生成

  • 场景理解

  • 视觉推理

Ⅰ. 引言

场景图生成旨在将图像转换为有向图,这些图既容易被人类也容易被机器理解。场景图由形式为<主体-谓语-客体>的三元组组成,其中对象被表示为节点,关系被表示为有向边。因此,复杂场景被大大简化。场景图也是下游任务的强大工具,如图像描述[1]、视觉问题回答[2]、动作识别[3]等,以协助全面理解场景。

长尾偏差长期影响生成场景图的质量。由于注释者的偏好,最受欢迎的数据集Visual Genome[4]中的主导谓语是琐碎和常见的,如“on”、“has”、“of”等。大多数语义丰富的谓语数量很少。例如,最稀有的谓语“flying in”,在训练期间只有4个样本。因此,模型倾向于预测在长尾分布头部的谓语,因为它们得到了充分的训练。为了考虑语义丰富的尾部谓语并生成有意义的场景图,无偏见的场景图生成越来越受到关注[5]、[6]。传统的去偏见方法,如重采样[7]和重新加权[8],严重依赖于特定数据集的统计共现。一些最新的方法[9]、[10]、[11]利用偏差方法的概率分布作为先验知识,以做出无偏见的预测。然而,上述方法特定于数据集,并且在泛化方面相对较弱。也就是说,当数据集发生变化时,依赖的知识也会发生变化。

在日常生活中也存在高度倾斜的长尾偏差,但人类比机器受影响的可能性要小。比较人类和机器理解场景的方式,差异在于人类可以协作应用分类和推理,而大多数当前的方法简单地将问题建模为分类任务,并为每个关系分配一个单一且确定的标签,这使得处理场景的歧义变得困难。因此,我们尝试模仿人类的认知方式,提出一种鲁棒且与数据集无关的无偏见方法。

双重过程理论由Evans等人[13]提出,用于解释人类思维和决策过程中两种不同的认知处理模式,具有扎实的生理和理论基础。双重过程理论的存在也得到了Noveck等人[12]的神经基础证明。应用功能性磁共振成像(fMRI)后,对任意材料的条件推理的神经基础进行了深入探索。如图1(a)所示,左上顶叶、左颞叶和语言区域被Modus Ponens激活,左上顶叶、左额叶和前额回被Modus Tollens激活。对于双重过程理论,Evans等人[14]认为类型2过程涉及单一工作记忆,而Stanovich等人[14]强调类型2过程中的解耦操作的重要性。如图1(b)所示,我们的VTSCN基于这两种理论,具有它们的两个特点:类型1过程是自主的,类型2过程需要工作记忆和认知解耦。

根据Evans的观点,双重过程理论应用于我们的混合联合表示(HUR)模块。现有模块仅对外观特征进行建模,忽略了连接长期记忆和感知输入的工作记忆。原始模块被建模为快速无意识步骤,引入工作记忆的模块通过修改的变换器[15]作为慢逻辑步骤进行建模。

根据Stanovich的观点,双重过程应用于整个网络的认知解耦操作,这指的是能够从当前上下文或即时感官输入中心理上分离自己,并进行抽象思维和脱离当前情境的能力。对于SGG,编码文本上下文的最流行做法是将实体标签的词嵌入聚合到视觉上下文中。然而,这种方法忽略了成对文本上下文的单独建模,这被视为概念级知识。因此,设计了全局文本语义建模(GTS)模块以引入认知解耦,它完全脱离了视觉线索的概念级知识,并鼓励抽象思维。

Evans和Stanovich都同意,平衡类型1过程和类型2过程的联想过程肯定可以基于规则通过神经网络进行建模。所谓的“规则”只是一个语义工具,用于指导这两种过程的整合。Popham等人[16]发现,在人脑中,由无声电影(视觉语义)和叙事故事(语言语义)引起的两个不同网络对应于视觉皮层的边界,这意味着在处理不同模态的信息时,视觉类别自主地对齐语义类别。考虑到SGG本质上是一个跨模态任务,因此跨模态对齐被用作联想过程的规则。具体来说,我们设计了一个异构语义一致性(HSC)模块作为这个过程,以弥合视觉和文本语义表示之间的差距。同时,HSC可以处理场景中的歧义,通过额外的基于相似性的分布来考虑,生成表示场景不同可能解释的概率场景图。

总结来说,我们的贡献如下:

  • 分析了将SGG视为推理任务的重要性,并提出了一种视觉-文本语义一致性网络(VTSCN),通过模仿人类思维和决策过程中的认知处理模式来处理长尾偏差。VTSCN不再遵循传统的将SGG建模为分类任务的做法。通过协作应用分类和推理,提出了一种新的场景图模型设计方式。

  • 作为整个网络的类型1过程,提出了混合联合表示模块,分为两个步骤:快速无意识步骤和慢逻辑步骤,分别用于空间感知和工作记忆建模。

  • 作为整个网络的类型2过程,提出了全局文本语义建模模块,以脱离视觉线索的概念级知识,单独编码成对级文本上下文,从而鼓励抽象思维。

  • 作为联想过程,提出了异构语义一致性模块,以平衡类型1过程和类型2过程,跨模态对齐作为指导这两种过程整合的规则。

  • 我们提出的所有模块都以即插即用的方式部署。在Visual Genome[4]、GQA[17]和PSG[18]数据集上进行了全面的实验,结果表明我们的方法优于最先进的无偏见SGG方法。

本文的其余部分如下。第二节简要回顾了双重过程理论、场景图生成和文本语义辅助训练的相关研究。第三节深入探讨了支持我们提出方法的相关认知心理学理论。第四节,我们介绍了所提出的方法,包括三个关键模块:HUR、GTS和HSC。第五节在VG、GQA和PSG数据集上展示了实验结果和进一步讨论。最后,第六节总结了本文。

Ⅲ. 认知心理学在SGG中的动机

认知心理学是研究人们如何感知、学习、记忆和思考信息的学科[40],它起源于许多不同的想法和方法,包括结构主义[41]、联想主义[42]、行为主义[43]等。与行为主义不同,认知主义[44]是当今认知心理学的基础框架。

行为主义只关注可观察行为与环境事件之间的关系。具体来说,行为主义者[45]将思维视为一个黑匣子,其内部过程无法准确描述,因为它们不可观察。这与深度学习中缺乏可解释性类似。认知主义认为,大部分人类行为可以从人们的思维角度来理解。也就是说,使思维过程可以解释。一些工作,如HML[46],应用认知心理学来模仿人类的学习行为,这启发我们寻求帮助,进一步模拟人类的认知过程,并解释深度学习过程。认知心理学研究人们如何做决策和推理。在这个领域,双重过程理论是除了演绎推理[47]和归纳推理[48]之外的另一种推理观点,它更容易被建模。

有许多有影响力的双重过程理论,两个最有影响力的理论被应用,由Evans和Stanovich提出。他们强调直觉和深思熟虑的认知处理影响推断和判断。我们的许多日常决策都是快速和直觉地做出的,例如认出一张脸。其他的则需要更慢的有意识的深思熟虑,例如开车去一个不熟悉的地方的新地点。Evans[49]指出,类型1过程本质上是实用主义的,基于先前的经验、信仰和背景知识,可靠和有效地实现目标,而不一定伴随着意识。类型2过程是明确的、顺序的、可控的,并且对工作记忆有很高的要求。我们的HUR模块就是根据这一理论指导的。原始的联合特征提取过程是一个直觉过程,涉及基于随时可用的视觉信息的快速、不费力的判断。它通过CNN过滤图像提供的信息,因此获得的线索更少。这个过程很容易受到偏见的影响,因为它做出决策相当简单。因此,我们通过联合上下文提取引入了深思熟虑的过程。在正式建模中,直觉过程被表示为快速无意识步骤,深思熟虑的过程被表示为慢逻辑步骤。

Stanovich的双重过程理论被称为双系统理论。类型1过程是无意识地实现的,依赖于上下文,依赖于Evans[49]描述的直觉思维。类型2过程是受控的和纯粹的深思熟虑的,它基于不依赖于上下文的抽象。基于此,提出了GTS模块,以使抽象思维。

Ⅳ. 方法论

A. 概述

现有的场景图生成(SGG)框架可以分为两类:两阶段方法和一阶段方法。两阶段方法首先识别场景中的对象,然后使用对象标签的文本语义来辅助SGG模块。一阶段方法则是端到端的,因此对象和谓词标签是同时预测的。我们的VTSCN是一个两阶段方法,选择Faster R-CNN[50]作为其对象检测器。给定图像I,预测的场景图表示为SG。该框架可以正式定义如下:

其中*表示乘法操作,B表示边界框,O和R分别代表对象和谓词的标签。我们提出的方法的整个流程如图2所示。Faster R-CNN提取图像的特征图并识别对象标签,然后通过双重过程桥接视觉和文本语义。RCE模块和HUR模块被建模为类型1过程,GTS模块被建模为类型2过程。RCE可以采用现成的上下文提取模块,如MOTIFS[33]、VCTree[34]和BGNN[7]等。HUR进一步细分为两个步骤:快速无意识步骤用于增强联合空间感知,慢逻辑步骤用于编码工作记忆。对于整个网络,联想过程被建模为HSC模块,它受到跨模态对齐规则的监督,以指导这两种过程的整合。HSC的输出分布和关系分类器输出的原始谓词分布共同影响最终预测。HUR、GTS和HSC的详细描述分别在第四节B、C和D中介绍。

B. 混合联合表示模块

成对对象的联合特征在关系表示提取中起着重要作用,它可以提供丰富的信息。例如,联合空间特征可能有助于将谓词“near”细分为更信息丰富的谓词,如“behind”、“above”、“in front of”等。成对对象的上下文也很重要,否则,相同主体和对象的谓词倾向于相同。现有的联合信息提取方法是简单有效的,它采用特征图提供的联合外观特征和边界框的粗略空间特征。然而,这些方法忽略了将当前感知输入和长期记忆桥接起来,即工作记忆的建模。受Evans双重过程理论的启发,我们提出了HUR模块来模拟类型1过程,并结合现成的RCE模块。HUR进一步细分为两个步骤:快速无意识步骤增强联合空间感知,慢逻辑步骤编码联合工作记忆。
如图3所示,在快速无意识步骤中,对于第i个和第j个提议,联合外观特征由对象检测器提取,表示为。联合框的空间特征通过主体和对象的矩形掩码计算,堆叠并输入到卷积层。然后相加得到联合视觉特征。然而,由于粗糙的边界框注释,噪声和背景信息混合到提取的中。

然后,对于大小为7×7的特征图,采用位移方案[51],通过重新排列特征图有效地模拟空间信息。位移增加了网络的非线性,允许原始模块实现更高的准确性,并对抗噪声的负面影响。位移模拟了稀疏卷积,这里我们只引入了宽度维度的右移,如图4所示,其他位移操作本质上是相同的。

我们使用的位移方案正式定义如下:
其中FM表示的特征图,底部的下标表示需要移动的划分部分的索引。:表示连续的部分,分别是不进行移动操作的部分的开始索引和结束索引。右上角的下标表示沿空间维度的移动方向,no表示不应用移动。[]是连接操作。每个移动操作将特征图移动1个像素。按照之前工作中的位移[52],在快速无意识步骤中,沿通道维度平均分为8部分,其中4个连续部分不执行位移。其余4部分进行不同的位移操作,分别沿宽度和高度维度进行左移和右移。位移后,所有部分被连接并通过MLP投影,增强的联合视觉特征表示为。整个快速无意识步骤的过程定义如下:
在慢逻辑步骤中,对联合提议再次进行联合级空间编码,使用边界框的坐标,表示为。对象级上下文由RCE提取,被输入到修改的变换器(MT)中,以获得第i个提议的联合级上下文
然后,对象被配对,相应的联合上下文通过多分支融合模块(MBF)[53]计算如下:
最后,用于增强快速无意识步骤中的联合空间感知,与慢逻辑步骤中的相融合,计算增强的联合特征。α和β是平衡这两个步骤输出的加权参数。关于α和β的详细讨论在第五节D中展示。

C. 全局文本语义建模模块

根据Stanovich的观点,类型2过程倾向于进行抽象,采用认知解耦操作。许多工作[7]、[10]、[11]将对象标签的文本语义嵌入与视觉上下文聚合,以编码跨模态上下文。然而,这种方法使场景中的实体相互孤立,并限制了抽象思维。因此,提出了GTS模块以鼓励这种思维,它将概念级文本标签与感官视觉线索完全分离。GTS提出了一种新的方法来单独编码联合文本上下文。通过这种方式,充分利用了文本语义表示的鲁棒性,然后脱离的文本上下文将被注入到关系表示中。GTS的结构如图5所示。

对于第i个提议,其实体标签的文本词嵌入从Glove[36]中获取,表示为。受知识图中的翻译嵌入[54]的启发,第i个提议和第j个提议的文本嵌入定义如下:
然后被Nc个变换器块编码,正式定义如下:
其中是中间表示。是可学习的权重矩阵,是缩放因子,是第n个头的输出,表示残差连接和层归一化的连接,N是头的数量。关系是成对对象之间的,因此直接编码成对对象的词嵌入,而不是分别编码然后组合。因此,获得了文本上下文,通过这种方式,相同主体和对象的对象对在投影的文本空间中被编码为相同的嵌入,限制了过度和无用的多样性。
与GTS并行,对象级上下文和关系级上下文由RCE获得。第i个提议的外观特征ai、词嵌入ti和边界框坐标pi被统一编码为RNNs或GNNs。对象级上下文表示为xi,关系级上下文表示为x'i,由成对对象组合而成x'ij,如下所示:
其中ObjEnc()和RelEnc()是现成方法的对象级和关系级上下文编码模块,Wb是可学习的权重矩阵,FC表示全连接层。
随后,增强的联合特征u'ij、文本上下文t'ij和关系上下文x'ij通过三重融合模块融合,得到丰富和鲁棒的关系表示zij。

D. 异构语义一致性模块

类型1过程和类型2过程并不是相互孤立的。在Evans和Stanovich的观点中,类型1过程被假定为产生默认响应,除非被类型2过程干预,需要一个联想过程来平衡这两种响应。这里提出了HSC模块作为联想过程,以跨模态对齐作为规则。如果对齐精确,则该过程将表现良好。因此,HSC旨在使关系表示zij(视觉语义)与谓词文本表示(文本语义)保持一致。通过这种方式,填补了不同模态之间的差距。
在之前的工作中[30]、[55],关系表示zij直接用于谓词分类,但这种单一预测分布很难处理场景的歧义。我们的HSC是一种轻量级对齐方法,可以作为即插即用模块部署在现成的SGG方法中。每个谓词的目标文本语义表示是通过预训练的词嵌入权重获得的,这里选择了流行的Glove。具体来说,多于一个词的谓词的文本嵌入是通过加权因子计算的。详细描述见第五节B。
HSC的整个过程可以用概率方式建模如下:
其中Y表示联合决定预测分布的分支数量,fy表示实现第y个分支的神经网络,S表示主体,O表示对象,是第i个提议的标签,是第i个提议和第j个提议之间预测的谓词。这里选择Y为3以生成概率分布,具体实现如下。

首先,如图6所示的紫色箭头线,zij通过视觉到文本投影层(V2T)投影,这是一个全连接层,从视觉转移到文本语义空间。这个分支旨在计算zij和rk之间的相似性,如下所示:
$$S(z_{ij}, r_k) = \frac{}{||FC(z_{ij})|| \cdot ||r_k||} $$

对于这个分支,引入了一个额外的异构语义损失Lhs,以鼓励关系表示接近相应的文本表示:

其中τ是温度参数,是真实的谓词标签,M是关系的数量。

其次,如图6所示的绿色箭头线,zij用于单独计算分支2的输出分布,这强调了视觉线索的重要性。We是用于压缩维度的可学习矩阵。

第三,如图6所示的橙色箭头线,freqij是分支3的输出,它表示由主体和对象标签确定的先验分布:

如(18)所示,这三个分支的输出被相加。通过考虑场景的多种可能解释,缓解了场景理解中的歧义。总损失如下:

其中Lcls_obj和Lcls_rel分别是对象分类和谓词分类的交叉熵损失。Lhs被引入总损失,控制因子为γ。关于γ的详细讨论在第五节D中展示。

V. 实验

在本节中,我们在Visual Genome、GQA和PSG数据集上进行了一系列实验,以评估我们提出的方法的有效性。实验设置、结果比较、消融研究、可视化和讨论如下。

A. 实验设置

  1. 数据集:我们在三个数据集上进行实验:Visual Genome (VG) [4]、GQA [17]和PSG [18]。VG是SGG中最流行的数据集,提供了108 K图像和2.3 M关系实例,包含150个对象类别和50个谓词类别。按照之前的工作[27]、[28]、[56],VG被分为三部分:70%训练图像,30%测试图像和5,000验证图像。GQA是另一个视觉-语言数据集,其中每个图像都标注了密集的场景图。GQA由113 K图像组成,有3.8 M关系实例,包含200个对象类别和100个谓词类别。GQA遵循与VG相同的划分。PSG由49 K来自COCO和VG的重叠图像组成,包含133个类别(80个实体类别和53个背景类别)和56个谓词类别。PSG也存在长尾偏差,但这种偏差比VG要小。

  2. 任务:我们使用三个流行的子任务来评估生成场景图的质量:(1) 谓词分类(PredCls)仅在给定真实对象标签和边界框的情况下预测所有成对对象的谓词。(2) 场景图分类(SGCls)在给定真实边界框的情况下预测对象标签和谓词。(3) 场景图检测(SGDet)检测对象及其标签和边界框,以及成对对象之间的谓词。

  3. 指标:除了传统的指标Recall@K (R@K),这里还选择了平均Recall@K (mR@K)来特别评估无偏见SGG的性能。mR@K由Tang等人[34]和Chen等人[57]提出,是R@K的所有谓词的平均结果。由于长尾偏差,方法在头部谓词上通常表现良好,R@K很高,造成了虚假繁荣。这些场景图由带有琐碎谓词的常见三元组组成,如“on”、“in”、“of”等。mR@K用于迫使每个谓词被平等对待,而不是偏好训练样本更多的头部谓词。许多最近的工作[58]、[59]表明,当mR@K增加时,R@K会减少,一些方法显著损害头部性能,这也不是我们希望看到的。为了平衡这两个指标,我们使用另一个指标F@K [11]来共同评估它们,它是R@K和mR@K的调和平均值。

B. 实现细节

按照[9]的实现,对于VG和GQA,使用预训练的Faster RCNN作为对象检测器,ResNeXt-101-FPN作为骨干网络。在训练期间,该对象检测器是冻结的。应用SGD优化器,初始学习率为1e-3,使用动量为0.9。批量大小设置为8,与许多先前的工作相同,每个模型训练60,000次迭代。我们还采用了[56]中的类似群体协作学习策略,以在头部和尾部类别之间进行权衡,这在HSC中使用。具体来说,在HSC中,三个分支的输出分布被计算并相加,使用上述策略。在HSC中,每个词在谓词中的加权因子定义为基于观察,承担更多语义意义的核心词往往出现在第一个或中间,并应被赋予更大的权重。我们引入了一个超参数λ来表示这些因子。对于两个词的谓词,第一个词和第二个词分别被赋予λ和1-λ的权重,而对于三个词的谓词,则分别赋予(1-λ)/2、λ、(1-λ)/2的权重。例如,对于λ=0.7的两个词的谓词,第一个词和第二个词的权重分别被赋予0.7和0.3。对于四个词的谓词,所有词的权重均为0.25。这里我们默认选择λ=0.7。关于λ的详细消融研究在第五节D中展示。表示“背景”的谓词,即表示成对对象之间没有关系,用高斯分布N(0, 1)初始化。对于PSG,使用经典的Panoptic FPN [81]作为预训练的泛视觉分割模型,它提取初始对象特征。每个模型训练12个周期,其他超参数与VG和GQA中的相同。所有实验都在NVIDIA GeFroce RTX 3090 GPU上进行。

C. 与最先进方法的比较

为了全面评估我们方法的性能,我们在VG、GQA和PSG数据集上与各种最先进方法进行了比较。实验分析如下。

  1. 如表I所示,被比较的方法可以分为两类:特定方法和模型不可知方法。通常,模型不可知方法比特定方法表现更好,因为它们根据预定义条件改变数据分布。我们提出的VTSCN是一种模型不可知方法,在PredCls和SGCls设置中取得了最佳性能。详细分析如下:

我们提出的方法在三个基线方法:VTransE [25]、MOTIFS [33]和VCTree [34]中部署,以评估其泛化性。实验结果表明,我们的方法适应于不同的现成模型。

与相应的基线相比,我们提出的方法在这三个子任务中都取得了显著的改进。VCTree-VTSCN在PredCls和SGCls中表现最佳,MOTIFS-VTSCN在PredCls和SGDet中表现第二好。这证明了双重过程理论的有效性,并且有助于协作考虑分类和推理来处理长尾问题。

  1. 如表II所示,我们的方法与其他SOTA即插即用方法在VG数据集上进行了更全面的比较。我们的VTSCN在mR@K和F@K上取得了有竞争力的性能,同时保持了R@K。不是在HSC模块中硬编码分支的权重为1,引入了一个可学习的因子C来平衡第一和第二分支的分布。具体来说,第一分支的权重为1-sigmoid(C),sigmoid(C)用于第二分支。改进的方法用†表示,在R@K和F@K上表现更好,但在mR@K上稍差。分析如下。

当R@K很高时,mR@K很低,反之亦然,这是正常现象。原因是语义重叠,即相同的语义可以用多个谓词表达。例如,也可以表示为。两种表达都是正确的,但前者更有信息量,后者更常见。为了预测更有信息量的三元组,方法将头部常见谓词细分为细粒度的谓词,损害了R@K。因此,很难同时平衡这两个指标并同时达到最高。

按照Zhang等人[11]的工作,引入了F@K来平衡mR@K和R@K。与简单的算术平均值容易受到极端数据的影响不同,调和平均值能更好地反映平衡。如果mR@K和R@K之间的差异很大,F@K将会很低。对于SGDet,我们的VTSCN在F@K上低于PCL,这是由于R@K较低造成的。由于上述的语义重叠,头部类别和尾部类别的边界是模糊的。尾部类别的一个正确三元组导致许多头部类别的错误三元组,导致R@K大幅下降。VTSCN†引入了自适应因子,使分类边界更加灵活,减轻了语义重叠的负面影响,保持了mR@K的竞争力,并显著提高了R@K。结果表明,我们的方法不仅缓解了长尾偏差,还保持了头部性能。它证明了我们的方法不会过度拟合尾部谓词,这将引入另一种偏差。

由于各种实验结果,每一行的不同场景的平均值显示在Mean列中。我们的方法仅在VCTree-PCL上这个指标上稍低,它依赖于类别平衡损失[84],对数据集变化敏感。根据PCL的实验结果报告,当在VrR-VG[85]数据集上使用时,改进是有限的。

  1. 如表III所示,我们的方法在SGDet设置中的身体和尾部谓词上取得了SOTA性能。更重要的是,我们的方法在尾部谓词上比以前的方法提高了一大截。类别组与Liu等人的[6]、[68]工作相同。对于平均指标,我们的方法取得了最佳,显示了长尾谓词类别之间的权衡。

  2. 如表IV所示,在GQA数据集上进行了实验。我们的方法不仅在VG数据集上取得了mR@K的最佳性能,而且在GQA数据集上也取得了最佳,这验证了我们方法的数据集不可知性。在F@K上,我们的方法仅低于Inf的PredCls和SGCls,它采用了现成的基于嵌入的样本增强策略[86]并扩展了数据集,导致了高R@K和平均结果。Inf也对数据集变化敏感。在VG数据集上,我们的方法在MOTIFS和VCTree上部署时,mR@K、F@K和平均结果超过了Inf。在GQA数据集上,对于最困难的子任务SGDet,我们的方法在mR@K和F@K上表现最佳。

  3. 如表V所示,在PSG数据集上进行了实验。按照之前的工作[18],没有评估SGCls。PSGTR和PSGFormer的mR@Ks高于我们的方法,这可能是因为Transformer中的交叉注意力机制使每个三元组查询能够访问整个图像的信息。PSGFormer在R@Ks上损害了性能,PSGTR难以收敛,在12个周期内只取得了一位数的召回分数,并在延长训练时间到60个周期后取得了SOTA结果。

我们的方法可以以即插即用的方式部署,并在PredCls上取得了最好的mR@100和F@K。表V显示了我们方法在两个常用的基线网络上的优越性,即MOTIFS和VCTree。我们的方法在PredCls和SGDet的mR@100上分别平均提高了9.6%和15.0%。我们将在未来进一步提高我们的方法对SGDet的性能。

D. 消融研究

在VG数据集上进行了全面的消融研究,展示了我们提出方法中每个模块的性能。此外,还报告了HUR和HSC的更详细的消融研究。我们报告的所有实验结果都是基于MOTIFS-VTSCN的PredCls,分析如下:

我们的方法配备了GCL [56],因此表VI和VII中的基线结果是基于MOTIFS-GCL的,以保证公平。

  1. 如表VI所示,展示了每个模块的性能。当单独采用单个模块时,改进是有限的。只有当所有三个模块一起工作时,结果才最好。同时,我们注意到GLS很好地适应了其他两个模块。当与HUR一起使用时,GLS以较大的幅度提高了性能。

  2. 如表VII所示,我们探索了HUR中两个步骤的效果。快速无意识步骤用于增强空间感知,而没有工作记忆,慢逻辑步骤则有工作记忆。当单独实现时,每个步骤的贡献几乎相同。当两者都使用时,性能达到最佳,表明充分考虑双重过程模式的有效性。

  3. 如表VIII所示,我们实验了三种设置α和β的方法,GLS已部署。在第四节B中,α和β是快速无意识步骤和慢逻辑步骤的权重。实验结果表明,当它们被视为相等时,性能最佳,因此我们将α和β设置为超参数。注意力也用于融合这两个步骤的输出,但计算量大,SGCls和SGDet设置中出现了nan错误。

  4. 如表IX所示,我们探索了HUR中位移方案的有效性,所有模块都已部署。当不使用位移时,性能下降,这表明位移不仅在HUR的慢逻辑步骤中至关重要,而且也适合整个方法。

  5. 如表X所示,我们实验了用于计算每个谓词文本嵌入的超参数λ的四种不同设置。随着λ的增加,性能趋于增加然后减少。当λ=0.7时,最佳性能被实现,我们选择此设置进行最终实验。实验结果的变化幅度小,表明我们的方法对λ不敏感。

  6. 如图7所示,我们逐步应用了几个值来调查第四节D中提到的最合适的γ。这个实验是在所有三个模块部署的情况下进行的。我们注意到当γ过高时,它会损害整体性能,这表明过度鼓励HSC对齐是不恰当的。同时,低于1的低值不会显著影响结果,但会减慢模型的收敛速度。

E. 定性分析

在本节中,我们通过可视化和案例研究来定性分析所提出方法的有效性。

  1. 细粒度谓词的可视化:我们从三个方面展示了所提出VTSCN生成细粒度谓词的能力:

如图8所示,MOTIFS(左图)和MOTIFS-VTSCN(右图)在VG测试集上不同实体对的预测分数的混淆矩阵。在y轴上的标签是真实的,x轴上的标签是预测的。理想状态是在对角线上出现最暗的颜色。例如,对于“letter”和“sign”的配对对象,MOTIFS几乎将所有谓词预测为“on”,而我们的VTSCN倾向于生成更语义丰富的谓词,如“painted on”。对于“table”和“chair”的配对对象,MOTIFS不断预测模糊的位置谓词“near”,而我们的VTSCN将这个谓词细分为“between”和“behind”,以更精确地表示位置关系。VTSCN还抑制了缺乏语义的“has”的预测。

图9展示了MOTIFS和MOTIFS-VTSCN每个谓词类别的分类器权重的L2范数∥wi∥。MOTIFS更多地集中在头部谓词上,而我们的方法尽可能平等地对待所有谓词。

图10展示了对MOTIFS、MOTIFS-GCL和MOTIFS-VTSCN的预测分布进行了更全面的比较。这里不仅比较了基线MOTIFS的输出结果,还比较了配备了优秀去偏见方法GCL的MOTIFS。对于“on”这个谓词,我们的方法将其细分为各种细粒度谓词,如“mounted on”、“sitting on”、“growing on”、“painted on”等。与GCL相比,我们的方法适度限制了这种多样性,这也证明了我们的方法保持了头部性能。得益于HSC模块,类似语义的谓词趋于一致,如第二行中的“wearing”与“wears”。由于长尾偏差,基线MOTIFS仅用更多的样本做出“wearing”的预测。我们的VTSCN和GCL都预测了这两个谓词,但在VTSCN中,这两个语义相似谓词的比例比GCL更接近。第三行中的“near”与“in front of”也是如此。对于VTSCN,这些语义相似谓词的预测比例比GCL更接近。

  1. R@k的可视化:图11(a)展示了VG数据集的高倾斜长尾偏差。所有谓词被分为头部、身体和尾部类别。如先前的工作[56]、[74]、[75],报告了每个谓词的R@100,如图11(b)所示。由于长尾偏差,MOTIFS的预测也呈现出长尾分布。部署了我们的方法后,许多身体和尾部性能得到了显著提升,从原来的尴尬0提升至更高的召回率。例如,样本数量最少的谓词之一“playing”,我们的方法在R@100上实现了46.21%的召回率,从0开始。同时,部署了我们的方法后,头部性能有所下降,这是一个普遍现象。随着尾部性能的提升,我们的方法尽可能多地保持了头部性能。

  2. 图像的可视化:图12展示了VG数据集中由MOTIFS(第二列)和我们的MOTIFS-VTSCN(第三列)生成的场景图。对于缺乏丰富语义的谓词,我们的方法将其细分为更信息丰富的谓词,例如“logo-on-train-1”与“long painted on-train-1”在第一行,“people-on-boat”与“people-standing on-boat”在第二行,“bird-on-pole”与“bird-sitting on-pole”在第三行。同时,对于表示位置关系的谓词,我们的方法将其细化为特定谓词,例如第一行中的“building-near-train-1”与“building-behind-train-1”,以及第二行中的“boat near-building”与“boat in front of-building”,这表明我们的方法有效地缓解了长尾偏差。

  3. 复杂性的可视化:图13比较了MOTIFS-VTSCN与MOTIFS、MOTIFS-GCL和SHA-GCL在相同服务器上的复杂性,该服务器配备了NVIDIA GeForce RTX 3090 GPU。所有实验都在VG数据集上进行PredCls,使用了相同的超参数。左侧展示了每种方法的可训练参数,右侧展示了在测试集上每张图像的平均推理时间。与MOTIFS-GCL和SHA-GCL相比,我们VTSCN的可训练参数分别增加了18.07%和7.54%。这是由于在HUR中使用了修改的变换器进行慢逻辑步骤,以及在GTS中使用了变换器,这些是不可避免的。另一方面,尽管推理时间比MOTIFS-GCL有所增加,但它比SHA-GCL低19.37%。这是因为SHA-GCL中多层堆叠的混合变换器比我们在VTSCN中使用的变换器深得多,并且不同变换器层之间的串行计算大大减慢了SHA-GCL的推理时间。

F. 优势和局限性

实验结果验证了我们VTSCN的有效性,表明将人类认知模式引入SGG任务是必要的。这里采用了双重过程理论,帮助我们的方法在不同的子任务和数据集上取得了最佳性能。通过模仿人类理解场景的方式,我们的VTSCN是鲁棒的,且与数据集无关。它与当前的无偏见方法不同,不再遵循将SGG建模为分类任务的传统做法。通过协作应用分类和推理,提出了一种新的场景图模型设计方式。此外,通过引入自适应因子,分类边界更加灵活,以处理语义重叠。

像大多数无偏见的SGG方法一样,我们方法的一个局限性是mR@K和R@K不能在所有场景中同时提高。换句话说,提高mR@Ks会牺牲R@Ks的性能。我们尽力保持R@Ks的性能,但是R@Ks的下降是不可避免的。另一方面,对于PSG数据集,我们方法在SGDet上的性能不是最好的。这可能是因为简单的RNNs不足以编码整个图像的全局信息。

G. 未来方向

尽管随着mR@Ks的提高,R@Ks会下降,我们发现在某些场景中,例如MOTIFS-VTSCN和VCTree-VTSCN在SGCls中,mR@Ks和R@Ks可以同时提高,这是一个好的迹象。将人类认识世界的方式引入SGG可能是处理提升的不平衡问题的有希望的方向。此外,这是一种通用方法,不仅适用于SGG,还适用于各种跨模态理解任务,如视觉推理、视觉问题回答和图像描述。人工智能的本质是模仿人类的思维方式,因此认知心理学可能是一个很好的指导,使建模过程更具可解释性和合理性。

最近,Xiao等人[87]已经定位了从输入感官信号中过滤掉不重要信息的生理结构,并证明了通过两种功能相反的神经元的活动来区分感官值是可能的。随着认知科学的发展,本文提出的SGG建模方式可以进一步发展和完善。例如,我们尝试基于人脑的生理结构,以更低层次的认知方式对场景理解过程进行建模。

VI. 结论

在这项工作中,提出了一种视觉-文本语义一致性网络(VTSCN),明确地基于双重过程理论对人类推理过程进行建模。作为类型1过程,提出了一个混合联合表示模块,用于增强空间感知和工作记忆编码。作为类型2过程,提出了一个全局文本语义建模模块,将概念级知识与视觉输入解耦,并单独编码文本上下文。最后,作为联想过程,选择跨模态对齐作为规则,并提出了一个异构语义一致性模块来模拟这一过程,它计算关系表示和谓词文本表示之间的相似性作为可能的解释,缓解了场景的歧义。提出的方法以即插即用的方式部署,实验结果表明在不同的子任务和数据集之间具有泛化性。我们的方法不仅提高了mR@K,还保持了R@K。我们的方法在身体和尾部性能上也优于最先进水平。在未来,我们尝试基于人类生理结构以更低层次的认知方式进一步对SGG任务进行建模,目标是生成更细粒度的场景图。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


(z_{ij}),>

PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章