TPAMI 2024 | 将神经符号推理与变分因果推理网络相结合,实现解释性视觉问答

文摘   2024-11-21 19:01   中国香港  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:Integrating Neural-Symbolic Reasoning With Variational Causal Inference Network for Explanatory Visual Question Answering

将神经符号推理与变分因果推理网络相结合,实现解释性视觉问答

作者:Dizhan Xue; Shengsheng Qian; Changsheng Xu

论文创新点

  • 1 神经符号推理与变分因果推断的整合:文章提出了一种名为程序引导的变分因果推断网络(Pro-VCIN)的方法,该方法整合了神经符号推理的过程可解释性和解释性视觉问答(EVQA)的结果可解释性。这种方法通过将推理过程转换为符号框架,并利用变分因果推断来构建预测答案和解释之间的因果关系,提高了模型的可解释性和可信度。
  • 2 多模态程序Transformer的设计:为了将程序转换为相应的解释,文章设计了一种多模态程序Transformer。这个模型能够编码程序模块的执行特征,并解码为多模态解释,包括灵活地生成视觉和文本标记,从而提高了解释的质量和可解释性。
  • 3 变分因果推断的提出:为了增强预测答案和解释之间的一致性,文章提出了一种新颖的变分因果推断方法,用于在推理过程中建立从解释到答案的因果关系。这种方法通过将目标结构因果模型(SCM)转换为深度变分推断框架,增强了模型的鲁棒性和有效性。
  • 4 全面性能的提升:通过在EVQA基准数据集上的广泛实验,文章证明了Pro-VCIN在回答准确率、解释质量和答案-解释一致性方面均优于现有的最先进方法。这表明了所提出方法在提高推理结果的质量和一致性方面的显著性能提升。

摘要

最近,一种名为解释性视觉问答(EVQA)的新型多模态推理任务被引入,它结合了回答视觉问题和多模态解释生成,以阐述底层的推理过程。与传统的视觉问答(VQA)仅关注提供答案不同,EVQA旨在通过提供用户友好的解释来提高推理的可解释性和可验证性。尽管推断结果的可解释性有所提高,但现有的EVQA模型仍然采用黑盒神经网络来推断结果,缺乏推理过程的可解释性。此外,现有的EVQA模型通常独立预测答案和解释,忽视了它们之间固有的因果关系。为了应对这些挑战,我们提出了一种程序引导的变分因果推断网络(Pro-VCIN),它将神经符号推理与变分因果推断相结合,并构建预测答案和解释之间的因果关系。首先,我们利用预训练模型提取视觉特征并将问题转换为相应的程序。其次,我们提出了一种多模态程序Transformer,将程序和相关视觉特征转换为推理过程的连贯合理解释。最后,我们提出了一种变分因果推断,构建目标结构因果模型,并基于解释的因果关系预测答案。在EVQA基准数据集上进行的全面实验表明,Pro-VCIN在性能和可解释性方面都优于现有的EVQA方法。

关键字

  • 解释性视觉问答
  • 神经符号推理
  • 因果推断
  • 变分推断
  • 可解释人工智能
  • 视觉与语言

I. 引言

多模态推理是人类的一项重要认知能力,也是人工智能的基础挑战。尽管深度神经网络(DNN)在多种多模态推理任务中表现出色,但现有方法通常预测推理结果而不阐述底层原理。这一局限性显著限制了它们的应用,特别是在医疗、交通和金融等安全敏感场景中。因此,可解释人工智能(XAI)近年来受到了越来越多的关注。神经符号推理旨在通过将推理过程转换为符号框架来提高基于深度学习的模型的可解释性。例如,神经模块网络利用神经网络将输入问题转换为程序,随后执行这些程序来推断答案。尽管程序的执行过程可以为推理过程提供解释(我们称之为过程可解释性),但它们对普通用户来说不易理解。
最近,解释性视觉问答(EVQA)扩展了VQA,要求提供用户友好的、基于自然语言的多模态解释。虽然生成的解释直观易懂(我们称之为结果可解释性),但模型的推理过程仍然是不可解释的。正如图1所示,我们的目标是整合神经符号VQA的过程可解释性和解释性VQA的结果可解释性,构建一个更可解释的模型。现有的神经符号VQA方法只关注预测输入视觉问题的答案,忽略了生成用户友好解释的任务。然而,由于EVQA要求生成的解释来解释推理过程,将程序的中间执行特征转换为相应的解释似乎是一个有吸引力的解决方案。正如图2所示,图1中的程序可以逐步转换为图1中的解释。虽然程序可以被程序员理解,但多模态解释对普通用户来说更友好、更易于理解。此外,现有的EVQA方法输入融合的多模态特征到基于LSTM的解释生成器中,无法捕捉问题、图像和解释之间的细粒度关系。因此,这样的解释生成器可能是次优的,并可能生成不准确的解释。因此,我们旨在解决挑战1:如何在神经符号框架中将程序员友好的程序转换为用户友好且准确的多模态解释?
为了开发一个可信的XAI模型,保持预测答案和相应解释之间的一致性至关重要。然而,现有的EVQA方法独立预测答案和解释,基于多模态输入。这些方法忽略了两个输出之间的固有一致性关系,可能导致推断结果不一致。正如图3所示,最新的EVQA方法REX预测答案是“微波炉”,但在本例中将相应对象解释为“电话”。这种矛盾的结果在实际应用中是不可接受的,并且可能对底层推理模型的可信度产生负面影响。除了定性分析外,我们还计算了REX在GQA-REX数据集上推断结果的一致性得分(见第5.2节),得出的得分为74.69%,明显低于100%的理想得分。这些分析揭示了当前模型中答案和解释一致性的显著缺陷。因此,我们需要解决挑战2:如何构建预测答案和解释之间的一致性关系,以增强推理模型的可信度?
受上述观察的启发,我们提出了一种程序引导的变分因果推断网络(Pro-VCIN),以增强EVQA的推理结果的可解释性、质量和一致性。对于挑战1,我们设计了一种多模态程序Transformer,将程序和相关视觉特征转换为推理过程的合理且连贯的解释。在视觉程序编码器中,我们使用图Transformer执行问题程序,并学习程序模块的执行特征,同时融合视觉区域的信息。在多模态解释解码器中,我们设计了一种多模态门控Transformer,根据程序模块特征解码多模态解释,它可以灵活地生成单词标记和视觉标记以形成多模态解释。对于挑战2,我们提出了一种变分因果推断,以在推理过程中建立从解释到答案的因果关系,显著提高推断结果的答案和解释之间的一致性。与计算机视觉和自然语言处理中主要关注减轻偏差依赖的传统因果学习方法不同,我们的目标是在EVQA的结构因果模型(SCM)中建立被忽视的因果关系。由于测试期间没有可用的地面真实解释,我们将SCM转换为深度变分推断,以增强推断的鲁棒性和有效性。在基准数据集上的全面实验表明,与最新模型相比,提出的方法在推理结果的质量和一致性方面都有显著的性能提升。我们工作的初步版本已在2023年国际计算机视觉会议的论文集中发表。本文的扩展主要包括:(1)虽然初步版本只关注EVQA任务,但本文的一个主要动机是整合神经符号VQA的过程可解释性和解释性VQA(EVQA)的结果可解释性。我们希望这两个领域在可解释VQA中的结合将促进具有更高解释性水平的模型的发展。(2)在方法上,我们完全重新设计了解释生成器。我们在这一版本中引入了神经符号推理的概念,并提出了一种多模态程序Transformer,以基于执行程序生成连贯合理的解释。(3)我们更新了实验结果,并进行了额外的实验,以进一步调查我们修改模型的有效性,包括对因果效应、神经符号推理和超参数的更多分析。(4)在第2节中提供了关于神经符号视觉问答、解释性视觉问答和因果推断的相关工作的更全面回顾。(5)我们的代码和修改框架的资源是开放的,以促进其他研究人员使用。总之,本文的贡献可以列举如下:
  • 我们提出了一种程序引导的变分因果推断网络(Pro-VCIN),通过设计多模态程序Transformer和通过深度变分推断构建目标SCM,以提高解释性视觉问答(EVQA)的推理结果的可解释性、质量和可信度。
  • 我们设计了一种多模态程序Transformer,将程序和相关视觉特征转换为推理过程的连贯合理解释。所提出的模型由视觉程序编码器组成,用于编码程序模块,以及多模态解释解码器,用于解码多模态解释,它可以灵活地在解释中生成视觉和文本标记。
  • 我们提出了一种新的变分因果推断,以在推理过程中建立从解释到答案的因果关系,显著提高推断结果的答案和解释之间的一致性。特别是,我们将目标SCM转换为深度变分推断,以增强鲁棒性和有效性。
  • 在EVQA基准数据集上进行的广泛实验表明,所提出的方法在推理结果的质量和一致性方面显著优于最新模型。

3 问题定义

我们首先介绍本文中使用的符号。给定一个由m个单词组成的问题和相关的图像,EVQA的目标是预测答案并生成多模态解释来解释背后的推理过程。通常从给定的答案集中分类出K个可能的答案。是n个标记的解释,其中是第i个标记,它要么是预定义词汇中的一个词,要么是指向视觉区域的视觉标记。真实答案和解释分别表示为。EVQA任务要求构建一个多模态推理模型,该模型可以预测视觉问题的答案,同时生成推理过程的解释,实现可解释和可信的多模态推理。

4 方法论

4.1 EVQA的因果视角

首先,我们旨在批判性地审视传统EVQA方法的局限性,然后提出我们的解决方案,采用因果视角。图4中展示了为各种方法抽象出的结构因果模型(SCMs)。传统模型。如图4(a)所示,传统的EVQA方法使用输入问题和图像来提取多模态内容特征,然后用于独立预测解释和答案。这些方法仅最大化边际似然。然而,它们忽略了之间的一致性,这可以通过联合似然来表示。因此,传统方法通常导致不一致的解释和答案。理想模型。如图4(b)所示,在理想情况下,目标是最大化预测答案的准确性,同时确保其依赖于真实解释。这可以通过优化联合似然来实现,其中表示真实解释。特别地,在理想模型中,我们假设是观察到的,即是一个狄拉克δ分布。联合模型。然而,由于测试中没有,我们提出了图4(c)中的近似模型。该模型最大化预测解释和答案的联合似然。尽管如此,在测试中生成与完全相同的真实解释,即,是经验上具有挑战性的。因此,仅仅最大化可能会在测试中妥协有效性和鲁棒性,其中是未知的,只有生成的解释是可用的。我们的模型。如图4(d)所示,为了减轻训练中使用的和测试中使用的之间的分布偏差的影响,我们在SCM中引入了一条前门路径,其中被定义为一个鲁棒的解释特征。为了增强鲁棒性,被假设遵循一个高斯分布,表示为,其中都是依赖于的df维向量。此外,我们的模型最小化了Kullback-Leibler (KL)散度,以减轻之间的分布偏差。

4.2 变分因果推断

我们在本节中推导出所提出的因果模型的优化损失。我们的SCM和理想SCM的分布分别表示为。特别地,解释特征被引入到理想SCM中,类似于图4中的我们的SCM。为了优化我们的SCM,第一个目标是最大化推断真实答案的边际概率,同时构建从解释到答案的因果关系。因此,我们转向最大化给定解释特征的证据下界(ELBO)如下:
其中我们使用以下引理:
因为是满足的狄拉克δ分布。然而,在方程1中,由于计算的指数复杂性以及缺乏显式的算法来采样,我们提出使用对应于测试场景的近似,其中是生成的解释。总之,我们可以得到我们的变分因果推断损失如下:
其中我们表示和df是的维度。除了第一个目标是最大化边际似然以准确预测答案外,我们的第二个目标是最大化真实解释的生成概率如下:
通过优化,我们可以有效地构建图4(d)中的我们的SCM,以预测准确答案和生成合理解释,同时建模从解释到答案的因果关系。接下来,我们将介绍实现所提出的SCM的具体推理模型,其框架在图5中展示。

4.3 多模态内容编码器

为了实现提出的SCM中的路径并提取,我们设计了一个多模态内容编码器,主要包括一个视觉编码器和一个视觉程序编码器。

4.3.1 视觉编码器

我们遵循REX,使用预训练的Faster R-CNN提取图像的36个视觉对象,其中是感兴趣区域(ROI)特征,是第i个对象的位置向量。为了进一步增强视觉特征,我们采用视觉-语言预训练模型(VLPM)(例如,VisualBert和LXMERT),因为它们在产生视觉和语言的联合表示方面表现出色。我们将所有视觉对象和问题输入到VLPM以获得融合后的视觉特征:
其中我们实验中采用LXMERT作为VLPM,是36个图像区域的视觉特征。通常,VLPM可以输出视觉特征和问题特征,但我们的方法中仅采用输出的视觉特征。

4.3.2 视觉程序编码器

参考[18]、[19],我们首先将输入问题通过一个Transformer转换成程序。这里,我们使用程序的图表示,,与邻接矩阵,其中是程序模块的数量,是第个程序模块,当且仅当的父模块(意味着的输出值是的输入值)或。所提出的视觉效果程序编码器旨在执行转换后的程序并编码程序的执行特征。我们利用程序的图结构和语义来学习程序模块特征,如图6所示。记中的词,包括函数名和函数参数,其中是模块中词的最大数量(如果短于,则添加填充词)。我们通过所有词嵌入的连接和线性层初始化程序模块嵌入:
其中表示向量连接,是300维的嵌入层,是线性层的可学习参数矩阵。记,我们基于程序图和视觉信息计算执行特征。第层程序图基础的Transformer层可以形式化为:
其中是Transformer层中的查询矩阵、键矩阵、值矩阵,是可学习的参数矩阵。遮蔽注意力,使得,以便注意力仅在程序图的有向边上构建。是第层规范化[72],是第个2层MLP[73]。由于程序的执行依赖于视觉信息,我们通过多头注意力层将视觉特征融合到程序中。第层交叉模态注意力层可以形式化为:
其中是第个多头注意力层[51]。我们的视觉程序Transformer由层组成。我们记程序的输出执行特征为,它包含了输入问题和与问题相关的图像的全面信息。所获得的多模态内容特征是

4.4 多模态解释解码器

所提出的多模态解释解码器旨在将多模态内容特征转换为多模态解释,实现我们的SCM中的路径。与基于LSTM[74]设计解释生成器的现有方法不同,我们的多模态解释解码器基于Transformer[51]。尽管传统的生成性Transformer通常输出单模态标记,我们开发了一个模型,可以灵活地生成视觉和文本标记。具体来说,第个视觉对象用标记#j表示。在生成解释的第个标记时,我们首先获得之前生成的标记的标记嵌入:
其中是词嵌入函数。记,我们通过层Transformer融合程序的执行特征:
其中是第个自注意力Transformer层,是第个多头注意力层[51]。多模态门控网络。受[75]启发,我们使用门控网络来决定在第步生成词标记还是视觉标记:
其中是可学习的矩阵,是GELU函数[76],是层规范化函数[72]。然后我们使用MLP来预测词汇表中的词,并使用视觉对象特征来预测视觉区域编号:
其中是两个线性层的可学习参数,是第层Transformer的第个标记的输出特征,是词汇表的大小。通过使用门控函数合并两个概率向量,我们得到最终的标记概率:
其中表示向量连接。在推理过程中,第个标记通过选择最高生成概率的标记来生成,即

4.5 多模态解释编码器

为了实现所提出的SCM中的路径并编码一个鲁棒的解释特征,我们首先在解释的开始处插入一个[CLS]标记,并采用Transformer来学习上下文特征如下:
其中我们重用方程9中的嵌入函数,解释的长度表示为表示一个2层Transformer[51]。回顾我们假设鲁棒解释特征,高斯参数计算如下:
其中是一个2层MLP[73],是[CLS]的上下文特征。

4.6 答案分类器

为了实现SCM中的路径并预测答案,我们使用解释特征和程序返回模块(例如,图5中的程序模块And)的执行特征,并计算如下:
其中是连接函数,是一个可学习的矩阵,是所有可能答案的数量。在测试中,为了避免采样偏差和不确定的结果,我们通过应用归一化加权几何平均数(NWGM)近似来计算的期望值以预测答案:
其中是预测的解释。

4.7 优化

我们通过优化方程3和4中提出的损失来训练我们的模型如下:
其中是真实答案,是第步的真实门控值,是第个真实解释标记,我们使用蒙特卡洛(MC)估计来近似期望如下:
其中包含个独立同分布样本。特别地,旨在最大化解释标记和门控值的生成概率。

5 实验

在本文中,我们研究了解释性视觉问答(EVQA)任务,并进行了广泛的实验来验证所提出的Pro-VCIN的优越性。

5.1 数据集

我们采用了最近引入的GQA-REX数据集,该数据集基于广泛采用的GQA数据集,通过注释推理过程的多模态解释来构建。具体来说,GQA-REX基于GQA的平衡训练集、平衡验证集和标准测试集。我们注意到GQA-REX中的视觉问题和答案与原始GQA数据集中的没有修改。此外,我们还在GQA-OOD数据集上进行了实验,这是一个最近引入的包含分布外数据的数据集。

5.2 基线方法和评估指标

为了评估所提出的Pro-VCIN方法在EVQA中的有效性,我们与三个现有的基线方法进行了比较。VQAE采用基于LSTM的语言模型来生成解释,并同时学习问答。EXP使用注意力机制将图像特征整合到基于LSTM的解释生成器中。REX是最新的方法,它使用融合输入特征和基于LSTM的解释生成器。原始的REX(记作REX-VisualBert)采用VisualBert作为其主干。为了与我们的Pro-VCIN进行公平比较,我们也采用了REX的一个变体(记作REX-LXMERT),它使用LXMERT作为其主干。此外,VCIN是我们初步工作中提出的方法,它没有整合神经符号推理。按照Chen和Zhao的评估标准,我们评估了模型在视觉问答和多模态解释生成方面的性能。对于视觉问答的评估,我们计算了验证集和测试集上预测答案的准确率。为了评估生成的多模态解释的质量,我们首先采用了五个语言指标,即BLEU-4、METEOR、ROUGE-L、CIDEr和SPICE。还采用了Grounding指标来评估正确定位生成解释中视觉区域的能力,通过计算交并比(IoU)得分。此外,为了评估预测答案和解释之间的一致性,我们采用了一致性(Con.)指标来计算包含相应答案的解释的比率。为了与人类判断一致,我们还进行了人类评估。我们设计了两个评估标准,即视觉一致性(Vis.)和文本一致性(Tex.),以评估解释中生成的视觉或文本标记与预测答案之间的一致性。实施了五个等级的评分系统,最高等级为5,最低等级为1。为确保公正性,随机选择了500个验证样本,并聘请了三名专业注释者进行盲评估。由于测试集中没有注释的解释,我们对生成的解释的评估仅在GQA-REX验证集上进行。

5.3 实施细节

我们采用BERT Adam优化器来优化Pro-VCIN。小批量大小为256,所有可训练参数的初始学习率为2e-5。为了减轻过拟合,我们以1.0的最大梯度范数进行梯度裁剪。对于将问题转换为程序,我们使用官方代码训练程序Transformer,因为它已经能够实现非常高的准确性(我们训练的Transformer的98%)。输出程序模块中词的长度为8。隐藏单元的维度均设为768。所有注意力层都采用多头技巧,头数为4。所有注意力层的dropout率设为0.1以进行正则化。我们将视觉程序编码器和多模态解释解码器的层数分别设为6和4。解释的最大长度设为18。MC采样数量设为4。整个模型用Pytorch实现,并在两个RTX 3090 GPU上训练。

5.4 结果和讨论

在GQA-REX和GQA-OOD上的自动和人类评估指标的结果如表1-2所示。这些结果可以从以下方面证明我们提出的Pro-VCIN的有效性:(1) Pro-VCIN在解释质量方面显著优于基线。与REX-LXMERT相比,Pro-VCIN相对提高了BLEU-4、METEOR、ROUGE-L、CIDEr、SPICE和Grounding分别为9.9%、8.8%、4.3%、13.6%、10.9%和11.1%。这些结果表明我们的多模态程序Transformer可以利用视觉区域、程序模块和解释标记之间的关系,在神经符号框架内提高解释生成的质量和可解释性。
(2) Pro-VCIN在回答准确率方面显著优于基线。与REX-LXMERT相比,尽管构建在相同的主干上,Pro-VCIN在GQA-val、GQA-test、OOD-val和OOD-test上提高了回答准确率分别为4.34%、2.97%、4.06%和3.02%。这些结果表明所提出的变分因果推断可以从生成的解释中提取语义信息,并基于对解释的依赖预测更准确的答案。
(3) 如表2所示,人类评估和自动指标都表明,我们提出的Pro-VCIN在预测答案和解释之间的一致性方面有显著改进。我们的模型将Con.提高了9.28%,相对提高了Vis.和Tex分别为19.9%和13.8%,同时使用与REX-LXMERT相同的主干。结果验证了所提出的变分因果推断可以构建预测答案和解释之间的依赖关系,增强推理结果的一致性和可信度。
(4) Pro-VCIN在所有指标上也优于VCIN。与其初步版本相比,Pro-VCIN通过程序显式建模推理过程,并将程序执行特征解码为多模态解释。因此,所提出的多模态解释解码器能更好地捕获解释中的关键概念和复杂关系,提高解释生成和问答的有效性。

5.5 消融研究

为了评估所提出的组件,我们将完整的Pro-VCIN消融为以下变体:
  • VCIN-ANS去除了变分因果推断损失
  • VCIN-EXP去除了解释生成损失
  • VCIN-E2A去除了从解释到答案的因果关联,并采用答案预测
  • VCIN-RBF实现了图4(c)中的联合模型,去除了鲁棒解释特征
我们在GQA-REX上评估了这些变体的性能。为了进行公平比较,我们实现了与所提出的Pro-VCIN相同的优化过程。实验结果列于表3,从中我们可以得出以下结论:(1) VCIN-ANS的GQA-val(即回答准确率)和VCIN-EXP的BLEU-4、METEOR、CIDEr、Grounding(即解释质量)显著下降。这表明损失在学习问答和解释生成中是基础的。
(2) VCIN-ANS的解释质量和VCIN-EXP的回答准确率也略有下降。这表明多任务训练在解释生成和问答中可以提高模型的推理能力,并相互促进。
(3) VCIN-E2A的所有指标得分都有所下降,特别是在答案-解释一致性(Con.)方面。考虑到VCIN-E2A去除了解释和答案之间的因果关联,这些结果表明所提出的变分因果推断在建模因果关联和增强一致性方面的有效性。
(4) VCIN-RBF的指标得分,特别是GQA-val准确率有所下降。这可以归因于训练中使用的地面真实解释和测试中使用的生成解释之间的分布偏差。这些发现支持了通过所提出的鲁棒解释特征提高因果关联鲁棒性的观点。

5.6 解释生成中的关键属性

为了进一步评估在解释生成中识别关键视觉属性(即颜色、材质、运动、形状、姿态、大小、活动和关系)的能力,我们计算了它们在GQA-REX上的召回率,遵循Chen和Zhao的方法。表4表明,Pro-VCIN在解释生成中显著提高了与8种不同视觉技能相关的视觉属性的召回率。与REX-LXMERT相比,我们的模型提高了颜色、材质、运动、形状、姿态、大小、活动和关系的召回率分别为3.95%、19.92%、16.23%、18.82%、16.84%、8.25%、30.41%和52.19%。关系的改进尤为显著,我们将其归功于我们的程序图基础的多模态解释生成器,因为程序图明确地建模了问题中不同短语之间的关系。此外,程序图还明确地建模了对象及其相关的视觉属性,这也有助于提高其他视觉技能。这些发现进一步表明,所提出的Pro-VCIN在理解和利用各种视觉属性方面更为有效,从而产生更合理和连贯的解释。

5.7 因果效应分析

5.7.1 解释特征对答案的因果效应

为了进一步研究所提出的Pro-VCIN建模解释与答案之间的因果关系的能力,我们对GQA-REX验证集进行了因果效应分析。我们观察到在保持输入不变的情况下,手动干预解释后的答案的结果。图7展示了来自GQA-REX数据集的四个示例,展示了我们的Pro-VCIN如何根据干预的解释更新答案预测。例如,在图7(c)中,Pro-VCIN最初预测的解释是“这个人穿着毛衣”,并预测答案为“毛衣”。在我们将解释中的“毛衣”的词和视觉标记替换为“裤子”的词和视觉标记后,Pro-VCIN将答案更新为“裤子”,这展示了答案对解释的因果依赖关系。与此不同,之前的EVQA模型独立预测解释和答案,因此干预的解释无法影响它们的预测答案。这些结果表明,所提出的Pro-VCIN可以有效地建模从解释到答案的因果关联,从而允许推断出更可靠和一致的结果。

5.7.2 解释特征对答案的因果效应

我们还通过手动干预解释特征并随后观察答案的结果来分析解释特征对答案的因果效应。在图8中,我们选择了GQA-REX验证集中的4个困难样本,并用高斯噪声替换,我们可以观察到,当干预解释特征时,Pro-VCIN更新了答案预测。例如,在图8(b)中,当车辆在“公交车”和“校车”之间难以分类时,我们的VCIN生成了一致的答案“校车”,与预测的解释一致。然而,在我们干预后,Pro-VCIN无法利用解释的信息进行预测,结果预测为不同的答案“公交车”。这些结果也对应于图4(a)中的SCM,其中解释和答案是独立预测的,导致推断结果的不一致。这些结果表明,所提出的Pro-VCIN可以有效地建模从解释特征到答案的因果关联,从而允许推断出更可靠和一致的结果。

5.7.3 解释特征对答案的自然直接效应

为了进一步研究我们提出的Pro-VCIN学习的解释与答案之间的因果关联,我们通过将解释特征替换为高斯噪声来计算在GQA-REX验证集上的自然直接效应(NDE)。图9(a)展示了训练期间真实答案预测概率的NDE(NDE = )。图9(b)展示了训练期间回答准确率的NDE(NDE = )。在这两种情况下,NDE都迅速从0增加到训练初期,然后变得相对稳定,这进一步验证了所提出的Pro-VCIN能够捕捉解释特征对答案的因果效应。

5.8 神经符号推理分析

我们工作的一个关键概念是采用神经符号推理来提高跨模态推理的过程可解释性。我们的模型封装了两个神经符号模块,即视觉程序编码器(见第4.3.2节)和多模态解释解码器(见第4.4节)。在这一部分,我们将研究这两个神经符号模块的可解释性。

5.8.1 视觉程序编码器的可解释性

在图10中,我们可视化了视觉程序编码器学习的程序-图像注意力。我们计算了方程8中所有层的平均程序-图像注意力,并突出显示了对相应程序模块具有最高平均注意力的视觉区域。图10(a)显示,我们的模型可以正确执行中间程序模块,并为相应的程序模块定位视觉对象“花”、“花瓶”和“水龙头”。图10(b)显示,我们的模型可以正确地将视觉对象“男孩”、“男人”和“排球”与多模态内容中的相应程序模块关联。这些可视化结果进一步验证了我们视觉程序编码器的过程可解释性。可视化技术还为开发者提供了一种工具,以理解模型的神经符号推理过程并诊断神经符号推理过程中的错误。

5.8.2 多模态解释解码器的可解释性

在图11中,我们可视化了多模态解释解码器学习的程序-解释注意力。我们计算了方程10中所有层的平均程序-解释注意力,并通过线条连接每个解释标记与最大注意力的程序模块。线条的颜色表示注意力值。我们注意到标记“因为”在我们的实现中作为句子的开始标记,因此其注意力不可用。图11显示,我们的模型可以准确地将程序模块特征解码为解释标记,其中解释标记与相应的程序模块相关联。例如,图11(b)展示了我们的模型可以正确地将视觉标记#5与程序模块“选择(女人)”关联,并将文本标记“穿着”与程序模块“关联名称(穿着,夹克)”关联。这些可视化结果进一步验证了我们多模态解释解码器的过程可解释性。

5.9 定性研究

为了更直观地比较不同方法的推断结果,我们还对GQA-REX进行了定性研究。图12展示了四个示例,其中REX采用与我们的Pro-VCIN相同的主干LXMERT以进行公平比较。我们提出的Pro-VCIN在问题回答和解释生成方面优于最新的REX,同时在答案和解释之间实现了更好的一致性:(1)在案例(a)和(c)中,REX无法准确定位生成合理解释的视觉对象。相反,我们提出的多模态解释解码器能够在图像、问题程序和解释之间建模细粒度关系,从而为解释生成定位适当的对象。这种能力对于在我们研究的任务中生成多模态解释至关重要。
(2)案例(b)和(d)展示了Pro-VCIN有效理解不同视觉对象之间关系的能力,以推断解释和答案。有趣的是,尽管Pro-VCIN在(c)中的生成解释与实际地面真实情况不同,但从认知角度来看,它仍然是准确且可接受的。
(3)在案例(b)和(c)中,REX生成的解释和答案存在矛盾。例如,在(c)中,解释中的“男人”与答案“家伙”相矛盾,尽管这两个词在语义上可能相似。相比之下,我们的Pro-VCIN为所有示例生成了一致的解释和答案。确保预测答案和解释之间的一致性对于建立可靠和可信的推理系统至关重要。

5.10 超参数分析

在本节中,我们分析了方程19中蒙特卡洛采样数量的敏感性,默认设置为4。我们在中变化,并在相同的训练设置下报告Pro-VCIN的性能。如图13所示,当从1增加到4时,Pro-VCIN的性能略有提高,而当进一步增大时,性能变得稳定。这些结果表明,我们的Pro-VCIN并不依赖于较大的,这显著降低了训练成本。这是因为训练中的每个类别的样本量(912,934/1,824 \approx 500)是足够的,并且进行多次训练周期可以有效减轻蒙特卡洛采样引入的偏差。

6 讨论与未来工作

在可解释VQA领域,有两种主流方法来提高VQA系统的可解释性。第一种方法是神经符号VQA(NS-VQA),旨在将推理过程转换为可解释的符号框架(例如程序)。尽管符号的推导过程(例如程序的执行过程)可以为推理过程提供解释(我们称之为过程可解释性),但对于普通用户来说,它们仍然不直观且难以理解。第二种方法是最近提出的解释性视觉问答(EVQA),旨在生成用户友好的、基于自然语言的多模态解释,以揭示解决视觉问题的跨模态推理过程。虽然生成的解释

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编



PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章