点击上方“CVPaper”,选择加"星标"或“置顶”
顶刊论文解读,第一时间分享
题目:Every Problem, Every Step, All in Focus: Learning to Solve Vision-Language Problems With Integrated Attention顶刊论文解读,第一时间分享
每个问题,每个步骤,全部聚焦:通过集成注意力学习解决视觉-语言问题
作者:Xianyu Chen; Jinhui Yang; Shi Chen; Louis Wang; Ming Jiang; Qi Zhao
源码链接: https://github.com/chenxy99/SGAN
摘要
集成视觉和语言模态的信息在计算机视觉和自然语言处理领域激发了有趣的应用。尽管现有方法在图像描述和视觉问题回答等任务上显示出了前景,但它们在理解现实生活问题和提供分步解决方案方面面临挑战。特别是,它们通常将解决方案的范围限制在具有序列结构的解决方案上,从而忽略了复杂的多步骤依赖性。为了弥补这一差距,我们提出了一种基于图的方法来解决视觉-语言问题。它利用了一种新颖的集成注意力机制,该机制联合考虑了每个步骤内的特征重要性以及多个步骤间的跨步骤依赖性。结合图神经网络方法,这种注意力机制可以逐步学习,以预测依赖于问题解决过程特征的序列和非序列解决方案图。为了将注意力与问题解决过程紧密结合,我们进一步设计了新的学习目标和注意力度量标准,以量化这种集成注意力,这更好地对齐了步骤内的视觉和语言信息,并更准确地捕获了步骤间的信息流。在VisualHow数据集上的实验结果表明,我们的模型在预测步骤和依赖性方面取得了显著的改进,证明了我们的方法在解决各种视觉-语言问题方面的有效性。
关键词
图注意力
集成注意力机制
多模态注意力
视觉-语言问题解决
I. 引言
近年来,计算机视觉和自然语言处理取得了令人瞩目的进展,使智能系统能够执行广泛的联合视觉-语言任务,例如图像描述[1]、[2]、[3]、[4]、[5]、[6],视觉叙事[7]、[8],视觉问题回答[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16],视觉对话[17]、[18]、[19],以及自然语言生成[20]、[21]、[22]。然而,开发能够理解视觉-语言问题并提供分步指令程序解决方案的人工智能仍然是一个重大挑战。
解决视觉-语言问题需要识别重要的视觉细节,理解多模态上下文,并预测结合视觉插图和自然语言描述的连贯解决方案[23]。理解和预测这种多模态描述要求智能系统将解决方案分解为多个步骤。例如,如图1所示,视觉插图(例如,花朵、枕头)或自然语言描述(例如,“寻找复古眼镜”)被用来描述为复古主题婚礼装饰桌子所采取的具体步骤。现有方法[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]通过程序规划来解决问题,将每个解决方案表示为一系列步骤的线性序列。尽管顺序方法方便,但它们无法对多个步骤间的复杂依赖性进行建模。视觉-语言问题通常涉及多个步骤之间的依赖性,这些依赖性可能不适合简单的线性序列:(1) 一个步骤可能依赖于多个步骤。如图1所示,步骤6必须依赖于步骤2、3和5的完成,(2) 某些问题解决步骤(例如,图1中的路径1-2、3、4-5)可以同时发生。顺序模型可能会过度简化这些关系,难以有效表示这些情况,面临以下挑战:首先,顺序模型本质上遵循线性结构,按步骤方式处理信息。当处理不符合直接顺序的多个依赖性时,这种线性特性成为一种约束。其次,当面对多个步骤间的相互依赖性时,顺序模型的效率会受到损害。直接将并行过程转换为固定顺序序列,不考虑变化,可能导致次优和低效的解决方案。第三,顺序模型通常缺乏必要的可解释性,以理解问题解决过程中不同步骤之间的复杂依赖性,减少了对现实世界应用至关重要的信任和透明度。因此,鉴于这些挑战,我们的工作受到需要更灵活和结构化方法来解决视觉-语言问题的驱动。因此,鉴于这些挑战,我们的工作动机是寻求一种更灵活和细致的方法来解决视觉-语言问题。
在这项工作中,为了支持更通用和灵活的问题解决,我们提出了一种图神经网络方法,将解决方案表示为图。这种结构化表示允许基于图的模型克服顺序模型的限制,为处理复杂的问题解决场景提供了一种更通用和有效的方法。我们的方法利用了一种集成的注意力机制,它联合地模拟了步骤内部的注意力和跨步骤的注意力。与孤立的基于步骤的注意力相比,这提供了更全面的视角。为了联合和逐步地监督集成的注意力,我们进一步引入了定量的度量标准,这些度量标准考虑了整个解决方案步骤图的注意力传播。这种基于图的方法结合新颖的集成注意力机制旨在为模拟复杂步骤依赖性和解决现实世界问题(如自动驾驶、医学诊断等)提供有效的框架。
总结来说,本文的主要贡献如下:
我们提出了一种图神经网络方法来表示程序化解决方案的图,捕获复杂的步骤依赖性,并使整个问题解决过程得到整体理解。
我们设计了一种集成的注意力机制,联合地模拟了每个步骤内多模态特征的重要性以及跨依赖步骤的重要性。
我们引入了定量的注意力度量标准,以优化整个解决方案图的注意力传播,使复杂的视觉-语言问题解决的注意力得以监督学习。
本文的其余部分结构如下。第二节,我们提供了与视觉-语言问题解决和视觉-语言任务中的注意力机制相关的研究的简明概述。第三节概述了问题陈述,介绍了我们旨在解决的视觉-语言问题解决任务的公式化。第四节详细阐述了我们提出的方法,旨在解决前述任务。第五节展示了广泛的实验,我们报告了定量和定性结果,以及对我们方法性能的全面分析。我们在第六节总结了本文,并讨论了其局限性,同时也提供了未来研究和改进的方向。
III. 问题陈述
视觉-语言问题解决任务涉及理解一般性的视觉-语言问题,并生成结构化的指令来解决这些问题,结合视觉和文本信息[23]。先前的研究探索了指令性图像[24]、[56]或视频[26]、[28]、[29]、[35]、[57],但这些研究局限于对特定任务类别预测顺序指令。与此相反,我们的工作考虑了广泛的问题的解决方案结构。我们提出的方法的基本目标有两个方面:(1) 理解输入的问题描述,(2) 构建一个包含关键问题解决步骤的解决方案图,每个步骤都与相关的图像和字幕相关联。
IV. 方法
A. 解决方案图注意力网络
B. 综合注意力机制
步骤内注意力:步骤内注意力侧重于从输入图像或字幕中捕获对于理解和完成每个单独步骤至关重要的信息。具体来说,在第 层,对于第 i 个候选步骤,我们定义步骤内注意力权重为 ,根据输入问题描述 ,候选特征 和节点特征 计算得出: 其中 是可学习的参数,k = 1, ..., K 表示输入候选项的第 k 个元素(即,图像块或单词标记)。 注意力权重 被规范化为 ,使用掩码softmax激活函数: 其中 是一个二进制向量, 表示第 i 个候选特征的第 k 个元素(即,图像块或单词标记)是否由于图像或语言输入的长度变化而被填充。 最后,我们将注意力应用于候选特征 v 以初始化第 层的节点表示: 步骤间注意力:步骤间注意力负责捕获不同问题解决步骤之间的时间顺序,提供解决方案的连贯和结构化表示。通过将步骤间注意力整合到我们的模型中,我们的目标是实现跨多个问题解决步骤的更有效的联合推理。具体来说,我们计算图注意力权重[44][46],以基于初始节点特征 估计每对步骤之间依赖关系的存在: 其中 是可学习的参数, 是sigmoid函数。这种计算涉及学习参数,这些参数权衡每个步骤的特征在与另一步骤建立依赖关系时的重要性。所得的权重矩阵 明确表示步骤之间的依赖性概率,以便构建最终的解决方案图。 有了这些步骤间注意力权重,我们继续通过结合所有图节点的信息来更新每个节点 i 的特征,这涉及测量在第 层节点 i 和 j 之间连接的权重,然后使用这些权重更新节点 i 的特征: 其中 ELU 是指数线性单元函数。这个特征更新允许模型自适应地细化每个节点的表示,整合来自解决方案图中其连接的洞见。 通过将步骤内和步骤间注意力机制整合到SGAN的注意力层堆栈中,模型实现了对问题解决过程的全面理解。通过这些层的解决方案图的迭代细化使SGAN能够逐步捕获单个步骤中的重要特征以及步骤之间的关系。这种整合引入了一个新的强大的框架,使SGAN能够为广泛的视觉-语言问题解决任务生成结构化和一致的解决方案。
C. 学习目标
学习步骤内注意力:我们提出了注意力学习损失,以衡量基于真实多模态注意力注释的步骤内注意力预测误差。这些注释是二进制掩码,指示字幕中的重要图像区域或单词标记。为了衡量步骤内注意力 的预测误差,步骤内注意力损失定义为: 其中 是真实步骤的集合,而 是一个不相似度度量,用于衡量预测的 与经过softmax归一化的地面真实注意力 之间的不一致。在实现中,我们将 定义为交叉熵损失: 同样,其他注意力评估指标,如SIM [60]、JSD [61]、[62] 和 CC [60] 也可以用来衡量步骤内注意力的一致性。 学习步骤间注意力:为了更深入地了解注意力在整个问题解决过程中的贡献,我们采用了一种集成方法,考虑了多个问题解决步骤中的注意力分配。受到信息检索技术 [45]、[63] 的启发,我们引入了新的学习目标,涉及沿着预测的解决方案图的边缘传播步骤内注意力测量,量化注意力在成功预测解决方案中的影响。 具体来说,给定以邻接矩阵 G 表示的真实解决方案图和第 层预测的步骤间注意力 ,我们计算 和 ,分别表示从步骤 i 沿着真实边缘传播信息的概率,以及从步骤 j 传播到步骤 i 的概率,分别从外出度和入度的角度来看:
总体目标:我们的最终目标函数定义为二元交叉熵损失 (评估解决方案图)、所有图注意力层的步骤内注意力损失 以及步骤间注意力得分 和 的组合: 其中 是二元交叉熵损失。 有了这个目标函数,我们的方法就可以联合和逐步地监督步骤内注意力和步骤间注意力。它使得解决方案的集成优化能够针对单个问题解决步骤中的多模态注意力对齐、步骤间连接的信息传播以及最终解决方案图。通过遍历图并选择性地聚合信息,我们的方法在制定各种问题的解决方案方面取得了显著改进。
V. 实验
A. 实验设置
数据集:我们在VisualHow数据集[23]上进行了实验评估,该数据集包含20,028个真实生活中的问题,这些问题被层次化地分类到18个主要类别和317个子类别中。每个类别中的问题数量从405到2,952不等,提供了多样化的问题解决场景。与之前仅关注顺序过程的数据集[24]、[25]、[26]、[28]、[29]、[35]不同,VisualHow数据集为每个问题都包含了一个解决方案图,表示各个步骤之间的结构化依赖关系。重要的是,大部分图都表现出非顺序特征,具有更复杂的步骤间依赖性。每个解决方案图由3到10个步骤组成,每个步骤都有图像和字幕进行描述。图像包括各种格式,包括真实照片、卡通、绘图、手写、图表等。字幕拥有30,000个词汇,确保了丰富和信息丰富的描述。为了促进注意力学习和评估,提供了图像和字幕的细粒度注意力注释。 模型:为了评估我们方法在处理视觉-语言问题解决任务中的有效性,我们在VisualHow数据集[23]上与最新技术方法进行了比较。我们将这些方法视为多任务模型,同时处理多模态指令的检索和步骤依赖性的预测。比较的方法包括SEQ GPO[64]、SEQ GAP[23]和SEQ ATT[23],它们使用各种顺序过程来预测单个问题解决步骤及其依赖性。具体来说,SEQ GPO使用广义池化操作符对齐视觉和语言特征并在特征聚合期间联合聚合它们。类似地,SEQ GAP采用全局平均池化方法独立处理不同图像区域和单词标记的特征,而不考虑它们的重要性。最后,SEQ ATT使用注意力机制来突出每个模态中的重要语义,然后根据学习到的权重进行聚合,这些权重由VisualHow[23]的地面真实注意力注释进行监督。为了进一步研究综合注意力机制的作用和重要性,我们使用我们提出的模型的三个变体进行了全面的消融研究:SGAN-Base、SGAN-Intra和SGAN-Inter。SGAN-Base是一个基本模型,使用与SGAN相同的架构,但不依赖任何外部注意力监督。这有助于我们理解模型在没有注意力注释的情况下自我学习的表现。对于SGAN-Intra和SGAN-Inter,我们分别使用步骤内注意力损失和步骤间注意力损失对模型进行监督。通过比较这三种变体的性能与我们的完整SGAN模型(包含步骤内和步骤间注意力监督),我们可以分析每种注意力组件的具体贡献。 评估:为了与其他方法进行公平比较,我们遵循数据集提供的官方训练和验证分割。我们通过从相应的子集中采样图像和字幕来构建候选池。这些候选池包括对应问题的正面样本以及从数据集中随机采样的其他问题的负面样本。注意,候选池仅在训练阶段包含训练数据,在验证阶段仅包含验证数据。与之前的研究[23]从不同问题中采样不相关步骤不同,本文为了获得负面步骤依赖性,我们首先采样负面问题,并包括负面问题中的所有步骤及其依赖性。这种方法作为评估模型性能的严格测试平台。按照VisualHow[23]的研究和我们提出的注意力评估方法,我们使用四类指标评估模型性能:
步骤检索:为了评估模型在检索正确地面真实步骤方面的性能,我们根据候选步骤对输入问题的预测相关性进行排名(即 )。我们使用平均倒数排名(MRR)[17]、[18]、[23]、召回率@K [17]、[18]、[23]、[64]、[65]、[66]和召回率总和(RSUM)[23]、[64]、[65]、[66]指标。MRR计算正确步骤的倒数排名,定义为在排名列表中的位置的倒数。召回率@K衡量正确步骤出现在前K个排名步骤中的存在。RSUM定义为在不同K值(例如,K = {1, 5, 10})下召回率指标的总和。这些指标的组合提供了模型在图像和字幕检索方面的整体性能的综合概述。 步骤依赖性预测:使用曲线下面积(AUC)[23]、[67]、精确-召回曲线下面积(AUPR)[67]和交并比(IoU)[23]、[27]、[68]指标来评估步骤依赖性的预测。AUC表示模型在区分步骤之间正确预测的正面(正确预测的边)和负面(错误预测的边)依赖性方面的整体性能。AUPR是在关注正面示例的情况下,对于不平衡数据设置中的一个有用的性能指标,这在我们的实验中是这种情况。为了测量IoU,我们应用一个阈值(例如,0.25、0.5、0.75)[23]到模型输出 来确定图的边缘,并计算预测图与真实图之间的交集和并集的边缘。这些指标使我们能够全面评估模型在预测解决方案结构方面的性能。 步骤内注意力:为了评估步骤内注意力,输出 首先被规范化并转换为注意力图,其中每个值表示图像块或单词标记的注意力概率。地面真实注意力图的计算方式与注释类似。使用三种注意力指标来计算注意力图:线性相关系数(CC)[60]、[69]得分被计算为注意力图之间的皮尔逊线性相关;直方图交集相似性(SIM)[60]计算每个位置的最小值之和;Kullback-Leibler散度(KL)[60]基于信息论测量两个分布之间的差异。 步骤间注意力:步骤间注意力基于最终层输出 和 通过三个指标同时评估,这些指标衡量出度 (见(10))、入度 (见(11))注意力得分,以及 计算为:
B. 定量结果
与最新技术的比较:我们的方法在概括视觉-语言问题的解决方案方面展示了卓越的性能,如表I所示。总体而言,它在所有评估指标上都优于最新的SEQ GPO、SEQ GAP和SEQ ATT方法[23]。在检索各个问题解决步骤的多模态指令方面,它在图像和字幕的MRR得分上分别取得了11.1%和12.5%的显著提高,以及在RSUM得分上提高了10.9%,这聚合了两种模态的Recall@K得分。进一步而言,在预测步骤依赖性方面,我们的方法表现出强大的能力,能够捕获解决方案的多样化结构,这对现有方法来说一直是一个挑战。它在图像和字幕的平均IoU得分上分别显示了81.0%和45.3%的改进。这些观察结果不仅展示了我们方法在解决复杂视觉-语言问题方面的优势,还突出了逐步构建任务解决方案的重要性。
与基线模型的比较:表I还将我们提出的SGAN模型与不同的基线模型进行了比较,包括不依赖于外部注意力注释监督学习SGAN-Base模型,使用步骤内注意力损失进行监督的SGAN-Intra模型,以及使用步骤间注意力损失进行监督的SGAN-Inter模型。比较表明,即使没有任何外部监督,SGAN-Base仍然能够有效地从地面真实解决方案图中自我学习综合注意力,并取得了有希望的结果。它的MRR、RSUM和IoU得分都显著优于SEQ ATT方法(例如,RSUM从410.77提高到433.55),证明了所提出网络设计的有效性。值得注意的是,引入步骤内或步骤间注意力监督可以带来实质性的改进。特别是,与SGAN-Base相比,SGAN-Intra在图像和字幕的MRR得分上分别提高了5.6%和6.3%。它的RSUM得分从433.55提高到451.82,比SGAN-Base提高了4.2%。这些改进表明,步骤内注意力的监督可以有助于两种模态中重要信息的定位。此外,SGAN-Inter的性能突显了它在预测步骤依赖性方面的实际意义。通过步骤间注意力监督,它在AUC、AUPR和IoU得分上平均提高了37.7%。这表明模型在真实世界场景中的应用性,其中详细的注释可能是有限的。总体而言,结合两种类型的注意力监督可以实现最佳结果,证明了我们方法在为视觉-语言问题解决建模注意力方面的整体设计的有效性。
C. 定性结果
D. 性能分析
顺序和非顺序解决方案:与之前只关注顺序解决方案的数据集不同,VisualHow是一个独特的数据集,包含各种复杂的问题解决任务。为了展示我们提出的方法在不同类型的解决方案结构中的有效性,我们分别评估了模型在顺序和非顺序问题解决场景中的性能。在表II中,我们在两种问题解决场景中评估了我们方法的性能。结果表明,我们的SGAN方法在两种场景中都优于最新技术方法,实现了最高的MRR和IoU@0.5得分。这表明SGAN在捕获解决方案步骤的结构和依赖性方面表现出色,无论问题解决过程是否顺序,都使其成为涉及复杂结构和多样化多模态指令的广泛实际应用的多功能方法。
步骤内注意力:表III中的结果为我们的步骤内注意力机制的性能提供了见解。使用CC、KLD和SIM三个指标来评估注意力输出 ,量化了步骤内注意力学习的质量,并帮助评估该方法在关注每个步骤中重要信息方面的有效性。最新技术方法SEQ ATT [23],也遵循顺序方法学习步骤内注意力,在图像和字幕模态中均取得了适度的结果。然而,我们提出的SGAN与步骤内注意力(SGAN-Intra)在几乎所有指标(5/6)中都一致地优于SEQ ATT,无论是在图像还是字幕模态中。这表明,通过步骤内注意力逐步细化解决方案图使模型能够专注于每个步骤中的相关信息,从而提高注意力质量。另一方面,仅步骤间注意力(SGAN-Inter)对这些评估指标的影响并不显著。然而,整合两种注意力机制能够进一步提高模型在图像和字幕中找到重要信息的能力。这突出了结合两种注意力机制对于实现问题解决过程中全面理解的重要性。
步骤间注意力:理解在复杂问题解决中跨多个步骤注意力如何对齐对于开发有效的学习模型至关重要。在这里,我们通过检查步骤之间的注意力对齐来详细分析我们的方法。表IV展示了步骤间注意力评估的结果,这突显了模型捕获问题解决步骤之间依赖性的能力。用于评估步骤间注意力的指标包括 、 和 ,它们量化了解决方案图中注意力传播的质量。最新技术方法SEQ ATT [23]在捕获步骤间依赖性方面的性能有限,这一点从图像和字幕模态的所有指标相对较低的值中可以看出。这是因为SEQ ATT的顺序设计不能有效地将注意力传播到多个步骤之外的其他步骤,导致预测次优。然而,最显著的改进来自于在SGANInter模型中添加步骤间注意力。SGAN-Inter的 、 和 的值明显高于SEQ ATT、SGAN-Base和SGAN-Intra。完整的SGAN模型,结合了步骤内和步骤间注意力机制,在所有方法和模态中的所有指标上都取得了最佳结果。这些观察结果表明,步骤间注意力机制有效地捕获了问题解决步骤之间的依赖性,使注意力能够有效地传播到多个步骤,从而提高对各种解决方案步骤的时间顺序的推理。
注意力性能与任务性能之间的相关性:为了进一步研究步骤内和步骤间注意力对模型在解决视觉-语言问题中的表现的贡献,我们计算了注意力评估得分CC、 与我们提出的SGAN模型在预测顺序和非顺序解决方案方面的性能之间的皮尔逊相关系数r。表V显示了注意力评估得分与SGAN模型在预测顺序和非顺序解决方案方面的性能之间的皮尔逊相关系数(r)。对于步骤内注意力评估,我们观察到注意力性能与模型预测顺序解决方案的能力之间存在显著的正相关。对于IoU@0.5的相关系数分别为0.212(图像模态)和0.238(字幕模态)。在非顺序问题上,相关系数接近零,表明步骤内注意力性能与模型性能之间的相关性较弱。弱相关性表明,在最终的SGAN模型中,单个步骤内注意力的质量对模型性能的影响有限。相比之下,步骤间注意力评估显示出注意力性能与模型在解决顺序和非顺序问题方面的性能之间存在强正相关。特别是对于非顺序问题,注意力性能与IoU@0.5高度相关,图像和字幕模态的相关系数值分别为0.738和0.732。强正相关表明,步骤间注意力的质量与模型捕获问题解决步骤之间的依赖性并预测连贯和结构化解决方案的能力密切相关。这些结果表明,步骤间注意力机制在提高模型在解决顺序和非顺序问题方面的性能中起着至关重要的作用。
注意力层数:逐步细化注意力是我们提出的SGAN架构的一个基本组成部分,它使网络能够迭代地专注于视觉和文本输入中的关键信息,并发现步骤之间的依赖性。为了验证注意力层数的效果,我们对模型的四个变体进行了实验。如表VI所示,对于检索最相关的图像和字幕,增加注意力层数一致地提高了模型的性能。我们观察到,使用三层注意力层时,SGAN模型在图像和字幕模态的MRR、Recall@K和RSUM得分上达到了最高。然而,增加更多层并没有带来检索性能的进一步提高。在评估步骤依赖性方面,AUC、AUPR和IoU得分也观察到类似的趋势。总体而言,这个消融研究显示三层SGAN模型在捕获单个步骤中的相关信息和对步骤间依赖性建模之间实现了正确的平衡。这种配置在解决复杂的多模态问题方面实现了最佳性能,表明其在处理多模态问题方面的有效性。
跨层的逐步注意力细化:逐步细化注意力是所提出的SGAN方法的一个重要组成部分,它使模型能够逐步集中于视觉和文本输入中的关键信息,解开步骤间的依赖性。为了说明逐步细化注意力在我们提出的SGAN中的有效性,我们比较了不同层的输出,包括步骤内注意力 和步骤间注意力 ( )。如表VII所示,我们发现注意力对齐(步骤内注意力和步骤间注意力)随着层的深入逐渐增强。这表明,随着每一层的深入,模型细化其关注相关信息、捕获更详细关系的能力。这种注意力细化与预测性能指标的改进相符,包括MRR和IoU@0.5,表明逐步注意力机制在成功解决问题中的重要性。
使用预训练的定位作为注意力注释:尽管提供更多的注意力注释可以提高模型性能,但获取此类注释的实用性可能会引发可扩展性问题。为了解决这个问题,我们不是利用人类注释,而是使用预训练的GLIP [74]模型生成的真注释,该模型在各种对象级别识别任务中表现出强大的零样本和少样本迁移能力。如表IX所示,由GLIP生成的注释与VisualHow数据集中的人类注释表现出可比的性能。这种一致性表明,大型预训练视觉-语言模型可以为建模各个问题中的步骤内注意力提供足够的注释,为可扩展性提供了一种可行的方法。
多模态程序规划模型:表X比较了我们的方法与最新技术的多模态程序规划模型的性能,包括文本-图像提示(TIP)[75]和Skip-Plan [39]。TIP使用text-davinci-003模型[76]生成一系列步骤字幕,然后使用Stable Diffusion[77]将这些字幕转换为图像。Skip-Plan通过将长步骤链分解为几个可靠的子链来学习预测解决方案,解决了长序列预测中的错误累积问题。由于这些顺序方法无法处理复杂的图结构,我们只比较它们通过图像和字幕检索来评估我们的方法。如表X所示,TIP模型在图像和字幕检索任务之间的检索能力存在显著差异,表明它在处理和提取文本数据方面比视觉输入更有能力。另一方面,Skip-Plan模型表现出改进的检索性能,这是其在VisualHow[23]数据集上进行端到端训练的结果。然而,这些最新技术的程序规划方法仍然落后于我们的SGAN模型,因为它们的顺序特性。基于图的模型架构和新颖的注意力机制使SGAN能够利用VisualHow数据集中嵌入的广泛领域问题解决知识,实现了显著的性能提升。这一改进巩固了SGAN作为有效解决多模态复杂问题解决方案的地位。
注意力学习中使用的相似性函数:在这个消融研究中,我们调查了采用不同的注意力评估指标对注意力学习的影响。我们考虑了三种广泛使用的相似性函数:SIM [60]、JSD [61]、[62]和CC [60],它们被应用于监督我们提出的SGAN模型中的步骤间注意力机制。表XI的结果表明,我们的注意力监督方法对相似性函数的选择是鲁棒的,因为所有三种度量产生了相似的性能。这种性能的一致性表明,我们的方法有效地从不同角度捕获了注意力对齐,导致无论选择哪种相似性函数都能得到可比的结果。基于这些发现,我们在测量步骤间注意力时采用了JSD相似性。总体而言,这些结果证实了我们方法在从多个角度测量注意力对齐方面的有效性。这种多功能性对于SGAN模型在解决复杂多模态问题方面的成功至关重要,因为它允许模型捕获解决方案步骤之间的细粒度依赖性,从而实现更准确和连贯的预测。
图后处理阈值:最后,我们调查了阈值(即依赖性阈值 和检索阈值 )对预测解决方案图的影响。值得注意的是,按照VisualHow [23]基准,本文中呈现的定量结果,包括检索、依赖性、步骤内注意力和步骤间注意力的评估,都是基于概率输出 。依赖性阈值 和检索阈值 仅用于将软概率二值化为最终确定性解决方案图。在表XII中,我们展示了各种阈值组合及其对应的精度、召回率和F1得分,这些得分是通过将地面真实解决方案图与二值化解决方案图后处理后进行比较得出的。分析揭示了最终解决方案图不受依赖性阈值 (0.2 ≤ ≤ 1.1)的选择显著影响。检索阈值 作为精度和召回率之间的平衡因素,最终解决方案图对其选择不敏感(0.05 ≤ ≤ 0.65)。基于这一观察,我们经验性地选择了 和 作为我们的实验。