TPAMI 2024 | 每个问题,每个步骤,全部聚焦:通过集成注意力学习解决视觉-语言问题

文摘   2024-07-21 19:00   中国香港  

点击上方“CVPaper”,选择加"星标"或“置顶

顶刊论文解读,第一时间分享

题目:Every Problem, Every Step, All in Focus: Learning to Solve Vision-Language Problems With Integrated Attention

每个问题,每个步骤,全部聚焦:通过集成注意力学习解决视觉-语言问题

作者:Xianyu Chen; Jinhui Yang; Shi Chen; Louis Wang; Ming Jiang; Qi Zhao

源码链接: https://github.com/chenxy99/SGAN


摘要

集成视觉和语言模态的信息在计算机视觉和自然语言处理领域激发了有趣的应用。尽管现有方法在图像描述和视觉问题回答等任务上显示出了前景,但它们在理解现实生活问题和提供分步解决方案方面面临挑战。特别是,它们通常将解决方案的范围限制在具有序列结构的解决方案上,从而忽略了复杂的多步骤依赖性。为了弥补这一差距,我们提出了一种基于图的方法来解决视觉-语言问题。它利用了一种新颖的集成注意力机制,该机制联合考虑了每个步骤内的特征重要性以及多个步骤间的跨步骤依赖性。结合图神经网络方法,这种注意力机制可以逐步学习,以预测依赖于问题解决过程特征的序列和非序列解决方案图。为了将注意力与问题解决过程紧密结合,我们进一步设计了新的学习目标和注意力度量标准,以量化这种集成注意力,这更好地对齐了步骤内的视觉和语言信息,并更准确地捕获了步骤间的信息流。在VisualHow数据集上的实验结果表明,我们的模型在预测步骤和依赖性方面取得了显著的改进,证明了我们的方法在解决各种视觉-语言问题方面的有效性。

关键词

  • 图注意力

  • 集成注意力机制

  • 多模态注意力

  • 视觉-语言问题解决

I. 引言

近年来,计算机视觉和自然语言处理取得了令人瞩目的进展,使智能系统能够执行广泛的联合视觉-语言任务,例如图像描述[1]、[2]、[3]、[4]、[5]、[6],视觉叙事[7]、[8],视觉问题回答[9]、[10]、[11]、[12]、[13]、[14]、[15]、[16],视觉对话[17]、[18]、[19],以及自然语言生成[20]、[21]、[22]。然而,开发能够理解视觉-语言问题并提供分步指令程序解决方案的人工智能仍然是一个重大挑战。

解决视觉-语言问题需要识别重要的视觉细节,理解多模态上下文,并预测结合视觉插图和自然语言描述的连贯解决方案[23]。理解和预测这种多模态描述要求智能系统将解决方案分解为多个步骤。例如,如图1所示,视觉插图(例如,花朵、枕头)或自然语言描述(例如,“寻找复古眼镜”)被用来描述为复古主题婚礼装饰桌子所采取的具体步骤。现有方法[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]通过程序规划来解决问题,将每个解决方案表示为一系列步骤的线性序列。尽管顺序方法方便,但它们无法对多个步骤间的复杂依赖性进行建模。视觉-语言问题通常涉及多个步骤之间的依赖性,这些依赖性可能不适合简单的线性序列:(1) 一个步骤可能依赖于多个步骤。如图1所示,步骤6必须依赖于步骤2、3和5的完成,(2) 某些问题解决步骤(例如,图1中的路径1-2、3、4-5)可以同时发生。顺序模型可能会过度简化这些关系,难以有效表示这些情况,面临以下挑战:首先,顺序模型本质上遵循线性结构,按步骤方式处理信息。当处理不符合直接顺序的多个依赖性时,这种线性特性成为一种约束。其次,当面对多个步骤间的相互依赖性时,顺序模型的效率会受到损害。直接将并行过程转换为固定顺序序列,不考虑变化,可能导致次优和低效的解决方案。第三,顺序模型通常缺乏必要的可解释性,以理解问题解决过程中不同步骤之间的复杂依赖性,减少了对现实世界应用至关重要的信任和透明度。因此,鉴于这些挑战,我们的工作受到需要更灵活和结构化方法来解决视觉-语言问题的驱动。因此,鉴于这些挑战,我们的工作动机是寻求一种更灵活和细致的方法来解决视觉-语言问题。

在这项工作中,为了支持更通用和灵活的问题解决,我们提出了一种图神经网络方法,将解决方案表示为图。这种结构化表示允许基于图的模型克服顺序模型的限制,为处理复杂的问题解决场景提供了一种更通用和有效的方法。我们的方法利用了一种集成的注意力机制,它联合地模拟了步骤内部的注意力和跨步骤的注意力。与孤立的基于步骤的注意力相比,这提供了更全面的视角。为了联合和逐步地监督集成的注意力,我们进一步引入了定量的度量标准,这些度量标准考虑了整个解决方案步骤图的注意力传播。这种基于图的方法结合新颖的集成注意力机制旨在为模拟复杂步骤依赖性和解决现实世界问题(如自动驾驶、医学诊断等)提供有效的框架。

总结来说,本文的主要贡献如下:

  1. 我们提出了一种图神经网络方法来表示程序化解决方案的图,捕获复杂的步骤依赖性,并使整个问题解决过程得到整体理解。

  2. 我们设计了一种集成的注意力机制,联合地模拟了每个步骤内多模态特征的重要性以及跨依赖步骤的重要性。

  3. 我们引入了定量的注意力度量标准,以优化整个解决方案图的注意力传播,使复杂的视觉-语言问题解决的注意力得以监督学习。

本文的其余部分结构如下。第二节,我们提供了与视觉-语言问题解决和视觉-语言任务中的注意力机制相关的研究的简明概述。第三节概述了问题陈述,介绍了我们旨在解决的视觉-语言问题解决任务的公式化。第四节详细阐述了我们提出的方法,旨在解决前述任务。第五节展示了广泛的实验,我们报告了定量和定性结果,以及对我们方法性能的全面分析。我们在第六节总结了本文,并讨论了其局限性,同时也提供了未来研究和改进的方向。

III. 问题陈述

视觉-语言问题解决任务涉及理解一般性的视觉-语言问题,并生成结构化的指令来解决这些问题,结合视觉和文本信息[23]。先前的研究探索了指令性图像[24]、[56]或视频[26]、[28]、[29]、[35]、[57],但这些研究局限于对特定任务类别预测顺序指令。与此相反,我们的工作考虑了广泛的问题的解决方案结构。我们提出的方法的基本目标有两个方面:(1) 理解输入的问题描述,(2) 构建一个包含关键问题解决步骤的解决方案图,每个步骤都与相关的图像和字幕相关联。

如图1所示,我们提出的方法的输入包括问题描述   ,例如“如何为复古主题的婚礼装饰桌子”,以及一组图像    或字幕   。这些图像和字幕作为候选步骤或操作,可能与解决给定问题相关或不相关。视觉-语言问题解决任务的主要挑战在于识别关键步骤及其正确的顺序,以构建一个连贯有效的解决方案。
为了应对这一挑战,我们提出的方法涉及创建一个解决方案图   ,该图封装了问题解决过程。图中的节点    表示关键步骤,包括起始节点(节点0)、结束节点(节点    ),以及与候选步骤对应的节点(节点1到    ),每个节点都有相关的图像或字幕捕捉到可能采取的行动来解决问题。边    表示步骤之间的依赖性或时间顺序。例如,表示“为桌子准备复古中心装饰”和“向主桌中心装饰添加更多花朵”之间的节点的有向边表明,后者应该在前者之后发生。
通过构建这样的有向图,我们的方法可以有效地模拟问题解决过程的逻辑流程,实现解决方案的结构化和连贯表示。有向图表示还允许从起始节点到结束节点存在多条路径,对应于解决问题的不同方式。图结构的这种灵活性特别有利于处理具有多个可行解决方案或替代步骤序列的视觉-语言问题。

IV. 方法

我们提出的解决方案图注意力网络(SGAN)通过利用步骤内步骤间的注意力机制,迭代地细化解决图。我们方法的关键技术组成部分包括:(1) 一种新颖的图神经网络方法,逐步预测具有不同结构的解决方案;(2) 一个综合注意力机制,结合了步骤内和步骤间的注意力,全面理解问题解决过程;(3) 新的注意力度量和学习目标,利用信息传播通过整个解决方案图联合监督注意力。这些组成部分共同赋予SGAN强大的能力,有效捕获单个步骤内的依赖关系以及它们之间的关系,提供处理复杂视觉-语言问题和生成一致解决方案的强大能力。

A. 解决方案图注意力网络

在问题解决场景中,步骤之间的依赖关系可能很复杂,可能不容易明显。为了解决这一挑战并预测解决方案图 ,SGAN使用图注意力网络逐步学习综合注意力,从而更好地理解问题解决过程。
如图2所示,表示候选项的输入特征,记作   ,通过预训练的图像编码器(例如,ResNeXT-101 [58],ViT [59])为图像候选项获得,或通过语言嵌入网络(例如,BERT [48])为字幕候选项获得。语言嵌入    表示输入问题[23][48]的描述。SGAN设计有L层图注意力层堆栈,允许逐步细化解决方案图。具体来说,网络迭代更新节点表示   ,其中    表示第    层。它包括更新的图节点特征起始(i = 0)、结束(i = N + 1)以及每个候选步骤(i = 1, ..., N)。前一层的节点表示    作为当前层的输入,而第一层输入初始化为   ,其中    是    在所有 k = 1, ..., K 中的平均值,W_{eg} 表示可学习参数,将语言嵌入 g 转换为结束节点表示。每层还输出相应的步骤内注意力    和步骤间注意力   (见第IV-B节了解详细信息)。
为了将最终层输出    转换为解决方案图G,我们采用以下过程。最初,对依赖矩阵    应用启发式阈值来保留最相关的节点(见算法1中的步骤1-3)。接下来,这些选定的节点被迭代地添加到图中(见步骤4-5),以及它们在    中具有最高值的相关边缘。这个迭代过程确保了图保持有向无环图,没有循环或孤立节点。最后,分配给每个步骤图像和字幕的注意力权重    提供了对于有效解决给定问题的需要关注的内容的洞察。
所提出的网络对于学习问题解决步骤之间的依赖关系非常强大。通过使用这种迭代方法,网络可以生成自由形式的解决方案,更好地理解问题解决过程。接下来,我们将描述我们综合注意力机制的具体设计,以有效捕获问题解决步骤中的重要内容和依赖关系。

B. 综合注意力机制

注意力是推动自然语言处理和计算机视觉发展的一个关键组成部分,它使模型能够在执行不同任务时选择性地关注输入数据最相关的部分。在问题解决的背景下,我们的综合注意力机制在识别解决方案中所涉及步骤的关键特征和依赖关系中起着至关重要的作用。它结合了步骤内和步骤间的注意力,使网络能够同时捕获每个步骤的细粒度细节以及它们存在的更广泛背景。
  1. 步骤内注意力:步骤内注意力侧重于从输入图像或字幕中捕获对于理解和完成每个单独步骤至关重要的信息。具体来说,在第    层,对于第 i 个候选步骤,我们定义步骤内注意力权重为   ,根据输入问题描述   ,候选特征    和节点特征    计算得出:
    其中    是可学习的参数,k = 1, ..., K 表示输入候选项的第 k 个元素(即,图像块或单词标记)。
    注意力权重    被规范化为   ,使用掩码softmax激活函数:
    其中    是一个二进制向量,  表示第 i 个候选特征的第 k 个元素(即,图像块或单词标记)是否由于图像或语言输入的长度变化而被填充。
    最后,我们将注意力应用于候选特征 v 以初始化第    层的节点表示:
  2. 步骤间注意力:步骤间注意力负责捕获不同问题解决步骤之间的时间顺序,提供解决方案的连贯和结构化表示。通过将步骤间注意力整合到我们的模型中,我们的目标是实现跨多个问题解决步骤的更有效的联合推理。具体来说,我们计算图注意力权重[44][46],以基于初始节点特征    估计每对步骤之间依赖关系的存在:
    其中    是可学习的参数,  是sigmoid函数。这种计算涉及学习参数,这些参数权衡每个步骤的特征在与另一步骤建立依赖关系时的重要性。所得的权重矩阵    明确表示步骤之间的依赖性概率,以便构建最终的解决方案图。
    有了这些步骤间注意力权重,我们继续通过结合所有图节点的信息来更新每个节点 i 的特征,这涉及测量在第    层节点 i 和 j 之间连接的权重,然后使用这些权重更新节点 i 的特征:
    其中 ELU 是指数线性单元函数。这个特征更新允许模型自适应地细化每个节点的表示,整合来自解决方案图中其连接的洞见。
    通过将步骤内和步骤间注意力机制整合到SGAN的注意力层堆栈中,模型实现了对问题解决过程的全面理解。通过这些层的解决方案图的迭代细化使SGAN能够逐步捕获单个步骤中的重要特征以及步骤之间的关系。这种整合引入了一个新的强大的框架,使SGAN能够为广泛的视觉-语言问题解决任务生成结构化和一致的解决方案。

C. 学习目标

我们的综合注意力机制逐步专注于视觉和文本输入中的重要信息,捕获有效问题解决的步骤依赖性。我们提出了新的学习目标,监督注意力识别图像和字幕中的重要部分,并在步骤之间传播信息以获得高质量的解决方案图。
  1. 学习步骤内注意力:我们提出了注意力学习损失,以衡量基于真实多模态注意力注释的步骤内注意力预测误差。这些注释是二进制掩码,指示字幕中的重要图像区域或单词标记。为了衡量步骤内注意力    的预测误差,步骤内注意力损失定义为:
    其中    是真实步骤的集合,而    是一个不相似度度量,用于衡量预测的    与经过softmax归一化的地面真实注意力    之间的不一致。在实现中,我们将    定义为交叉熵损失:
    同样,其他注意力评估指标,如SIM [60]、JSD [61]、[62] 和 CC [60] 也可以用来衡量步骤内注意力的一致性。
  2. 学习步骤间注意力:为了更深入地了解注意力在整个问题解决过程中的贡献,我们采用了一种集成方法,考虑了多个问题解决步骤中的注意力分配。受到信息检索技术 [45]、[63] 的启发,我们引入了新的学习目标,涉及沿着预测的解决方案图的边缘传播步骤内注意力测量,量化注意力在成功预测解决方案中的影响。
    具体来说,给定以邻接矩阵 G 表示的真实解决方案图和第    层预测的步骤间注意力   ,我们计算    和   ,分别表示从步骤 i 沿着真实边缘传播信息的概率,以及从步骤 j 传播到步骤 i 的概率,分别从外出度和入度的角度来看:
其中    和  
基于这些传播概率,我们分别定义了第    层的两个步骤间注意力得分,它们从入度和出度的角度量化信息流:
其中    表示哈达玛积,  表示步骤内注意力相似性度量,而    是一个分布矩阵,测量从步骤 i 到步骤 j 的注意力权重的概率分布:
具体来说,相似性    定义为:
其中 JSD 是Jensen-Shannon散度 [61]、[62]。
上述步骤间注意力得分    和    从入度和出度的角度全面量化了第    层预测的步骤间注意力的性能,较高的分数表明注意力可以更有效地分配在构建解决方案图的重要步骤和依赖关系上,最大分数1表示与真实解决方案图的完美对齐。
  1. 总体目标:我们的最终目标函数定义为二元交叉熵损失   (评估解决方案图)、所有图注意力层的步骤内注意力损失    以及步骤间注意力得分    和    的组合:
    其中
    是二元交叉熵损失。
    有了这个目标函数,我们的方法就可以联合和逐步地监督步骤内注意力和步骤间注意力。它使得解决方案的集成优化能够针对单个问题解决步骤中的多模态注意力对齐、步骤间连接的信息传播以及最终解决方案图。通过遍历图并选择性地聚合信息,我们的方法在制定各种问题的解决方案方面取得了显著改进。

V. 实验

在本节中,我们进行了全面的实验来展示我们提出的方法的优势,并评估其主要组件的贡献。实验结果强调了逐步学习注意力的重要性以及提出的学习目标的有效性,这些发现有望在视觉-语言问题解决领域取得重大进展,并为更复杂的智能系统的开发铺平了道路。

A. 实验设置

在这一小节中,我们提供了对我们实验和实现细节的详细描述。我们介绍了用于多模态问题解决任务的数据集,与最新技术模型和基线的比较,评估方法,以及我们提出的SGAN方法的实现细节。
  1. 数据集:我们在VisualHow数据集[23]上进行了实验评估,该数据集包含20,028个真实生活中的问题,这些问题被层次化地分类到18个主要类别和317个子类别中。每个类别中的问题数量从405到2,952不等,提供了多样化的问题解决场景。与之前仅关注顺序过程的数据集[24]、[25]、[26]、[28]、[29]、[35]不同,VisualHow数据集为每个问题都包含了一个解决方案图,表示各个步骤之间的结构化依赖关系。重要的是,大部分图都表现出非顺序特征,具有更复杂的步骤间依赖性。每个解决方案图由3到10个步骤组成,每个步骤都有图像和字幕进行描述。图像包括各种格式,包括真实照片、卡通、绘图、手写、图表等。字幕拥有30,000个词汇,确保了丰富和信息丰富的描述。为了促进注意力学习和评估,提供了图像和字幕的细粒度注意力注释。
  2. 模型:为了评估我们方法在处理视觉-语言问题解决任务中的有效性,我们在VisualHow数据集[23]上与最新技术方法进行了比较。我们将这些方法视为多任务模型,同时处理多模态指令的检索和步骤依赖性的预测。比较的方法包括SEQ GPO[64]、SEQ GAP[23]和SEQ ATT[23],它们使用各种顺序过程来预测单个问题解决步骤及其依赖性。具体来说,SEQ GPO使用广义池化操作符对齐视觉和语言特征并在特征聚合期间联合聚合它们。类似地,SEQ GAP采用全局平均池化方法独立处理不同图像区域和单词标记的特征,而不考虑它们的重要性。最后,SEQ ATT使用注意力机制来突出每个模态中的重要语义,然后根据学习到的权重进行聚合,这些权重由VisualHow[23]的地面真实注意力注释进行监督。为了进一步研究综合注意力机制的作用和重要性,我们使用我们提出的模型的三个变体进行了全面的消融研究:SGAN-Base、SGAN-Intra和SGAN-Inter。SGAN-Base是一个基本模型,使用与SGAN相同的架构,但不依赖任何外部注意力监督。这有助于我们理解模型在没有注意力注释的情况下自我学习的表现。对于SGAN-Intra和SGAN-Inter,我们分别使用步骤内注意力损失和步骤间注意力损失对模型进行监督。通过比较这三种变体的性能与我们的完整SGAN模型(包含步骤内和步骤间注意力监督),我们可以分析每种注意力组件的具体贡献。
  3. 评估:为了与其他方法进行公平比较,我们遵循数据集提供的官方训练和验证分割。我们通过从相应的子集中采样图像和字幕来构建候选池。这些候选池包括对应问题的正面样本以及从数据集中随机采样的其他问题的负面样本。注意,候选池仅在训练阶段包含训练数据,在验证阶段仅包含验证数据。与之前的研究[23]从不同问题中采样不相关步骤不同,本文为了获得负面步骤依赖性,我们首先采样负面问题,并包括负面问题中的所有步骤及其依赖性。这种方法作为评估模型性能的严格测试平台。按照VisualHow[23]的研究和我们提出的注意力评估方法,我们使用四类指标评估模型性能:
  • 步骤检索:为了评估模型在检索正确地面真实步骤方面的性能,我们根据候选步骤对输入问题的预测相关性进行排名(即   )。我们使用平均倒数排名(MRR)[17]、[18]、[23]、召回率@K [17]、[18]、[23]、[64]、[65]、[66]和召回率总和(RSUM)[23]、[64]、[65]、[66]指标。MRR计算正确步骤的倒数排名,定义为在排名列表中的位置的倒数。召回率@K衡量正确步骤出现在前K个排名步骤中的存在。RSUM定义为在不同K值(例如,K = {1, 5, 10})下召回率指标的总和。这些指标的组合提供了模型在图像和字幕检索方面的整体性能的综合概述。
  • 步骤依赖性预测:使用曲线下面积(AUC)[23]、[67]、精确-召回曲线下面积(AUPR)[67]和交并比(IoU)[23]、[27]、[68]指标来评估步骤依赖性的预测。AUC表示模型在区分步骤之间正确预测的正面(正确预测的边)和负面(错误预测的边)依赖性方面的整体性能。AUPR是在关注正面示例的情况下,对于不平衡数据设置中的一个有用的性能指标,这在我们的实验中是这种情况。为了测量IoU,我们应用一个阈值(例如,0.25、0.5、0.75)[23]到模型输出    来确定图的边缘,并计算预测图与真实图之间的交集和并集的边缘。这些指标使我们能够全面评估模型在预测解决方案结构方面的性能。
  • 步骤内注意力:为了评估步骤内注意力,输出    首先被规范化并转换为注意力图,其中每个值表示图像块或单词标记的注意力概率。地面真实注意力图的计算方式与注释类似。使用三种注意力指标来计算注意力图:线性相关系数(CC)[60]、[69]得分被计算为注意力图之间的皮尔逊线性相关;直方图交集相似性(SIM)[60]计算每个位置的最小值之和;Kullback-Leibler散度(KL)[60]基于信息论测量两个分布之间的差异。
  • 步骤间注意力:步骤间注意力基于最终层输出    和    通过三个指标同时评估,这些指标衡量出度   (见(10))、入度   (见(11))注意力得分,以及    计算为:
  • 实现细节:为了提取有区分性的视觉语言特征,我们采用了最新的预训练模型。对于视觉特征,我们使用在Instagram图像(WSL)[70]上训练的ResNeXT-101 [58](32 × 8d),图像大小为256 × 256。对于语言特征,我们使用在大量文本语料库上优化的预训练BERT模型[48]。我们使用这些模型从候选图像和字幕池中提取特征,然后将其用作我们SGAN模型的输入。我们使用Adam [71]优化器训练我们的模型,学习率为2 × 10^-4,权重衰减为10^-4,批量大小为16。余弦退火调度器安排学习率。我们将L = 3设置为网络层的总数。为了解决解决方案图中正面和负面样本之间的不平衡问题,我们首先使用与检索任务相关的损失训练模型5个周期,然后使用与整个解决方案图相关的损失训练剩余的20个周期。还使用了硬负样本挖掘策略[72]、[73]。按照算法1实现的后处理方法,我们设置了依赖性阈值    和检索阈值    来获得最终的解决方案图。
  • B. 定量结果

    1. 与最新技术的比较:我们的方法在概括视觉-语言问题的解决方案方面展示了卓越的性能,如表I所示。总体而言,它在所有评估指标上都优于最新的SEQ GPO、SEQ GAP和SEQ ATT方法[23]。在检索各个问题解决步骤的多模态指令方面,它在图像和字幕的MRR得分上分别取得了11.1%和12.5%的显著提高,以及在RSUM得分上提高了10.9%,这聚合了两种模态的Recall@K得分。进一步而言,在预测步骤依赖性方面,我们的方法表现出强大的能力,能够捕获解决方案的多样化结构,这对现有方法来说一直是一个挑战。它在图像和字幕的平均IoU得分上分别显示了81.0%和45.3%的改进。这些观察结果不仅展示了我们方法在解决复杂视觉-语言问题方面的优势,还突出了逐步构建任务解决方案的重要性。
    1. 与基线模型的比较:表I还将我们提出的SGAN模型与不同的基线模型进行了比较,包括不依赖于外部注意力注释监督学习SGAN-Base模型,使用步骤内注意力损失进行监督的SGAN-Intra模型,以及使用步骤间注意力损失进行监督的SGAN-Inter模型。比较表明,即使没有任何外部监督,SGAN-Base仍然能够有效地从地面真实解决方案图中自我学习综合注意力,并取得了有希望的结果。它的MRR、RSUM和IoU得分都显著优于SEQ ATT方法(例如,RSUM从410.77提高到433.55),证明了所提出网络设计的有效性。值得注意的是,引入步骤内或步骤间注意力监督可以带来实质性的改进。特别是,与SGAN-Base相比,SGAN-Intra在图像和字幕的MRR得分上分别提高了5.6%和6.3%。它的RSUM得分从433.55提高到451.82,比SGAN-Base提高了4.2%。这些改进表明,步骤内注意力的监督可以有助于两种模态中重要信息的定位。此外,SGAN-Inter的性能突显了它在预测步骤依赖性方面的实际意义。通过步骤间注意力监督,它在AUC、AUPR和IoU得分上平均提高了37.7%。这表明模型在真实世界场景中的应用性,其中详细的注释可能是有限的。总体而言,结合两种类型的注意力监督可以实现最佳结果,证明了我们方法在为视觉-语言问题解决建模注意力方面的整体设计的有效性。

    C. 定性结果

    为了进一步理解所提出综合注意力机制及其对预测问题解决过程的贡献,我们对预测的解决方案图及其步骤内注意力图进行了定性比较。
    定性示例如图3所示,其中所提出的SGAN方法与最新技术的SEQ ATT [23]方法和地面真实情况进行了比较。为了更清晰的说明,我们展示了从图像或字幕候选池中获得的最佳预测解决方案图。结果包括(1)使用算法1获得的最终解决方案图,显示了所有步骤的过程流程,以及(2)每个问题解决步骤的步骤内注意力图,叠加在图像上(即热点区域)和字幕上(即粗体文本)。
    尽管SEQ ATT利用了基于细粒度注释的显式步骤内注意力监督,但有时仍无法充分关注与问题解决相关的关键对象。如图3所示,SEQ ATT在调节器(见图3 A,步骤1)、糖和可可粉(见图3 B,步骤1)、结构化餐计划(见图3 C,步骤1)以及冲洗动作(见图3 D,步骤3)上分配了不足的注意力。相反,我们提出的SGAN在各个步骤中关注了关键信息,表现出了有希望的性能。SEQ ATT和SGAN之间步骤内注意力的比较表明,逐步细化注意力在图像和字幕中学习准确的注意力分配方面是有效的。
    此外,步骤间注意力机制也被证明在正确预测解决方案图方面是有效的。因为SEQ ATT一步一步地顺序预测依赖性,导致次优解(见图3 A-D)。不同地,SGAN中步骤内注意力和步骤间注意力的整合允许它更好地理解多个步骤中关键对象的重要性(例如,调节器、糖、可可粉、结构化餐计划、冲洗等)。此外,综合注意力机制的逐步学习允许SGAN通过交互式细化改进解决方案图。因此,SGAN通过整体视图和交互式细化,能够更准确地预测依赖性。

    D. 性能分析

    我们进一步提供了广泛的分析,以了解我们提出的方法中不同组件的角色和贡献。通过这些深入分析,我们旨在更深入地了解促成我们方法成功解决复杂视觉-语言问题的关键因素。
    1. 顺序和非顺序解决方案:与之前只关注顺序解决方案的数据集不同,VisualHow是一个独特的数据集,包含各种复杂的问题解决任务。为了展示我们提出的方法在不同类型的解决方案结构中的有效性,我们分别评估了模型在顺序和非顺序问题解决场景中的性能。在表II中,我们在两种问题解决场景中评估了我们方法的性能。结果表明,我们的SGAN方法在两种场景中都优于最新技术方法,实现了最高的MRR和IoU@0.5得分。这表明SGAN在捕获解决方案步骤的结构和依赖性方面表现出色,无论问题解决过程是否顺序,都使其成为涉及复杂结构和多样化多模态指令的广泛实际应用的多功能方法。
    1. 步骤内注意力:表III中的结果为我们的步骤内注意力机制的性能提供了见解。使用CC、KLD和SIM三个指标来评估注意力输出   ,量化了步骤内注意力学习的质量,并帮助评估该方法在关注每个步骤中重要信息方面的有效性。最新技术方法SEQ ATT [23],也遵循顺序方法学习步骤内注意力,在图像和字幕模态中均取得了适度的结果。然而,我们提出的SGAN与步骤内注意力(SGAN-Intra)在几乎所有指标(5/6)中都一致地优于SEQ ATT,无论是在图像还是字幕模态中。这表明,通过步骤内注意力逐步细化解决方案图使模型能够专注于每个步骤中的相关信息,从而提高注意力质量。另一方面,仅步骤间注意力(SGAN-Inter)对这些评估指标的影响并不显著。然而,整合两种注意力机制能够进一步提高模型在图像和字幕中找到重要信息的能力。这突出了结合两种注意力机制对于实现问题解决过程中全面理解的重要性。
    1. 步骤间注意力:理解在复杂问题解决中跨多个步骤注意力如何对齐对于开发有效的学习模型至关重要。在这里,我们通过检查步骤之间的注意力对齐来详细分析我们的方法。表IV展示了步骤间注意力评估的结果,这突显了模型捕获问题解决步骤之间依赖性的能力。用于评估步骤间注意力的指标包括    和   ,它们量化了解决方案图中注意力传播的质量。最新技术方法SEQ ATT [23]在捕获步骤间依赖性方面的性能有限,这一点从图像和字幕模态的所有指标相对较低的值中可以看出。这是因为SEQ ATT的顺序设计不能有效地将注意力传播到多个步骤之外的其他步骤,导致预测次优。然而,最显著的改进来自于在SGANInter模型中添加步骤间注意力。SGAN-Inter的    和    的值明显高于SEQ ATT、SGAN-Base和SGAN-Intra。完整的SGAN模型,结合了步骤内和步骤间注意力机制,在所有方法和模态中的所有指标上都取得了最佳结果。这些观察结果表明,步骤间注意力机制有效地捕获了问题解决步骤之间的依赖性,使注意力能够有效地传播到多个步骤,从而提高对各种解决方案步骤的时间顺序的推理。
    1. 注意力性能与任务性能之间的相关性:为了进一步研究步骤内和步骤间注意力对模型在解决视觉-语言问题中的表现的贡献,我们计算了注意力评估得分CC、 与我们提出的SGAN模型在预测顺序和非顺序解决方案方面的性能之间的皮尔逊相关系数r。表V显示了注意力评估得分与SGAN模型在预测顺序和非顺序解决方案方面的性能之间的皮尔逊相关系数(r)。对于步骤内注意力评估,我们观察到注意力性能与模型预测顺序解决方案的能力之间存在显著的正相关。对于IoU@0.5的相关系数分别为0.212(图像模态)和0.238(字幕模态)。在非顺序问题上,相关系数接近零,表明步骤内注意力性能与模型性能之间的相关性较弱。弱相关性表明,在最终的SGAN模型中,单个步骤内注意力的质量对模型性能的影响有限。相比之下,步骤间注意力评估显示出注意力性能与模型在解决顺序和非顺序问题方面的性能之间存在强正相关。特别是对于非顺序问题,注意力性能与IoU@0.5高度相关,图像和字幕模态的相关系数值分别为0.738和0.732。强正相关表明,步骤间注意力的质量与模型捕获问题解决步骤之间的依赖性并预测连贯和结构化解决方案的能力密切相关。这些结果表明,步骤间注意力机制在提高模型在解决顺序和非顺序问题方面的性能中起着至关重要的作用。
    1. 注意力层数:逐步细化注意力是我们提出的SGAN架构的一个基本组成部分,它使网络能够迭代地专注于视觉和文本输入中的关键信息,并发现步骤之间的依赖性。为了验证注意力层数的效果,我们对模型的四个变体进行了实验。如表VI所示,对于检索最相关的图像和字幕,增加注意力层数一致地提高了模型的性能。我们观察到,使用三层注意力层时,SGAN模型在图像和字幕模态的MRR、Recall@K和RSUM得分上达到了最高。然而,增加更多层并没有带来检索性能的进一步提高。在评估步骤依赖性方面,AUC、AUPR和IoU得分也观察到类似的趋势。总体而言,这个消融研究显示三层SGAN模型在捕获单个步骤中的相关信息和对步骤间依赖性建模之间实现了正确的平衡。这种配置在解决复杂的多模态问题方面实现了最佳性能,表明其在处理多模态问题方面的有效性。
    1. 跨层的逐步注意力细化:逐步细化注意力是所提出的SGAN方法的一个重要组成部分,它使模型能够逐步集中于视觉和文本输入中的关键信息,解开步骤间的依赖性。为了说明逐步细化注意力在我们提出的SGAN中的有效性,我们比较了不同层的输出,包括步骤内注意力    和步骤间注意力   )。如表VII所示,我们发现注意力对齐(步骤内注意力和步骤间注意力)随着层的深入逐渐增强。这表明,随着每一层的深入,模型细化其关注相关信息、捕获更详细关系的能力。这种注意力细化与预测性能指标的改进相符,包括MRR和IoU@0.5,表明逐步注意力机制在成功解决问题中的重要性。

    7) 注意力注释的比例:在表I中,我们已经展示了SGAN-Base可以从解决方案图中自我学习注意力,并且比需要额外注意力注释的SEQ ATT [23]模型表现得更好,而使用所提出的学习目标从注释中学习可以进一步提高模型的性能。为了研究注释对模型性能的影响,我们在训练中使用了不同比例的注释,范围从0%到100%,并使用各种指标评估模型的性能。表VIII呈现了我们在训练SGAN模型时使用的不同比例细粒度数据注释的消融研究结果。对于检索和依赖性评估,我们观察到所有评估得分随着细粒度注释比例的增加而稳步提高。这表明提供更详细的注释增强了模型准确检索各个问题解决步骤的多模态指令的能力,以及更好地预测步骤间结构化依赖性的能力。
    1. 使用预训练的定位作为注意力注释:尽管提供更多的注意力注释可以提高模型性能,但获取此类注释的实用性可能会引发可扩展性问题。为了解决这个问题,我们不是利用人类注释,而是使用预训练的GLIP [74]模型生成的真注释,该模型在各种对象级别识别任务中表现出强大的零样本和少样本迁移能力。如表IX所示,由GLIP生成的注释与VisualHow数据集中的人类注释表现出可比的性能。这种一致性表明,大型预训练视觉-语言模型可以为建模各个问题中的步骤内注意力提供足够的注释,为可扩展性提供了一种可行的方法。
    1. 多模态程序规划模型:表X比较了我们的方法与最新技术的多模态程序规划模型的性能,包括文本-图像提示(TIP)[75]和Skip-Plan [39]。TIP使用text-davinci-003模型[76]生成一系列步骤字幕,然后使用Stable Diffusion[77]将这些字幕转换为图像。Skip-Plan通过将长步骤链分解为几个可靠的子链来学习预测解决方案,解决了长序列预测中的错误累积问题。由于这些顺序方法无法处理复杂的图结构,我们只比较它们通过图像和字幕检索来评估我们的方法。如表X所示,TIP模型在图像和字幕检索任务之间的检索能力存在显著差异,表明它在处理和提取文本数据方面比视觉输入更有能力。另一方面,Skip-Plan模型表现出改进的检索性能,这是其在VisualHow[23]数据集上进行端到端训练的结果。然而,这些最新技术的程序规划方法仍然落后于我们的SGAN模型,因为它们的顺序特性。基于图的模型架构和新颖的注意力机制使SGAN能够利用VisualHow数据集中嵌入的广泛领域问题解决知识,实现了显著的性能提升。这一改进巩固了SGAN作为有效解决多模态复杂问题解决方案的地位。
    1. 注意力学习中使用的相似性函数:在这个消融研究中,我们调查了采用不同的注意力评估指标对注意力学习的影响。我们考虑了三种广泛使用的相似性函数:SIM [60]、JSD [61]、[62]和CC [60],它们被应用于监督我们提出的SGAN模型中的步骤间注意力机制。表XI的结果表明,我们的注意力监督方法对相似性函数的选择是鲁棒的,因为所有三种度量产生了相似的性能。这种性能的一致性表明,我们的方法有效地从不同角度捕获了注意力对齐,导致无论选择哪种相似性函数都能得到可比的结果。基于这些发现,我们在测量步骤间注意力时采用了JSD相似性。总体而言,这些结果证实了我们方法在从多个角度测量注意力对齐方面的有效性。这种多功能性对于SGAN模型在解决复杂多模态问题方面的成功至关重要,因为它允许模型捕获解决方案步骤之间的细粒度依赖性,从而实现更准确和连贯的预测。
    1. 图后处理阈值:最后,我们调查了阈值(即依赖性阈值    和检索阈值   )对预测解决方案图的影响。值得注意的是,按照VisualHow [23]基准,本文中呈现的定量结果,包括检索、依赖性、步骤内注意力和步骤间注意力的评估,都是基于概率输出   。依赖性阈值    和检索阈值    仅用于将软概率二值化为最终确定性解决方案图。在表XII中,我们展示了各种阈值组合及其对应的精度、召回率和F1得分,这些得分是通过将地面真实解决方案图与二值化解决方案图后处理后进行比较得出的。分析揭示了最终解决方案图不受依赖性阈值   (0.2 ≤    ≤ 1.1)的选择显著影响。检索阈值    作为精度和召回率之间的平衡因素,最终解决方案图对其选择不敏感(0.05 ≤    ≤ 0.65)。基于这一观察,我们经验性地选择了    和    作为我们的实验。

    VI. 结论

    在本文中,我们专注于解决视觉和语言应用中问题解决的理解和提供有效逐步指导的现有差距。我们的贡献是一种新颖的解决方案图注意力网络(SGAN)方法,它考虑了步骤内和步骤间的注意力机制,通过细化相关的问题解决步骤之间的依赖性,实现了解决方案的逐步构建。我们方法的灵活性允许以各种结构制定解决方案,适应顺序和非顺序模式。为了提高问题解决过程中注意力的准确性,我们引入了定量指标来研究注意力在任务完成中的作用。这些指标作为注意力监督的有价值的工具,提供了如何有效利用注意力机制的见解。
    我们的实验结果展示了我们提出的方法在解决广泛的视觉-语言问题方面的优势。通过使用我们的模型,我们在制定具有复杂图结构的解决方案方面取得了显著改进。此外,我们的发现揭示了成功问题解决的关键组成部分,为未来的研究和应用提供了宝贵的见解。我们相信,从我们的工作中获得的见解将对解决复杂的视觉问题和为各种日常生活活动提供有效指导产生深远影响。我们的方法不仅推进了视觉-语言问题解决的最新技术,而且为开发更强大、更灵活的注意力机制奠定了基础。我们希望我们的工作能激发该领域的进一步进步,我们设想我们提出的基于图神经网络的模型和注意力监督技术将继续推动更有效、更高效地解决问题的进展。
    虽然我们提出的方法在解决视觉-语言问题解决任务方面显示出有希望的结果,但它也有一些限制,并为未来的研究开辟了有趣的途径。一个限制是,我们的方法依赖于注释数据进行训练和监督。我们已经探索了使用GLIP生成的注释来减少数据依赖性并提高我们模型的泛化能力,这显示出有希望的结果。我们在工作中面临的另一个挑战是,步骤之间的依赖性可能并不总是清晰的。在存在多种可能的依赖性的情况下,可能会导致构建解决方案图时存在歧义。开发处理此类歧义并有效捕获不确定依赖性的方法是未来研究的重要方向。

    声明

    本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

    CVPaper
    这里有知识和乐趣,感悟和哲理,一起来嗨!!!
     最新文章