点击 上方“ CVPaper ”,选择加" 星标 "或“ 置顶 ”
顶刊论文解读,第一时间分享
Learning by Asking Questions for Knowledge-Based Novel Object Recognition 基于提问学习的知识型新对象识别 Kohei Uehara;Tatsuya Harada
摘要 在现实世界的对象识别中,存在着众多需要识别的对象类别。基于监督学习的传统图像识别方法只能识别训练数据中存在的对象类别,并且在现实世界的应用中受限。相比之下,人类可以通过提问和获取知识来识别新对象。受此启发,我们提出了一个框架,通过生成问题来获取外部知识,使模型能够即时识别新对象。我们的框架包括三个组件:基于知识的物体分类器(Object Classifier, OC),执行基于知识的对象识别;问题生成器(Question Generator, QG),用于生成获取新知识的有意识的问题;以及策略决策(Policy Decision, PD)模型,它决定了要询问的问题的“策略”。PD模型采用了两种策略,即“确认”和“探索”——前者确认候选知识,后者探索完全新的知识。我们的实验表明,与几个基线相比,所提出的流程有效地获取了有关新对象的知识,并且利用所获得的知识实现了新对象识别。我们还在现实世界中进行了评估,其中人类对生成的问题作出响应,并且模型使用所获得的知识重新训练OC,这是朝着现实世界中通过提问学习的人在循环学习框架的基本步骤。我们计划在工作被接受后立即发布数据集。
关键词 视觉问题生成 · 新对象识别 · 人在循环学习 · 知识获取
1 引言 对象类别识别一直是计算机视觉研究的核心话题。传统上,对象识别是通过使用大量图像-标签对的监督学习来解决的。然而,采用监督方法,模型只能识别一组固定的的对象类别,并且不适合现实世界的对象识别,现实世界中存在着众多的对象类别。最近,基于对比学习的方法已经出现,这些方法使用图像-文本对数据集进行训练。通过使用数亿个图像-文本对进行训练,这些模型已经获得了对各种对象的显著零样本识别能力。然而,这些模型只能识别通常出现在预训练数据集中的对象,对于罕见对象的效果不佳。收集新数据并重新训练整个模型,以使这些模型识别新对象,在数据收集和计算成本方面是不切实际的。因此,开发一种方法,使模型能够在保持低数据收集成本的同时,尽可能避免模型重新训练,以识别新对象至关重要。提问和显式获取知识是人类获取关于世界知识的重要技能。受此启发,我们探索了通过提问动态增加图像识别知识的方法。这种方法比传统的监督学习方法有几个优点:(1) 它只需要少量数据来获取知识,因为系统只获取所需的知识;(2) 它具有低数据收集成本,因为系统本身寻找所需的数据。
我们提出了一个包含知识基物体分类器(OC)、知识获取的问题生成器(QG)和确定最优提问策略的策略决策(PD)模型的流程。在先前关于结构化知识的研究基础上,我们将知识表示为知识三元组,即三个单词或短语的列表:头部、关系和尾部,例如 ⟨dog, IsA, mammal⟩。为了预期最终目标,即使用所获得的知识来提高对象识别性能,OC被设计为在显式建模知识的同时执行对象识别。这是通过计算图像-知识相似性来实现的。然后,QG模型生成问题,以将新知识添加到知识源中,用于新对象识别。在QG模型中,我们使用两种模式进行问题生成:确认和探索。
让我们想象一下,我们的模型第一次遇到泰迪熊的图像的情况。由于它对泰迪熊一无所知,它进入“探索”模式来生成问题。在这种模式下,模型会提出一些不关注具体细节的宽泛问题,允许它学习全新的知识。这样的问题的一个例子是:“坐在狗旁边的物体是什么类型?”当人类提供了答案时,模型使用该答案将其新获得的知识添加到其知识源中。例如,它可以学到“teddy-bear, IsA, stuffed animal”并将其存储在知识源中。
第二种模式,名为“确认”,是当模型已经对所讨论的对象有一些知识时使用的。在这里,模型会提出具体问题以确认它所知道的内容。例如,如果模型已经通过之前的问题和答案将对象识别为“teddy-bear”,它可能会随后询问泰迪熊的材质。模型设置一个目标知识如 ⟨teddy-bear, MadeUpOf, [MASK]⟩ 并生成一个问题,如“这个泰迪熊是由什么制成的?”在问答过程中,模型的任务是确定要采用的适当策略——探索或确认——并决定停止提问的最佳时机。这些决策是由策略决策(PD)模块做出的。
PD模块通过考虑当前的OC模型状态和提出的问题历史来生成问题策略。PD模块使用强化学习算法进行训练,以最大化OC模型的预期性能,从而在不同场景中选择最优策略。
我们提出了一个新的流程,通过提问来获取有关新对象的知识。我们基于CLIP设计了OC模型,并将QG模型设计为基于Transformer的文本生成模型。
我们收集了一个新的数据集——Professional K-VQG数据集,其中包含由专家注释的知识感知视觉问题。这个数据集补充了现有的K-VQG数据集,后者在专家注释方面有限。通过将我们的新数据集与现有的K-VQG数据集合并,我们创建了一个丰富的资源——KVQG v2数据集。
我们将所提出的流程与几个基线进行了比较,并展示了通过问题生成获取的知识对新对象识别是有效的。
我们进行了一个实验,采用人在循环设置,人类为生成的问题提供答案,并且用人类编写的答案来训练OC模型。这个实验展示了所提出流程在现实世界应用中的实用性,并通过将人类专业知识整合到学习过程中来验证其有效性。
2相关工作 2.1 新对象识别 新对象识别,旨在增加可识别对象类别的数量,是对象识别领域中一个广泛研究的问题。新对象识别的一个典型方法涉及训练一个模型,该模型计算对象的视觉和语义特征之间的相似性。为了计算新对象的语义特征,通常使用关于对象的外部知识(例如,属性,类层次结构或文本描述)。最近提出的视觉和语言对比学习方法,如CLIP和ALIGN,利用极其大规模的图像字幕数据学习图像和它们的文本描述之间的关系。借助前缀调整技术,这些模型展示了强大的零样本识别能力。然而,上述研究共享一个限制,即它们需要一个关于新对象的精心准备的知识数据库或大量的图像-文本对数据集和精心设计的问题,这两项都是人类劳动密集型的任务。我们提出的方法通过使模型能够通过问题生成动态获取所需知识,从而解决了这个限制,从而减少了人力工作。
2.2 视觉问题生成(VQG) 早期关于VQG的研究采用了简单的方法,涉及将图像特征输入到文本解码器中并生成问题。最近的研究集中在提高对生成问题内容的控制上。通常,这涉及向文本解码器提供除图像特征之外的额外信息以实现更好的控制。这是通过提供答案,答案类别或通过针对预期通过提问获得的知识来实现的。后者使用亚马逊Mechanical Turk(AMT)创建了一个知识感知VQG数据集(K-VQG)并采用了UNITER,这是一个最先进的视觉和语言变换器,作为图像和知识的编码器,成功地生成了知识获取的问题。我们基于他们的工作设计了我们的问题生成模型。此外,我们随后策划了一个新的数据集,名为Professional K-VQG。我们遵循了他们的方法的相同格式,但有一个重要的不同——我们的注释完全由专家执行,而不是由AMT上的工人执行。我们在表1中总结了现有VQG数据集和我们的数据集的关键特征。我们的数据集是第一个具有常识知识注释和目标边界框的数据集,并且由人类注释。
2.3 通过提问学习(LBA) LBA是一种生成问题以收集模型训练的额外数据的方法。LBA已经在自然语言处理和视觉-语言领域进行了研究。在自然语言处理领域,各种研究利用LBA增强了阅读理解等任务。例如,Du等人探索了从文本段落自动生成问题,利用基于注意力的序列学习模型。Yuan等人采用了LBA技术来提高问答系统的性能,而好奇心驱动的问题生成采取了一种新方法来生成问题,旨在丰富现有知识或阐明先前信息以进行问答任务。在视觉-语言领域,Misra等人将LBA应用于VQA任务。与传统的VQA方法不同,在这些方法中,问题在训练期间是预定义的,他们的模型有能力生成自己的问题,并实现了一个更自然和互动的学习过程。进一步通过LBA桥接视觉和语言,Shen等人的研究表明了一个代理,通过向人类提出特定的自然语言问题来积极学习图像字幕任务。然而,尽管取得了这些进展,现有研究主要集中在明确定义的任务上,如阅读理解、标准VQA或图像字幕。与这些方法不同,我们通过引入一个框架,动态地通过提问识别新对象,来解决现实世界对象识别的广泛挑战。
3 专业K-VQG数据集 为了解决现有数据集的限制并进一步推进知识感知视觉问题生成领域,我们开发了一个新的数据集,专业K-VQG。这个数据集包括与对象相关联的知识感知视觉问题,由专业注释器注释。图像来源于Visual Genome,而知识来源于ConceptNet和Atomic20 20。我们确定了Visual Genome数据集和知识源两者共有的371个对象类别。
ConceptNet将知识结构化为格式为 ⟨head, relation, tail⟩ 的三元组。例如,三元组 ⟨cat, AtLocation, sofa⟩ 表示猫可以在沙发上找到的概念。ConceptNet包含大约3400万个三元组和37种关系类型。然而,ConceptNet中的某些关系,如DistinctFrom或MotivatedByGoal,不适合生成关于图像的问题。因此,我们确定了15种适合图像基础问题生成的关系类型。
Atomic20 20功能包括超过100万个与物理实体关系(例如,⟨bread, ObjectUse, make french toast⟩)、以事件为中心的关系(例如,⟨PersonX eats spinach, isAfter, PersonX makes dinner⟩)和社交互动(例如,⟨PersonX calls a friend, xIntent, to socialize with their friend⟩)相关的知识三元组。对于我们的数据集构建,我们专门使用了物理实体关系,因为它们与Visual Genome中的图像更相关。
在注释过程中,我们首先从知识源中提取了图像中每个候选对象对应的知识三元组。随后,指示注释器使用知识三元组的头部或尾部创建知识感知问题。注释器被提供了一个指示目标对象的边界框。此外,他们被提供了一个与图像和目标对象相关的候选知识项列表。在选择了一个知识项之后,注释器根据所选知识编写了问题和答案。制定问题和答案的指南摘要如下:
这一过程产生了9210张图像的10431个问题,有5242个独特的知识。图2显示了数据集中的示例问题,展示了它们与图像和目标知识——即,如果目标知识是 ⟨[MASK], IsA, feathered bird⟩,实际的问题是关于鸟类的类别(在一个大水体中游泳的有羽毛的鸟是什么?)。数据集的词云和关系分布如图3和图4所示,它们揭示了涵盖食品、服装和家具等主题的多样化问题范围。尽管最常见的关系,“UsedFor”和“IsA”,分别约占总数的50%和25%,但这种明显的偏见反映了这些关系在知识源中的普遍性。
3.1 K-VQG v2数据集 为了增强现有的K-VQG数据集(称为K-VQG v1),我们将其与专业K-VQG数据集合并,形成了K-VQG v2数据集。考虑到本研究中对象识别模型的整合,我们排除了Faster R-CNN未能将目标区域检测为对象的样本(即,检测到的边界框与目标边界框之间的IoU小于0.5)。专业K-VQG数据集和K-VQG v2数据集的详细统计数据如表2所示。K-VQG v2数据集以9210张图像上的22212个问题为特色,与以前的版本相比有了显著增加。K-VQG v2数据集的一个显著特点是独特答案和知识的数量增加。它有4953个独特答案和7808个独特知识项,这比以前的版本有了相当大的改进。这表明K-VQG v2数据集在答案和知识方面具有更高的多样性,可以提高训练的VQG模型的泛化能力。这些统计数据揭示了K-VQG v2数据集不仅更大,而且比其前身更多样化、更全面,使其成为知识感知VQG领域研究和开发的宝贵资源。
4 方法 我们的系统设计有三个模块:物体分类器(Object Classifier, OC)、问题生成器(Question Generator, QG)和策略决策模型(Policy Decision model, PD)。在本节中,我们将提供系统流程的概述,然后详细描述每个模块。整个流程如图5所示。
4.1 概述 从OC模型开始,该模块采用从图像中提取的对象区域,并预测与对象最相关的认知,输出对象标签。更具体地说,OC模型利用与其相关联的知识的特征之间的相似性,使用知识中心的对象识别能力,从知识源 中检索相应的知识三元组 。这里, 表示头部(例如,对象标签), 表示关系, 表示尾部(例如,对象属性或特征)。OC的输出本质上是基于 中匹配知识的对象标签。当新知识被添加时,这个分类器的优势变得明显;不需要重新训练整个模型,只需更新知识源。请注意,在我们的研究中,我们为图像中的对象识别提供了预定义的对象区域。我们选择不包括对象检测,以保持专注且不太复杂的架构,因为我们的主要目标是学习新的对象概念。 QG模型根据OC的输出知识和感兴趣区域,生成关于图像中对象的问题,以获取对新对象识别有用的相关知识。具体来说,QG接受一个部分掩蔽的知识三元组(例如,⟨[MASK], IsA, mammal⟩)作为输入,该输入取自OC模型的输出。这种方法鼓励模型生成有助于获取最有效的知识以进行对象识别的问题。
PD模型在决定问题的顺序中起着至关重要的作用。它以OC模型的当前状态(即,知识相似度分数的分布)和区域图像作为输入,输出下一个最合适的问题。本质上,这个模块决定了提问的策略。如果没有这个模块,模型可能会收集错误的知识或者不必要地获取它已经拥有的信息。 获取对生成问题的答案后,所获得的知识 被添加到模型的原始知识源 中。OC的知识源随后更新为 。在随后的推理阶段,OC引用更新后的知识源 用于对新对象进行预测。 4.2 物体分类器 如图6所示,OC模型旨在利用与对象相关的知识,通过利用对象特征 和相关知识的 之间的相似性来预测对象标签。具体来说,相似性计算为 ,其中 表示对象和知识特征的维度。 为了有效地预测对象知识,我们决定基于最新的视觉识别模型CLIP(Radford, 2021),该模型包括一个图像编码器和一个文本编码器,计算图像和文本之间的相似性。CLIP的图像编码器 接受裁剪后的图像 作为输入,并输出视觉特征 。知识特征 是使用预训练的CLIP文本编码器 计算的。在将知识输入文本编码器之前,我们将三元组表示(例如,⟨cat, IsA, mammal⟩)转换为带有掩蔽头部的单个句子(例如,⟨[MASK] is a mammal⟩),允许模型专注于与对象相关的知识而不是对象标签本身。 余弦相似度用于测量对象和知识特征之间的相似性,如下所示: 其中 表示第 个知识的真值标签。在成功预测知识后,OC模型可以识别对象知识的关系和尾部。从预测的知识 推断标签,我们搜索满足预测关系和尾部条件的知识源 。匹配知识对应的头部作为预测标签。这个过程允许OC模型基于所获得的知识有效地识别和分类对象。
4.3 问题生成器 在我们的问题生成模型中,我们采用了基于最新视觉-语言模型ViLT作为编码器和GPT-2作为解码器的视觉-知识编码器。整体架构如图7所示。 ViLT编码器 接受两个输入:(1) 输入图像 和掩蔽区域图像 ,以及 (2) 以句子形式的知识三元组 ,例如 ⟨[MASK] is a mammal⟩。掩蔽区域图像是通过将目标区域外的像素值设置为零来创建的。 在知识编码器中,掩蔽知识中的每个单词被嵌入到知识嵌入空间 ,其中 表示单词索引, 表示嵌入空间的维度。知识嵌入向量随后与模态类型嵌入 和位置嵌入 相加。 ViLT的视觉编码器处理输入图像 ,通过将其划分为大小为 的块并将其展平为二维块 。这里, 表示块的数量,计算为 。视觉嵌入层将块嵌入到视觉嵌入空间 。视觉嵌入向量随后与可学习的位置上嵌入 和可学习的模态类型嵌入 相加。 对于掩蔽区域图像 ,使用相同的嵌入层,唯一的区别是使用不同的模态类型嵌入向量。一旦获得视觉和知识嵌入,它们就被连接并输入到堆叠的变换器层中,以产生上下文化的嵌入向量 。基于GPT-2的解码器,由堆叠的变换器层组成,使用编码器输出 作为其初始输入。它使用先前单词序列 $y_{<t}$ 和上下文向量="" $z$="" 预测时间步="" $t$="" 的下一个令牌="" $\hat{y}_t$。该模型被训练以最小化以下损失函数:<="" p="">$$L = -\sum_{t=1}^{|y|} \log P(y_t | y_{<t}, \text{enc}([i,="" i_m],="" k))="" $$="" 其中 表示问题的第 个单词, 表示ViLT编码器,负责产生融合的视觉和文本知识特征。 4.4 策略决策模型 由于VQG模块输出问题 针对目标知识 ,PD模块确定将用作VQG模块输入的目标知识 。首先,我们解释如何确定目标知识。在知识获取中,获取“适当”和“有用”的认识至关重要,即以尽可能低的成本获取正确的知识。这里,“低成本”意味着应尽可能避免重新训练OC模型。
因此,我们提出了使用两种不同的问题生成模式:“确认”和“探索”。如第1节所述,“确认”模式用于当未知对象与已知对象类别相对接近时,而“探索”模式用于当未知对象远离现有对象类别时。每种情况下的目标知识 定义如下: 其中 和 分别表示预测的关系和尾部, 是基于数据中频率任意选择的关系。 我们为PD模块提出了两种方法:一种朴素的贪婪模型和一种基于强化学习的模型。 4.4.1 贪婪模型 在贪婪模型中,我们根据模型从答案中可以获得的预期效用值来控制模式选择策略。我们定义策略选择函数 ,其值为确认模式时为1,探索模式时为0。我们随后采用一种策略,使用训练数据 的效用函数 来最大化模型的预期效用: 我们定义效用函数为预期答案的“正确性”和“信息量”的总和。“正确性”表示通过答案预期获得的知识的估计正确性。为了简化,我们假设预言答案应该是正确的,并假设当模式为“探索”时,预期正确性为1.0。相反,当模式为“确认”时,预期正确性取决于置信度 ;因此,我们将预期正确性设置为OC模型输出的预测分数。“信息量”是表示获得的知识对模型的有用性的值。对于“探索”模式,我们使用输入图像和目标知识特征之间的相似性 来估计信息量。对于“确认”模式,我们使用基于训练数据的平均相似性 作为相似性的预期值。效用函数表示如下: 一旦确定了输入知识 ,就使用它作为输入进行问题生成。 4.4.2 基于RL的策略决策模型 除了贪婪模型,我们还考虑了一种改进的基于RL的模型。我们使用一个带有四个输入的循环神经网络构建这个基于RL的模型:区域图像特征 和当前预测分数 。我们按照以下方式制定PD模型: 其中 表示时间 的动作, 表示当前预测分数。 表示前一时间步的隐藏状态。我们使用与OC模块中使用的相同的预训练CLIP特征提取器提取图像区域特征 。我们使用两层LSTM作为循环神经网络。这个PD模型被训练以最大化预期累积奖励 。奖励由以下值组成: 目标区域一致性 :当生成的问题实际上与目标对象的区域相关时,给出此奖励。为了计算这个值,我们首先通过UNITER定位模型计算问题到区域的定位分数。UNITER定位模型接受问题 和图像 作为输入,并输出问题相关的图像区域的概率。我们随后计算目标区域和概率最高的区域之间的边界框交集(IoBB)得分。奖励计算如下: 信息量 :这个值意味着问题的信息量,即通过添加由生成问题获得的知识,对象识别模型的识别性能可以提高多少。为了计算这个值,我们使用预言答案模型为生成的问题提供答案。预言答案模型接受问题 和图像 作为输入,并输出答案 。预言答案模型的详细信息在下一节中描述。我们随后计算添加由生成问题获得的知识前后的对象识别模型的识别性能。我们使用添加知识前后识别性能的差异作为奖励。这个奖励的计算如下: 此外,我们对动作选择设置了某些限制。首先,模型不允许多次选择确认模式。这是因为确认模式的目标知识完全依赖于最初预测的知识;因此,问题目标在整个时间步骤中永远不会改变。其次,如果模型输出了无问题模式,则不允许它在剩余的时间步骤中选择任何其他模式。这是因为模型已经决定它已经收集了所需的知识;因此,它不需要提问。 我们使用REINFORCE算法训练PD模型。PD模型的梯度计算如下: 其中 表示PD模型的参数, 是给定区域图像 、当前预测分数 和隐藏状态 的动作 的概率, 表示时间步数。我们将折扣因子 设置为0.99。除了策略梯度损失外,我们还训练PD模型以最小化熵损失,其计算为动作分布的香农熵: 这个熵损失用于鼓励模型探索各种动作,避免陷入特定动作。整个损失函数计算为策略梯度和熵损失的总和,如下所示: 4.5 预言答案器 给定一个图像和生成的问题,预言答案器预测问题的答案知识。我们将这个模块实现为三个子模块的组合:(1) 头部分类器,(2) 关系分类器,和 (3) 区域分类器。每个模块检查生成的问题是否“有效”,如果所有模块都同意问题是“有效的”,预言答案器搜索预言知识源并输出与目标头部和关系匹配的知识。预言知识源是合并了ConceptNet和Atomic20的知识源。 头部分类器 从生成的问题中预测目标知识的头部,即 。我们按照标准VQA方法实现这个模块,即作为一个多类分类问题,给定一个图像和问题,输出适当的实体。对于这个模块,我们微调了预训练的ViLTVQA模型。如果预测的头部与目标区域中的对象相等,则此模块返回“有效”。 关系分类器 从生成的问题中预测目标知识的关系,即 。由于这个问题可以表述为句子分类问题,我们使用微调的Distil-BERT作为关系分类器。如果预测的关系与等式中的靶标关系 匹配,则此模块返回“有效”。 区域分类器 预测目标区域,即 。我们设计这个模块作为一个模型,给定一个问题和一组候选区域,输出与问题最相关的区域。问题的设置类似于指代表达理解(RE Comprehension)任务。因此,我们使用了在RE Comprehension任务中表现出色的微调版本的UNITER定位模型。如果预测的区域与目标区域足够接近,则此模块返回“有效”。我们计算预测区域和目标区域之间的IoBB(交并比),如果值大于0.4,则认为两个区域足够接近。 预言知识源,用于为生成的问题提供答案知识。要构建这样一个知识源,重要的是要收集尽可能多的正确知识。因此,我们通过以下步骤扩展了数据集中的原始知识源: 添加所有头部实体已经包含在数据集中的原始知识源ConceptNet和Atomic20中的所有知识。 对于上一步收集的每项知识,我们添加头部实体是原始知识头部实体同义词的知识。要确定头部实体是否是原始知识的头部实体的同义词,我们使用ConceptNet中预训练的词嵌入。我们使用头部实体的词嵌入与数据中所有候选头部实体的余弦相似度来计算相似度。如果相似度高于0.5,则添加候选头部实体的知识。 通过这些程序,我们收集了与数据集相关的大量知识。训练和验证数据集中的原始知识源包含8585个知识项,而扩展的知识源包含124,326个知识项。
4.6 知识扩展 当模型通过生成的问题为问题 获得答案知识 时,将其添加到模型的知识源 中,即 。为了避免冗余,我们使用不同类型的QG方法:基于神经的QG和基于规则的QG。基于规则的QG方法使用简单规则为输入知识生成问题,例如 ⟨[MASK], UsedFor, [MASK]⟩ → “这个对象用来做什么?”或 ⟨[MASK], MadeUpOf, [MASK]⟩ → “这个对象是由什么制成的?”神经QG更擅长生成反映图像内容和目标知识细节的问题,以及允许回答者清晰识别目标对象的问题。然而,考虑到在多轮提问中的使用,一旦生成了一个可以清晰识别目标对象的问题,就不需要进一步的信息来识别后续问题中的目标对象。 我们基于区域分类器模型决定使用哪种QG方法,该模型可以识别问题中提到的图像区域。我们计算每个问题当前问题的真值目标区域和预测区域之间的IoBB。如果到目前为止问题的IoBB大于阈值,我们使用基于规则的QG方法。否则,我们使用基于神经的QG方法。 其中 表示输入图像, 表示PD模型确定的动作, 表示当前回合, 表示阈值。 5 实验 5.1 训练 我们使用了与CLIP相同的文本编码器,并使用ViT-B/32作为OC模型中的视觉编码器。OC模型从CLIP的预训练检查点开始训练。训练周期为200次,采用余弦学习率调度器和0.2的预热比例。我们使用了Adafactor优化器,学习率为8e-5,权重衰减为0.01。在8×Tesla A100 GPU上,批量大小为512,OC模型的训练大约需要12小时。 我们在两种设置下测试了所有方法:零样本和微调。在零样本设置中,我们没有使用QG模型获得的知识对OC模型进行任何微调。在微调设置中,我们使用获得的知识对OC模型进行了微调。为了在微调设置中保持对已知类别的性能,我们采用了简单的重放方法,即从训练集中随机采样与新获得数据相同数量的样本,并与新获得的知识一起输入到模型中。对于微调,我们训练了OC模型40个周期,学习率为8e-5,权重衰减为0.01,将梯度范数限制为0.1。在VQG模型中,我们使用了预训练的ViLT编码器和预训练的GPT-2解码器。 5.2 基线 CLIP-Ret:在这种情况下,不使用QG模型执行知识获取,评估仅使用训练集训练的OC模型的性能。 All Exp./All Conf.:在这些设置中,问题生成策略分别固定为“探索”和“确认”。 随机策略:问题生成策略是随机选择的。我们使用不同的随机种子测试了这种方法三次。
5.3 评估指标 遵循先前关于多标签对象识别的研究,我们使用平均精度均值(mean average precision, mAP)评估了所提出模型的性能。我们按如下方式计算每个类别 的平均精度(AP): 其中 表示带有标签 的样本数量, 表示第 个排名预测的精确度。我们分别计算已知类别和新类别的mAP。
5.4 结果与讨论 主要结果如表3所示。我们比较了基线(CLIP-Ret.)、单轮方法和五轮方法,以及零样本和微调设置的性能。将基线CLIP-Ret.与其他方法进行比较时,基线在所有指标上都较差。这突出了通过问题生成进行知识获取对于提高对象识别性能,特别是对于新类别的有效性,如果没有额外信息,新类别更具挑战性。 在单轮设置中,我们的Greedy方法在所有指标上都优于All Conf.和All Exp.,实现了最高的整体mAP、已知类别mAP和新类别mAP。这证明了我们Greedy方法在仅一轮问题生成中获取有用知识进行对象识别的有效性。 在五轮设置中,我们的RL Policy方法在所有指标上都取得了最佳性能,与All Exp.和Random方法相比有显著提高。此外,我们的RL Policy方法的标准差相对较小,表明我们的方法在多次运行中具有稳定性。 将单轮和五轮方法进行比较时,我们观察到五轮方法通常具有更好的性能,特别是在微调设置中。这种改进在新类别mAP中最为明显,这支持了我们模型成功学习选择策略、生成问题和获取有助于识别新对象的有用知识的观点。 从消融研究的结果来看,区域一致性和奖励计算中的信息量有效地有助于通过问题生成获取新信息。值得注意的是,在没有信息量的设置下,新对象的识别性能在微调期间显著下降。这可以归因于,在不考虑信息量的情况下进行奖励计算时,问题倾向于获取冗余知识。 5.5 模型组件变化 在这里,我们进行了实验,以查看在变化各个组件的结构时性能的变化,并提供了结果的详细分析。在主要结果中,我们使用了基于预训练ViLT的模型作为编码器,基于GPT-2的模型作为解码器。这里,我们尝试了对应的模型,一个使用预训练的UNITER作为编码器,BART作为解码器。 此外,我们进行了消融研究,以调查在改变模型输入组件时问题生成性能的变化。具体来说,我们评估了在模型输入中分别省略全部图像、区域图像和目标知识这三种情况。 对于所有模型,我们报告了“确认”设置和“探索”设置的结果。作为评估指标,我们使用了BLEU-4、METEOR、CIDEr和Mean IoU。BLEU、METEOR和CIDEr得分是将生成的问题与真实问题进行比较的质量评估指标。Mean IoU(交并比)是评估问题是否关于图像中正确区域的指标。 我们计算了生成问题预测区域与真实问题的IoU。为了预测问题的目标区域,我们使用了基于UNITER定位模型的区域定位模型 ,它从问题 预测问题的目标区域 。我们基于UNITER定位模型构建了定位模型,与预言答案器模型中的区域分类器相同。 在问题质量方面,以BLEU-4、METEOR和CIDEr衡量,主要模型UNITER + BART和ViLT + GPT-2之间的差异很小。然而,当检查目标区域正确性时,Mean IoU得分表明这些架构之间存在显著差异。 在评估各个输入的影响时,图像输入的省略导致两种模式的性能指标显著下降。这突出了图像上下文在实现高质量问题生成中的重要性。知识输入的移除导致性能显著下降,这突显了知识在生成连贯和上下文适当问题中的关键作用。 虽然ViLT + GPT-2和UNITER + BART架构之间的区别并不显著影响问题的整体质量,但它确实影响了区域定位的精度。更显著的是,关键输入(图像、区域或知识)的变化似乎对性能有更大的影响。这意味着我们提出的高度模型结构,如区域信息的编码和知识嵌入的引入,对性能有重要贡献。
5.6 数据集变化 本节介绍了使用不同数据集进行VQG的比较结果。我们使用了新构建的K-VQG v2数据集、规模较小的通过众包注释的KVQG v1数据集和基于规则算法生成的CRIC数据集进行了实验。我们使用了与主要实验相同的架构和训练设置,即ViLT + GPT-2。为了在恒定标准下评估结果,我们使用K-VQG v2数据集的验证分割进行了评估。采用的评价指标与5.5节一致,包括用于评估生成问题质量的BLEU-4、METEOR和CIDEr,以及用于衡量生成问题与目标区域对应程度的Mean IoU。 结果表明,使用K-VQG v2数据集生成的问题质量优于其他数据集,并且与目标区域的一致性更高。这种优越的性能被认为是受到数据量和质量的影响。例如,K-VQG v2数据集大约是K-VQG v1的1.5倍。此外,人们认为由人类注释员编写的K-VQG v2数据集包含比基于规则的CRIC数据集更多样化和自然的问题。 这些结果强调了我们的K-VQG v2数据集适合构建用于生成关于目标对象的知识的问题的模型,这是我们研究所需的。评估指标提供了全面的比较,突出了K-VQG v2数据集在提高问题质量和与目标区域的相关性方面的有效性。 5.7 定性示例 我们在图9和图10中展示了我们的模型与RL策略的定性示例。在图9最左边的例子中,目标对象是“面包”,这是一个新类别。模型首先在探索模式下提出了一个问题,即目标知识是 ⟨[MASK], AtLocation, [MASK]⟩。由于第一个问题被认为是有效的,模型接着使用Rule-VQG模型在确认模式下提出了第二个问题,即目标知识是 ⟨[MASK], IsA, food⟩。在中间的例子中,目标对象是“监视器”,这也是一个新类别。在这种情况下,模型首先在探索模式下提出了一个问题,其中目标知识是 ⟨[MASK], UsedFor, [MASK]⟩。由于问题被认为是有效的,下一个问题在确认模式下提出;目标知识是 ⟨[MASK], UsedFor, work on mturk⟩,随后的问题在探索模式下提出。在最右边的例子中,在第五轮中,模型决定停止问题生成(“没有问题”)。正如这个例子所示,我们的模型可以在获得足够的知识来识别目标对象时停止问题生成。 在图10中,我们展示了模型未能生成有效问题的示例。在左边的例子中,第一个问题“桌子上的圆形白色物体旁边的另一个用来为多个人盛放更多食物的是什么?”被预言答案器认为是无效的。在这种情况下,生成的问题似乎错误地针对图像中的“盘子”,而正确的目标对象是“叉子”。第二个问题“盘子上方的金属物体的目的是什么?”正确地针对了叉子。因此,模型可以获得知识 ⟨fork, UsedFor, feed self⟩。在右边的例子中,模型在所有五轮中都未能生成有效问题。在这种情况下,模型不断地围绕图片中间的甜甜圈提出问题,而正确的目标对象“凉鞋”位于图片的右下方区域。这归因于VQG模型在正确定位图像中的目标对象方面的有限能力。
6 人类评估 我们进行了人类评估,以评估我们的模型生成的问题对于识别新类别的有用性。为此,我们使用AMT作为评估平台。由于模型实时生成问题比较困难,我们使用了以下程序:首先,在本地服务器上使用预训练模型提前生成了与图像相关的初始问题。随后,将生成的问题提交到AMT上,要求工人提供适当的知识作为答案。收集到初始问题的答案后,将初始问题和工人的答案输入训练好的模型以生成第二个问题。然后,将第二个问题以及先前交互的历史(初始问题和答案)一起呈现给工人,要求他们回答这个新问题。这个过程最多重复五次。
我们对对象“监视器”进行了人类评估。我们建立了三个标准来选择AMT工人,以确保最高的数据质量。首先,所有请求者的命中率必须大于95%,这被认为是一个高标准。其次,工人必须位于加拿大、英国或美国。最后,我们只考虑那些被AMT授予“大师”地位的工人,AMT将这个地位授予那些一贯表现出高水平的工人。我们获得了225个响应(45张图片,每张图片五个问题)。这导致了176个新知识的获得。其中,以“监视器”为头部的知识最为常见,有35个新知识。获得的知识中下一个最常见的头部是“桌子”(22个)和“笔记本电脑”(17个)。然而,有22个问题被认为是无效的。
然后,我们使用准确性和“监视器”的平均排名在两种设置下评估了使用所获得知识的对象识别性能,结果总结在表6中。请注意,这些指标是使用“监视器”作为真值的数据计算的,因为我们只为“监视器”收集了知识。在零样本设置中,“监视器”的准确性为0.0,它的排名为5.3,而在进行微调后,“监视器”的准确性提高到60.9,它的排名提高到2.4。这表明从人类评估中获得的知识显著提高了“监视器”的预测分数,以至于在没有微调的情况下,它被预测为其他类别中的最高。值得注意的是,“监视器”的平均排名并不差,考虑到所有类别的数量为598。微调后,“监视器”的准确性和平均排名显著提高。从这些结果中,我们可以得出结论,从人类评估中获得的知识对于新对象识别是有用的。
一些问答示例如图12所示。我们在图中突出了一些问答(A~H)。在答案(A、C、G和H)中,工人提供了关于对象监视器的正确知识,例如 ⟨monitor, UsedFor, displaying computer images⟩(A),和 ⟨monitor, UsedFor, display graphics⟩(C)。在这些情况下,问题是具体的,易于理解。例如,从问题A,“桌子上的设备用来显示计算机图像的是什么?”我们可以很容易地理解问题是关于桌子上的监视器,所需的知识是对象是否用于显示计算机图像。 相比之下,B、D、E和F是失败的问题和答案的示例。对于B,问题似乎是关于监视器及其典型位置的,但答案是关于监视器的用途(⟨monitor, UsedFor, display screen⟩)。这表明执行任务时应该小心,因为工人之间存在显著的误解或缺乏认真性。E的情况与B类似;可能是工人误解了指示,导致知识头部是桌子上的黑色物体,这是原始问题中的短语,而不是像监视器这样的实体名称,它应该是的。在D和F中,工人提供了关于不正确但相似的或靠近的对象(例如,笔记本电脑或计算机监视器)的知识。这归因于问题的不清晰。例如,在D中,问题是“桌子上用来工作的对象是什么?”监视器和笔记本电脑都位于桌子上并用于工作。 从这些示例中,我们发现有必要确保问题清晰,工人在开始前充分理解他们的任务,或者为工人提供培训课程。此外,我们展示了图13中从人类回答者那里获得的知识的示例。通过我们的方法,模型成功地获得了各种知识,即头部为“监视器”的各种关系和尾部,例如 ⟨monitor, AtLocation, desk⟩ 或 ⟨monitor, CapableOf, display images⟩。我们观察到,对应于关系“UsedFor”和“IsA”的知识往往比其他关系收集得更多。这与上一节的倾向相同,也可以通过依赖数据集中关系的不平衡来解释。我们相信,当收集到更多关于稀有关系的数据,或者当模型被训练为针对稀有关系生成更多问题时,模型将能够获得更多关于稀有关系的知识。 我们观察到某些尾部虽然不是确切匹配,但在语义上是类似的(例如,“displaying computer images”和“displaying images”或“playing computer games”和“playing games”)。这在当前的背景下并不奇怪,因为在自然语言中,语义上等价的尾部可能以不同的方式表达。然而,从计算复杂性的角度来看,避免向知识源添加不同但语义上类似的尾部是可取的。这一发现表明,需要进一步探索如何构建知识库,以最紧凑的方式存储大量知识,同时压缩语义上相似的尾部。
7 结论 在这项研究中,我们提出了一个多轮问题生成模型,该模型可以为对象识别模型生成问题以识别新类别。我们还提出了一个策略网络,可以从“确认”和“探索”策略以及“没有问题”策略中为每个动作选择策略。我们在K-VQG v2数据集上评估了我们的模型,并证明了它可以生成对识别新类别有用的问题。通过将新获得的知识添加到知识源中,模型可以在保持已知类别性能的同时识别新类别,这在新类别的mAP上取得了显著的提高,特别是在对新获得的知识进行微调后。 我们还进行了人类评估,以调查我们的模型生成的问题是否对识别新类别有用。从人类评估结果来看,我们证实了我们的模型可以生成对识别新类别有用的问题,即使回答者不是预言答案模型,而是人类。尽管取得了这些成功,我们的方法有一个限制,即问题必须清晰和具体,以便工人能够理解任务。此外,我们可以包括一个类似于人类回答者的行为的回答者模型,例如对问题的误解或回答类似但不正确的知识。 我们相信,通过将这个模型部署在现实世界的应用中,并不断收集人类回答者的行为数据,可以解决这个限制。通过提问动态获取知识的方法有潜力显著提高AI系统在现实世界中识别和理解新对象的能力。 声明 本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。