[通用人工智能] 论文分享:一种基于类别属性推理的零样本关系分类方法

文摘   2024-10-28 10:48   浙江  







引言:关系分类(Relation Classification, RC)是自然语言处理领域的一项关键任务,它在知识图谱构建、信息检索和问答系统等多个领域有着广泛的应用。该任务的核心目标是预测给定句子中两个实体之间的语义关系。随着深度学习和预训练语言模型的兴起,关系分类研究取得了显著进展。然而,传统关系分类方法通常依赖大量标注样本来预测已知的关系类别,对于新出现且缺乏标注样本的关系类型进行预测仍然是一个挑战,这被称为零样本关系分类(Zero-Shot Relation Classification, ZSRC)任务。现有的一些方法通过将关系类别直接映射为数值指标,限制了模型在训练过程中对关系类别的语义理解和推理能力,并且过分依赖手动定义。为解决这些挑战,最近西湖大学可信及通用人工智能实验室联合上海海事大学、东华大学以及新加坡国立大学,在人工智能顶级期刊IEEE TNNLS上发表了一篇题为“Zero-Shot Relation Classification Through Inference on Category Attributes”的文章。该研究提出了一种利用类别属性进行文本推理(Inference on Category Attributes, ICA)的零样本关系分类框架来解决ZSRC问题。让我们一起来了解吧!

 原文链接:https://ieeexplore.ieee.org/document/10721241






一、研究背景


传统的关系分类任务旨在从一组已知关系类别中为句子中的实体对确定关系类别,而零样本关系分类(Zero-Shot Relation Classification, ZSRC)任务则是在未知关系类别确定实体对之间的关系,即要预测的关系类别是模型在训练过程中从未见过的。所以零样本关系分类的核心挑战是模型需要具备强大的泛化能力,使其在训练阶段能够有效地从已知(可见)关系类别中获取知识,并在测试阶段很好地推广到模型未知(不可见)的关系类别中。这需要模型对可见训练关系类别和不可见的测试关系类别中固有的底层模式和语义有充分的理解。然而,现有的大多数相关研究往往将关系标签转换为数字索引而受限于标签的语义理解和知识转移。受人类在进行关系分类任务时的推理过程的启发,本文提出利用文本蕴含(Textual Entailment, TE),也称为自然语言推理(Natural Language Inference, NLI)来解决零样本关系分类任务,以使得模型能够充分理解每个样本和关系类别之间的语义关系,从而实现零样本关系分类。

文本蕴含任务是自然语言处理领域中的一个重要问题,在这个任务中,通常有两个文本句子,分别被称为“前提”(premise)和“假设”(hypothesis),该任务的目的是判断“假设”句子是否可以从“前提”句子中推断出来。文本蕴含任务本质上是多分类问题,可以被分为以下三种关系:蕴含(Entailment)、矛盾(Contradiction)和中立(Neutral)。事实上,关系分类任务本质上也可以看作是一个文本蕴含问题。以句子“Peking is the capital of the People’s Republic of China.”为例,当我们要对该句中的“Peking”和“China”两个实体进行分类时,我们在推理过程中可能会这样思考:“北京在这句话中是否表达的是中国的首都?”或者“这句话中表达的北京与中国之间的关系是‘首都’这种关系吗?”。我们在做判断时通常会构建一个假设,并将每个候选类别标签(例如:“the capital of”)插入到与任务相关的定义中,以验证该假设在给定文本中是否成立。基于此,一旦模型能够拥有类似文本蕴含任务这种理解和推理的能力,即使在没有对应训练样本的情况下,也可实现将学习到的已知关系类别的相关知识推广到新的未知的类别中。

然而,在利用文本蕴含的方式来解决零样本关系分类任务时,会面临许多待解决的问题。首先,为了将关系分类样本转换为文本蕴含格式,必须对每个关系类别人工设计对应的文本蕴含数据中的“假设”句子(例如,“X is the capital of Y”)。这一步骤非常关键,因为该句子不仅需要充分地描述关系标签的语义,还需要考虑许多其他因素。例如,不同关系的头尾实体在句子中的位置可能不同,在某些情况下,手动设计的标签描述可能无法覆盖某一类别中的所有实例,而在其他情况下,还必须考虑语法等问题。其次,现有的方法通常利用自然语言推理模型对每个样本进行蕴含或矛盾判断来解决零样本关系分类任务,即直接将该任务直接转化为二分类问题,而忽略了多个类别之间的推理信息。最后,当前零样本关系分类任务的设置通常假定在训练过程中是存在有训练数据(测试阶段是对新的类别标签进行测试),而在实际场景中可能完全没有任务训练数据。

针对以上问题,本文提出了一种基于类别属性推理(Inference on Category Attributes, ICA)的零样本关系分类新框架:基于每种关系类别公开可用的标签词(Label Words, LW)和标签描述(Label Description, LD),提出两个通用假设模板,将关系分类样本自动转换为文本蕴含格式,避免了人工定义的需要;同时引入蕴含差异(Entailment difference)的概念进行关系多分类的转化,不仅不需要考虑额外的测试规则进行预测,并且可以从两个角度充分利用语义推理信息。本文进行了大量的实验来分析和评估所提出的框架,这些发现可为后续相关研究提供有价值的参考。此外,本文还进行了两种设置下的实验。一种是目前常用的零样本关系分类设置,其中模型在可见类上进行训练,而在未见类上进行测试,我们称之为“标签部分可见”(label-partially-seen)。另一种是对现有设置的扩展,且更贴合实际,即没有训练数据,直接在未知的数据上对模型进行测试,称为“标签不可见”(label-no-seen)。


二、方法介绍


2.1 任务定义

在零样本关系分类任务中,我们将用于训练的可见关系集和用于测试时的不可见关系集分别记为,其中分别是可见关系类别(训练类别)和不可见关系类别(测试类别)的数目。为了满足零样本学习的设置,用于训练和测试的两个集合中的关系类别是不能有重合类别,即。将训练集的可见的个样本的记为 ,其中表示中提到的实体对的关系标签,分别是每个关系的标签词和标签描述。同样,将测试集记为,且为未见类别中的样本个数。该实验主要是在对模型进行训练,然后再在上直接进行测试以实现零样本关系分类。


2.2 模型框架

为了通过文本蕴含的方式解决零样本文本分类任务,本文首先提出两个通用的“假设”模板实现样本格式的转换,避免人工手动定义的问题,具体模板如下:

  • Hypothesis LW: The relationship between {h} and {t} is {lw}.

  • Hypothesis LW+LD: The relationship between {h} and {t} is {lw}, which means {ld}.

其中模板中的{h}和{t}分别代表样本句子中所标注的头实体和尾实体,{lw}和{ld}则分别代表标签词和标签描述。如表1所示,通过在模板中填充每个关系分类样本中所对应的信息,即可自动生成对应的“假设”句子。其中第一个模板用到了标签词,因此命名为“Hypothesis LW”。另外,考虑到可能存在一些标签词过于抽象而无法被模型理解,所以本文还尝试了在假设中添加额外的标签描述,以帮助模型的语义理解。因此,第二个模板被叫做“Hypothesis LW+LD”。而转化样本格式中的“前提”则为原始的关系分类的样本句子。

表1 关系分类样本到文本蕴含样本的格式转化


图1 ICA模型框架

除了数据格式的转换,还需要考虑标签的转换,本文也只考虑“蕴含”和“矛盾”这两种类,而不考虑“中立”类别。如图1,原始关系分类样本转化后的“前提”句子即原始的样本句子。对于假设,我们将其真实的类别标签信息,即对应的标签单词和标签描述分别代入所提出的模板,并标记为蕴含类别(Entailment),从真实标签类别之外的其他训练类别中随机挑选出另一个类别,并将其标签信息代入模板组成矛盾类别(Contradiction)。按照该方式,每个训练的关系分类样本都会被转换成四个不同的文本蕴含样本(对应相同的“前提”),且该过程无需任何人工操作。然后,这些转化后的数据被输入自然语言推理(NLI)模型进行微调,以帮助模型学习推理规则,训练过程的损失函数如下:

其中表示被分类到第i类的概率,N表示所有训练样本的个数。

       微调训练后,然后利用微调后的NLI模型在模型未见过的(测试)类别上进行测试。同样地,先对测试样本进行数据转换,即把关系分类样本转换为文本蕴含的数据格式。不同的是,我们将Hypothesis LW和Hypothesis LW+LD这两种不同的模板分开进行验证,且将所有测试类别的信息都用来输入到模板以获得“假设”。比如,假设测试类别有m个,如图2中展示的是基于Hypothesis LW+LD模板的测试数据转换,那么一个关系分类的测试样本就会被转换成一个“前提”和m个“假设”。我们的目标是判断哪个类别假设更有可能从待抽取的样本句子中推断出来,而不是判断它是否可以推断出来。因此,面向代表不同类别的不同“假设”对应相同的“前提”,本文提出了一种基于蕴含差异的推理机制以实现多种类间的推理,同时充分利用模型的推理信息。也就是对于每个样本,在相同的前提句子下,不同的假设句子将返回该样本关于每一类的蕴含和矛盾的得分,我们将该样本关于第kk =1,…,m)类的蕴含和矛盾的得分分别记作,并将关于一个样本中所有类别的蕴含得分输入到softmax函数中计算出每个类别所组成的假设能从前提句子中推理出来的概率,同理,将关于一个样本中所有类别的矛盾得分输入到softmax函数中计算出每个类别所组成的假设与前提句子中的内容相矛盾的概率,然后计算每个样本所对应的蕴含概率和矛盾概率的差值,取其差值最大的那一类为预测类别,具体过程如下面公式所示:

这样,我们不仅可以以多分类的方式有效地实现多个关系类别之间的语义推理,还可以利用文本蕴含任务的优势将模型在训练类别上的学习的推理能力泛化到未见过的测试类别中,并提高零样本关系分类任务的性能。


三、实验


3.1 实验设置

本文主要在FewRel和Wiki-ZSL两个公共数据集进行评估,并与之前的相关研究保持一致的实验设置。关于两种预训练NLI模型,我们选择了roberta-base-MNLIroberta-large-mnli两种模型。我们将当前相关研究的测试方式命名为“标签部分可见”(Label-partially-seen),在该设置下是将模型的特征学习从可见类别泛化到未见过的类别上。考虑到实际应用中的数据缺失问题,我们将现有的设置扩展为“标签不可见”(Label-no-seen),使其更加符合现实需求,其中这两种设置会共享同一个测试集,表示模型没有见过的类别。“标签部分可见”是有训练数据,而“标签不可见”则没有,即不用训练模型,直接进行测试的。

  • Label-partially-seen:在可见的训练类别样本上进行训练,然后再在未见过的测试样本上进行测试。

  • Label-no-seen:没有可用于训练的可见样本,直接在未见过的测试样本上进行测试。

3.2 对比结果与分析

在Label-partial-seen设置下,所有方法在Wiki-ZSL和FewRel两个数据集中不同测试类别个数下的结果如表2所示。本文提出的ICA模型在这两个数据集中都实现了更高的F1值,随着m的增加,该模型仍表现出比较稳定的性能,并且当m=15时仍然可以实现相对较高的分类F1性能。此外,模型在WikiZSL数据集上的效果不如FewRel数据集,这可能因为WikiZSL数据集的没有经过人工过滤,其数据质量不如FewRel。

表2 Label-partial-seen设置下的结果

图2展示了两个数据集在Label-partial-seen设置下随机一次实验结果计算的混淆矩阵。当m=5时,模型的分类结果几乎完全正确。随着测试类别数量即m数值的增加,整体性能有所影响但仍然比较可观,特别是在FewRel数据集上。同时表3列举了一些被错误分类的样本。

图2 Label-partial-seen设置下的结果分析,左边是FewRel数据集,右边是Wiki-ZSL数据集,测试类别的个数依次为5、10、15。

表3 Label-partial-seen设置下被错误分类的样本案例

表4 Label-no-seen设置下的结果  

此外,表4展示了ICA模型与现有的ZS-BERT模型在“Label-no-seen”设置下的对比。在没有可见数据用于模型训练的情况下,所有的方法在直接在从未见过的类别上进行测试时的效果就变得不那么好,且模型越大,性能越好。

       这两个数据集在“Label-no-seen”设置下类似的案例分析如图3所示,在该设置下,由于没有在可见类别样本上进行微调,所以模型只能依赖于其自身原始的基本推理能力,对关系分类领域的样本特征一无所知。因此,它倾向于将从未见过的测试样本分类为更通常、普遍的类别。如表5中所列出的“participant of”。

图3 Label-no-seen设置下的结果分析,左边是FewRel数据集,右边是Wiki-ZSL数据集,测试类别的个数依次为5、10、15。

表5 Label- no-seen设置下被错误分类的样本案例


3.3 对标签单词(LW)和标签单词加标签描述(LW+LD)的分析

       在Label-Partially-Seen和Label-No-Seen两种设置下,标签单词(LW)和标签单词加标签描述(LW+LD)对模型影响的结果展示在图4。LW和LW+LD对模型性能的影响在WikiZSL数据集上与FewRel数据集上的表现相似。具体来说,在Label-Partially-Seen设置下,LW+LD的性能优于LW,而在Label-No-Seen设置下,LW+LD的性能不如更简洁的LW。

图4 对LW和LW+LD的分析


3.4 对所提出的通用模板和手动模板的分析

为了更严格地验证本文所提的通用假设模板的有效性,我们在两种不同的零样本设置下,对所提出的通用模板和手动模板进行了对比。为此,我们仿照之前的相关工作,在FewRel数据集上手动编写了每个类别的假设模板,表6列举了其中几个例子。图5展示了利用不同模板的结果。在Label-Partially-Seen的设置下,我们提出的通用假设模板的一致性更有助于模型进行微调训练和推理测试。相反,在Label-No-Seen的设置下,手工设计的模板在经过微调的模型上显示出其优越性。此外,与手工设计的模板相比,随着m的减小,本文所提出模板的性能相对更稳定一些。

表6 在FewRel数据集上手动定义模板案例展示

图5 在FewRel数据集上对所提出的通用模板和手动定义模板的分析


3.5 对蕴含差异推理方式和二分类推理形式的分析

另外,我们还对比了所提出的蕴含差异推理方法与现有工作中的二分类推理方法。与前面的实验一样,在两种零样本学习设置中,我们选取了每种设置中的最优模板格式。实验结果如图6所示,本文提出的蕴含差异推理方式不仅在Label-Partially-Seen设置下优于二分类推理方法,而且在Label-No-Seen的设置下优势更为明显。

图6 对蕴含差异推理方式和二分类推理方式的分析


3.6 对不同的微调方法的分析

为了研究计算效率和训练速度,本文尝试利用LoRA微调技术以进一步改进所提出的模型框架。表6给出了在“label-partial -seen”设置下,完全微调和基于LoRA微调技术的结果比较。结果表明,完全微调始终优于基于LoRA微调,但使用LoRA技术进行微调可以显著提高计算效率。

表7 Label-Partially-Seen设置下对不同的微调方法的分析


3.7 句子嵌入的可视化

        图7展示了在Label-Partially-Seen设置下,基于LW+LD的“假设”模板,FewRel数据集中的句子嵌入可视化。不同类别在整个空间上的映射表明类别属性的加入有助于丰富关系提取样本的语义特征,进一步区分类别之间的联系。

图7 Label-Partially-Seen设置下,FewRel数据集中的句子嵌入可视化


四、总结


在本文,我们利用关系标签的可用辅助信息,提出一种基于类别属性推理的零样本关系分类框架,将零样本关系分类任务转化为文本蕴含问题,并结合强大的预训练NLI模型在两个公开数据集上表现了最先进的结果。基于LW和LW+LD的假设模板不仅可以有效地避免人工定义的问题,还能够保证模型在训练类别上的逻辑学习质量。基于蕴含差异的推理方法充分利用了模型的推理信息,大大提高了性能表现。此外,我们还将现有的Label-Partially-Seen测试设置扩展到更实际的测试设置,即Label-No-Seen,并在这两种设置中进行了广泛的实验,以验证所提出模型的有效性。我们对所提出通用模板中的LW和LW+LD进行了消融分析,并将提出的模板与人工设计的模板、蕴含差异推理方法和二元分类推理方法、不同的微调技术分别进行了对比,以及对应的句子可视化分析。这些实验证明了本文所提出方法的有效性,同时强调了在零样本关系分类任务中,使模型能够理解标签语义的重要性。


参考文献:

[1] Chen C Y, Li C T. ZS-BERT: Towards Zero-Shot Relation Extraction with Attribute Representation Learning[C]//Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021: 3470-3479.

[2] Chia Y K, Bing L, Poria S, et al. RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction[C]//Findings of the Association for Computational Linguistics: ACL 2022. 2022: 45-57.

[3] Obamuyide A, Vlachos A. Zero-shot relation classification as textual entailment[C]//Proceedings of the first workshop on fact extraction and VERification (FEVER). 2018: 72-78.

[4] Wang W, Zheng V W, Yu H, et al. A survey of zero-shot learning: Settings, methods, and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2): 1-37.

[5] Xiao Y, Jin Y, Hao K. Adaptive prototypical networks with label words and joint representation learning for few-shot relation classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021, 34(3): 1406-1417.

[6] Hu E J, Shen Y, Wallis P, et al. Lora: Low-rank adaptation of large language models[J]. arXiv preprint arXiv:2106.09685, 2021.


                                  End




初稿|肖燕

复审|颜学明

终审|金耀初



可信及通用人工智能实验室
金耀初实验室(可信及通用人工智能实验室)由欧洲科学院院士、IEEE Fellow,西湖大学人工智能讲席教授金耀初领导成立。实验室致力于应用驱动的可信人工智能研究,以及采用演化发育方法探索实现通用人工智能的新途径。
 最新文章