近日,Journal of Data Science and Intelligent Systems (JDSIS, eISSN: 2972-3841)发表了袁冠教授团队题为《领域知识驱动的关系抽取方法》的论文。
摘要:
关系抽取是重要的自然语言处理任务之一,给定句子与实体位置,输出实体间的关系。关系抽取的大部分方法主要基于BERT等预训练模型的神经网络。近年来,基于BERT等预训练模型在通用领域的关系抽取上取得了优异的结果,但受限于BERT预训练使用的语料库所限制,这些方法在专业领域的分类上的表现差强人意。目前大部分的预训练模型纯文本语料库来自维基百科等涵盖各个领域的通用库,在某一特定领域上的语料内容少、专业性浅,导致关系抽取模型在特定领域的分类任务上表现略差。若专门提供领域内的大量语料库给预训练模型,也有计算量大、专业词汇重复次数低训练不到位等局限性。文章借助K-BERT预训练模型的思想,将领域知识图谱中的三元组知识加入句子序列成为句子树后通过绝对索引与相对索引馈送至BERT预训练模型中,达到了在不增加计算量级的前提下加入领域知识的目的。文章还提出了分部输入方法,可以多维度多层次更立体地使计算机理解输入语句。在带有类型标签的关系抽取医疗领域数据集上对比其他关系抽取模型的F1得分有显著的优势。
主要研究内容:
实体关系提取的主要任务是识别实体对之间的语义关系。基于BERT的预训练模型是在大规模公开可用的语料库上训练并获得通用的词嵌入表示,这些公开的通用语料库的特点是内容范围广但不深,模型对于特定专业领域知识的获取仅在特定下游任务进行参数微调阶段获得。然而专有领域文本中包含了大量的专业名词,这些名词在通用语料库中罕见,但在专业领域中出现的频次高、分布广,使用通用语料库进行预训练的模型在面对诸如医疗和金融等专业名词多的关系抽取任务时表现欠佳。
专有名词通常作为关系抽取任务中的实体,因此如何加强模型对输入中实体的理解是研究的关键。文章对实体通过插入标签与导入知识三元组结合的方式强化模型对实体的理解。在融合三元组知识方面通过引入知识图谱,以三元组中的关系和尾实体为中介,强化输入文本中的实体信息,加强模型对专业名词的理解与表示能力。在插入标签方面在输入端通过插入实体类型标签的方式,强化实体边界信息并显式地向模型中注入实体类型信息。
图1:插入标签的示例图
文章在输入句子的实体左右两侧增加了表示实体边界与实体类型的标签,标签中S与\S分别表示头实体(Subject)的开头与结尾,Ba表示头实体类型为细菌(Bacteria),O与\O分别表示尾实体(Object)的开头与结尾,Sy表示尾实体类型为症状(symptom)以此增强模型对实体的理解与判断。
图2:传统预训练模型理解名称需要在文本中多次重复出现
图3:通过导入领域知识图谱强化模型对专有名词的建模
基于BERT预训练语言模型的特点,在专业领域的训练中,输入的语料库中的专业术语的频率越高、分布越广泛,模型的识别性能就越好。文章通过引入领域知识图谱,以三元组中的关系和尾实体为中介,强化输入文本中的实体信息,加强模型对专业名词的理解与表示能力。
图4:为实体添加领域知识三元组
文章使用相对索引与绝对索引的方式标记每个词元并输入至BERT预训练模型中,如图4所示,黑色部分为绝对索引,红色部分为相对索引,按照绝对索引排序将树结构的句子转换为了序列结构。在BERT预训练模型的位置嵌入部分,单纯的注意力机制并没有获取文本序列的结构顺序信息,对于BERT模型来说,句子所有的位置结构信息都包含在了位置嵌入中。在句子序列中,绝对索引“压平”了句子树导致无法阅读,但相对索引保留了树的结构信息,因此将相对索引的信息输入在位置嵌入层,达到了输入句子序列的同时保留了句子树结构信息的目的。
图5:模型嵌入方式
结果:
文章使用医疗领域关系抽取数据集,内容来自百度百科,共5500条句子,包含13种关系分别为临床症状、相关疾病、适用症状、引起疾病、常用药物、适用疾病、主要病因、医治症状、引起症状、就诊科室、医治疾病、适用科室、检查项目。每个句子包含两个实体名词及其对应的实体类型,实体类型有疾病、症状、细菌、医学专科等。数据集划分为3500条训练集,1000条验证集和1000条测试集。在对比实验中,文章提出的使用领域知识图谱为模型增加辅助信息,并在实体两侧插入标签的模型效果优于其他对比模型。
表1:对比实验
在消融实验中,通过表格可以观察到在消融实验中,移除这些模块的情况表现都有所降低。这验证了模型中每个模块功能的有效性。BiLSTM层解决了文本中的长期依赖问题。在输入层集成实体边界和类型信息作为额外的信息补充是关键的。通过结合分部输入实体的方法,强调文本中的实体的关键信息。在位置嵌入部分利用相对索引进行计算,解决了融合知识后导致的文本无序的问题。移除掩码矩阵后模型的性能下降,这也表明了限制注意力计算的必要性,防止了语义信息过度导致文本语句失真的情况。
表2:消融方式
表3:消融实验
总结与未来展望:
文章提出了将领域知识图应用于关系抽取任务,目的在于增强模型对领域特定知识的理解。首先将领域知识注入句子中,将其转化为知识丰富的句子树。其次利用相对指数和掩码矩阵来控制知识注意力的范围,防止句子因知识量过大而偏离其原始含义。文章在医学领域数据集的准确度提高了0.64%。在不显著增加时间复杂度的情况下提高了准确性。在未来的工作中将尝试将此方法推广至其他自然语言处理任务,如问答系统、情感分类等。
作者:
陈博轩,中国矿业大学计算机科学与技术学院
袁冠教授,中国矿业大学教育部重点实验室矿山数字化教育部工程研究中心
文章链接:
https://ojs.bonviewpress.com/index.php/jdsis/article/view/2524
学校介绍:
中国矿业大学
中国矿业大学(China University of Mining and Technology),位于江苏省徐州市,是教育部直属的全国重点大学,教育部与江苏省人民政府、应急管理部共建高校,国家“双一流”“建设高校”, 国家“211工程”“985工程优势学科创新平台”建设高校,全国首批博士和硕士学位授予单位。
版权声明:
*本文由Bon View Publishing中国办公室排版,特邀专家审校翻译,遵守CC BY 4.0许可:
https://creativecommons.org/licenses/by/4.0/
如需转载,请于公众号后台留言咨询。
编辑:林姗姗
排版:徐远山
审核:任南西
监制:张 雨
特邀顾问:袁 冠,中国矿业大学