论文精选 | JDSIS期刊袁冠教授等发表题为《领域知识驱动的关系抽取方法》的论文

文摘 2024-08-08 11:30 美国

近日，Journal of Data Science and Intelligent Systems (JDSIS, eISSN: 2972-3841)发表了袁冠教授团队题为《领域知识驱动的关系抽取方法》的论文。

摘要：

关系抽取是重要的自然语言处理任务之一，给定句子与实体位置，输出实体间的关系。关系抽取的大部分方法主要基于BERT等预训练模型的神经网络。近年来，基于BERT等预训练模型在通用领域的关系抽取上取得了优异的结果，但受限于BERT预训练使用的语料库所限制，这些方法在专业领域的分类上的表现差强人意。目前大部分的预训练模型纯文本语料库来自维基百科等涵盖各个领域的通用库，在某一特定领域上的语料内容少、专业性浅，导致关系抽取模型在特定领域的分类任务上表现略差。若专门提供领域内的大量语料库给预训练模型，也有计算量大、专业词汇重复次数低训练不到位等局限性。文章借助K-BERT预训练模型的思想，将领域知识图谱中的三元组知识加入句子序列成为句子树后通过绝对索引与相对索引馈送至BERT预训练模型中，达到了在不增加计算量级的前提下加入领域知识的目的。文章还提出了分部输入方法，可以多维度多层次更立体地使计算机理解输入语句。在带有类型标签的关系抽取医疗领域数据集上对比其他关系抽取模型的F1得分有显著的优势。

主要研究内容：

实体关系提取的主要任务是识别实体对之间的语义关系。基于BERT的预训练模型是在大规模公开可用的语料库上训练并获得通用的词嵌入表示，这些公开的通用语料库的特点是内容范围广但不深，模型对于特定专业领域知识的获取仅在特定下游任务进行参数微调阶段获得。然而专有领域文本中包含了大量的专业名词，这些名词在通用语料库中罕见，但在专业领域中出现的频次高、分布广，使用通用语料库进行预训练的模型在面对诸如医疗和金融等专业名词多的关系抽取任务时表现欠佳。

专有名词通常作为关系抽取任务中的实体，因此如何加强模型对输入中实体的理解是研究的关键。文章对实体通过插入标签与导入知识三元组结合的方式强化模型对实体的理解。在融合三元组知识方面通过引入知识图谱，以三元组中的关系和尾实体为中介，强化输入文本中的实体信息，加强模型对专业名词的理解与表示能力。在插入标签方面在输入端通过插入实体类型标签的方式，强化实体边界信息并显式地向模型中注入实体类型信息。

图1：插入标签的示例图

文章在输入句子的实体左右两侧增加了表示实体边界与实体类型的标签，标签中S与\S分别表示头实体(Subject)的开头与结尾，Ba表示头实体类型为细菌(Bacteria)，O与\O分别表示尾实体(Object)的开头与结尾，Sy表示尾实体类型为症状(symptom)以此增强模型对实体的理解与判断。

图2：传统预训练模型理解名称需要在文本中多次重复出现

图3：通过导入领域知识图谱强化模型对专有名词的建模

基于BERT预训练语言模型的特点，在专业领域的训练中，输入的语料库中的专业术语的频率越高、分布越广泛，模型的识别性能就越好。文章通过引入领域知识图谱，以三元组中的关系和尾实体为中介，强化输入文本中的实体信息，加强模型对专业名词的理解与表示能力。

图4：为实体添加领域知识三元组

文章使用相对索引与绝对索引的方式标记每个词元并输入至BERT预训练模型中，如图4所示，黑色部分为绝对索引，红色部分为相对索引，按照绝对索引排序将树结构的句子转换为了序列结构。在BERT预训练模型的位置嵌入部分，单纯的注意力机制并没有获取文本序列的结构顺序信息，对于BERT模型来说，句子所有的位置结构信息都包含在了位置嵌入中。在句子序列中，绝对索引“压平”了句子树导致无法阅读，但相对索引保留了树的结构信息，因此将相对索引的信息输入在位置嵌入层，达到了输入句子序列的同时保留了句子树结构信息的目的。

图5：模型嵌入方式

结果：

文章使用医疗领域关系抽取数据集，内容来自百度百科，共5500条句子，包含13种关系分别为临床症状、相关疾病、适用症状、引起疾病、常用药物、适用疾病、主要病因、医治症状、引起症状、就诊科室、医治疾病、适用科室、检查项目。每个句子包含两个实体名词及其对应的实体类型，实体类型有疾病、症状、细菌、医学专科等。数据集划分为3500条训练集，1000条验证集和1000条测试集。在对比实验中，文章提出的使用领域知识图谱为模型增加辅助信息，并在实体两侧插入标签的模型效果优于其他对比模型。

表1：对比实验

在消融实验中，通过表格可以观察到在消融实验中，移除这些模块的情况表现都有所降低。这验证了模型中每个模块功能的有效性。BiLSTM层解决了文本中的长期依赖问题。在输入层集成实体边界和类型信息作为额外的信息补充是关键的。通过结合分部输入实体的方法，强调文本中的实体的关键信息。在位置嵌入部分利用相对索引进行计算，解决了融合知识后导致的文本无序的问题。移除掩码矩阵后模型的性能下降，这也表明了限制注意力计算的必要性，防止了语义信息过度导致文本语句失真的情况。

表2：消融方式

表3：消融实验

总结与未来展望：

文章提出了将领域知识图应用于关系抽取任务，目的在于增强模型对领域特定知识的理解。首先将领域知识注入句子中，将其转化为知识丰富的句子树。其次利用相对指数和掩码矩阵来控制知识注意力的范围，防止句子因知识量过大而偏离其原始含义。文章在医学领域数据集的准确度提高了0.64%。在不显著增加时间复杂度的情况下提高了准确性。在未来的工作中将尝试将此方法推广至其他自然语言处理任务，如问答系统、情感分类等。

作者：

陈博轩，中国矿业大学计算机科学与技术学院

袁冠教授，中国矿业大学教育部重点实验室矿山数字化教育部工程研究中心

文章链接：

https://ojs.bonviewpress.com/index.php/jdsis/article/view/2524

学校介绍：

中国矿业大学

中国矿业大学(China University of Mining and Technology)，位于江苏省徐州市，是教育部直属的全国重点大学，教育部与江苏省人民政府、应急管理部共建高校，国家“双一流”“建设高校”，国家“211工程”“985工程优势学科创新平台”建设高校，全国首批博士和硕士学位授予单位。

*本文由Bon View Publishing中国办公室排版，特邀专家审校翻译，遵守CC BY 4.0许可：

https://creativecommons.org/licenses/by/4.0/

如需转载，请于公众号后台留言咨询。

编辑：林姗姗

排版：徐远山

审核：任南西

监制：张雨

特邀顾问：袁冠，中国矿业大学

博识开放科学

博识开放科学为新加坡博识出版社官方账号，与您分享、交流前沿学科知识，追踪学科进展。创造一个博识、独立、专业的学科交流平台。

论文精选 | MEDIN期刊发表《基于蚁群优化的遗传分析：探讨在阿尔茨海默病中基因的作用》的相关论文

博识Peer Review Week第七期 | 人工智能辅助下的审稿革新：技术带来的挑战与机遇

文章精选 | 北京理工大学研究发表《基于全相位快速傅里叶变换的压缩感知三维成像双频激光雷达》的相关论文

博识Peer Review Week第六期 | 人工智能在同行评审中的角色：助力而非取代

博识Peer Review Week第五期 | 同行评审的技术革新：从效率提升到全球包容性

Bon View Publishing: 世界旅游日 | 旅游与和平

博识Peer Review Week第四期 | 未来的同行评审：技术创新的机遇与挑战

博识Peer Review Week第三期 | 应对学术诚信危机：技术与新方法的探索

博识Peer Review Week第二期 | 技术与专长结合：迎接人工智能时代的同行评审

博识Peer Review Week第一期 | 人工智能在同行评审过程中的应用

JDSIS论文导读 | 齐齐哈尔医学院、重庆邮电大学与西湖大学联合发表题为《有机体与感知器单元融合的跨学科趋势》的综述论文

学术会议资讯 | AIA期刊与MOVE24会议达成媒体合作

论文导读 | 瑞典哥德堡大学和梅拉达伦大学学者合著发表题为《瑞典学前教育中有哪些促进可持续发展的幼儿教育内容？》的相关论文

论文导读 | JCBAR期刊发表题为《基于DDQN算法的电商产品动态定价模型》的相关论文

学术会议资讯 | AAES期刊与AEROSPACE2025会议达成媒体合作

论文精选 | 福建理工大学和东南大学等高校联合发表题为《利用新型机器学习分类、数据可视化和分析方法预测红葡萄酒的质量》的相关论文

学术会议资讯 | MEDIN期刊与EMBL主办会议达成媒体合作

期刊发布 | IJCE第一卷第三期发布

期刊发布 | MEDIN第一卷第三期发布

论文精选 | 新加坡国立大学团队和HIMA集团联合发表题为《氨在管道中的安全输送：风险分析》的相关论文

期刊发布 | JOPR第一卷第三期发布

期刊发布 | JCCE第三卷第三期发布

论文精选 | 盐城工业职业技术学院Chenjian Dong团队在AAES期刊发表《用于研究金属磁塑性的磁场和设备》相关论文

论文精选 | JDSIS期刊袁冠教授等发表题为《领域知识驱动的关系抽取方法》的论文

期刊发布 | JCBAR第一卷第二期发布

论文精选 | 印度G H Raisoni工程学院Aaliya Ali博士发表题为《基于区块链的NFT保修系统：软件实现》的论文

期刊发布 | JDSIS第二卷第三期发布

学术会议资讯 | MEDIN期刊与EMBL主办会议达成媒体合作

期刊发布 | GLCE第二卷第三期上线发布

论文导读 | JOPR期刊发表题为《修正的钙化玻璃结晶活化能方程》的相关论文

文章推荐 | AAES第二卷第三期上线发布

学术会议资讯 | JDSIS期刊与AAIEE 2025研讨会达成合作

论文精选 | 澳大利亚莫纳什大学Edwin Creely发表题为《探索生成式人工智能在促进语言学习中的作用：机遇与挑战》的论文

Bon View Publishing: 世界人口日 | “拥抱包容性数据的力量，为所有人创造一个有弹性和公平的未来”

学术会议资讯 | JCCE与PEPSC 2024达成媒体合作

期刊发布 | AIA第二卷第三期上线发布

学术会议资讯 | IJCE期刊与ICET 2024会议达成媒体合作

学术会议资讯 | AAES期刊与ICBDDM 2024会议达成合作

论文导读 | AIA期刊发表《探索阿尔茨海默病干预技术：传统方法与人工智能在提升护理水平中的作用》相关文章

文章精选 | 俄罗斯人民友谊大学Anna Pokrovskaya博士发表题为《电子商务平台上商标权的保护：最新展望》的论文

文章精选 | IJCE期刊发表《高等教育中的生成式人工智能：探索利用ChatGPT开展教学实践的方法》的论文

Bon View人物 | 专访北京邮电大学信息与通信工程学院姜蔚蔚助理教授

六一祝福 | 博识出版社祝大家儿童节快乐！

Bon View人物 | 专访西南大学车杭骏副教授

期刊交流互鉴——博识出版社赴电子科技大学学报学习交流

探讨期刊长足发展——博识出版社拜访JDSIS乔主编

文章推荐 | JCCE第二卷第二期上线发布

国际合作 | AIA与AI & Big Data Expo 2023达成合作

五一祝福 | 博识出版社祝大家劳动节快乐！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉