CMES本期精选文章“A Survey of Knowledge Graph Construction Using Machine Learning”(基于机器学习的知识图谱构建综述)。
文章详情
1. 前言
知识图谱(Knowledge graph, KG)是一个专门的语义网络,它将现实世界实体之间的复杂关系封装在一个结构化的框架内。该框架促进了信息检索中的转换过程,将其从单纯的字符串匹配转换为更为复杂的实体匹配。在这一转换过程中,人工智能和智能信息服务正蓬勃发展。同时,机器学习方法在KG构建中也起到重要作用,并且这类技术目前已取得了初步成功。本文全面介绍了基于机器学习的KG领域近期取得的最新进展,深入融合了机器学习领域的前沿研究,从实体学习、本体学习和知识推理三个不同的阶段对KG构建方法进行了系统的探索。
图1:近年来以“Knowledge Graph”为标题的论文发表数量
图2:KG相关论文发表数量排名前10位的研究领域
2. 知识图谱
2.1 知识图谱的发展
随着互联网的发展,万维网(Web)技术已经经历了以文档网为特征的“Web 1.0”时代和以数据网为特征的“Web 2.0”时代。如今,这个轨迹指向以知识网络为特征的“Web 3.0”时代,甚至预示了以元宇宙范式为定义的“Web 4.0”时代。
图3:KG开发中的里程碑
2.2 知识图谱的定义
KG是一种由节点和有向边组成的特殊语义网络,也被称为异构信息网络或语义知识库。在KG中,每个节点代表现实世界中的一个实体,而有向边将这些节点相互连接以表示这些实体之间的复杂关系。事实通常以三元组(主语、谓语、宾语)(SPO)的形式表示,其中主语和宾语表示实体,谓语表示它们之间的关系。
图4:从文本数据中提取SPO三元组的示例
2.3知识图谱的技术架构
知识图谱的结构包括两个方面:逻辑结构和技术结构。前者包括数据层和模式层,而后者指的是KG构建涉及的技术流程。这涉及一系列阶段,包括数据获取、实体学习、本体学习、知识推理和知识更新。
3. 利用机器学习构建知识图谱
3.1 实体学习:实体学习是指KG内部实体层的复杂构建过程。从下到上,它包括三个模块:实体提取、关系提取和实体链接。
图5:不同类型实体的示例
3.2 本体学习: 本体是共享概念模型的形式化规范,它定义了KG的模式层。本体O的构成包含了C、根、R三个部分,其中C为上层概念集合,根为根标识符,R为C上的二元关系,包括同义关系和下义关系,如图6所示。
图6: 本体建模流程图
3.3 知识推理:知识推理建立在现有实体和关系的基础上,旨在通过复杂的推理机制挖掘实体之间的隐含联系。最终目标是通过揭示隐含关系来增强和放大原始KG。
4. 未来构建大规模知识图谱的挑战
4.1关系抽取: 基于开放字段的关系抽取是不断更新迭代的,因而如何引入深度学习模型,实现对新的关系和知识的快速学习,也是一个需要探索的问题。
4.2链接预测:基于学习的链接预测的表征还处于探索的初级阶段。当大规模KG具有强稀疏性以及在表征低频实体和关系时,它的结果并不令人满意。所以设计一个更高效的在线学习方案是目前急需达成的目标。
图7:用于链接预测的节点角色
4.3 工业知识图谱的构建:工业知识图谱需要综合考虑各个层级的人员,这给专注于大型工业KG设计的研究人员带来了全新的多样化挑战。因此,需要在这个方向上进行探索,同时要在这些领域提出新的机器学习驱动方法。
5. 结论
随着大数据时代的到来,KGs在下一代搜索引擎领域的中心地位使其成为智能信息处理领域关键的聚焦点。鉴于日趋复杂的应用场景,处理性能被寄予越来越高的要求,而在KG的建设中还有许多内容等待我们进一步地探索。
扫码阅读全文
CMES 期刊介绍
—————
CMES期刊专注于刊发具有合理永久价值的原创研究论文和综述,涉及固体、流体、气体、生物材料和其他连续体的计算力学、计算物理、计算化学和计算生物学等领域。欢迎新颖的计算方法和最先进的计算算法,例如软计算、基于人工智能的机器学习方法和计算统计方法。
主编:
Prof. Shaofan Li
University of California-Berkeley
Prof. Loc Vu-Quoc
University of Illinois at Urbana-Champaign
Prof. Kun Zhou
Nanyang Technological University
2022 Impact Factor | 2022 Citescore |
2.4 | 3.5 |
扫码进入期刊主页
版权声明
本文由泰克赛思南京办公室负责编译。中文内容仅供参考,一切内容以英文原版为准。
如需转载,请联系 cmes@techscience.com