一文带你走进智能引擎的后台——知识图谱(Knowledge Graph)

文摘   2024-12-02 10:22   北京  


Vol.1

前言


自智能搜索出现的那天起,在互联网上搜集信息似乎变得更加方便起来。从谷歌、百度等浏览器的检索功能,到现在智能问答的出现,无一不再展示着智能搜索引擎的进步。那么是什么重要的技术在推动着搜索引擎的发展?今天小室将带你走近智能服务技术的前沿话题——知识图谱。



Vol.2

概念解析


知识图谱(Knowledge Graph)是指通过图结构表示和存储知识的一种形式,其核心是将真实世界中的实体及其关系以节点和边的方式表示,形成一个语义化的网状结构。这种结构能够直观地展示实体之间的连接和关系,从而为知识的获取、存储、管理和应用提供支持。知识图谱是一种有效的知识组织和管理工具,是人工智能和数据科学领域的重要技术支撑。


1、知识图谱的关键特性包括

①实体(Nodes):代表现实世界中的对象或概念,例如人、地点、事件等。

②关系(Edges):描述实体之间的关联或交互,例如“朋友关系”、“位于”等。

③属性(Attributes):对实体或关系的进一步描述,例如实体的名称、类型或时间等。

④语义化:通过使用本体(Ontology)或语义规则对知识进行结构化定义,以提升机器对知识的理解能力。

图1 实体与关系的说明


图2 属性的说明


 使用“实体-关系-实体”构成的三元组,就是知识图谱的核心架构模式,而加入属性后,就构成了“实体-属性-性值”三元组,更方便携带信息。


2、 知识图谱的常见用途

①信息检索与推荐:提高搜索引擎的结果准确性,提供个性化推荐。

②问答系统:支持自然语言的问答功能,通过知识推理回答复杂问题。

③智能助理:增强对用户意图的理解,提供语义化交互。

④科学研究:帮助整理和分析跨领域知识。


3、知识图谱的作用主要体现在以下几个方面

①信息组织与整合:通过图结构,将复杂的信息和知识进行结构化表示,使得不同来源、不同格式的知识能够统一、直观地呈现,便于理解与管理。

②知识发现与推理:基于图谱中的实体和关系,可以进行知识推理和发现新知识。例如,通过关系推理发现潜在的关联,或通过图算法(如路径搜索、聚类分析)揭示隐含的信息。

③提升搜索与推荐能力:在搜索引擎中,知识图谱帮助提高检索结果的相关性与准确性,理解用户查询背后的意图,并为用户提供更加精准的答案或推荐内容。

④增强自然语言处理能力:通过知识图谱,机器可以理解和处理自然语言中的语义关系,提升问答系统、对话系统的效果,支持更复杂的语义分析。

⑤智能决策与支持:知识图谱可用于支持决策过程,帮助分析决策条件、评估选项和预测后果,广泛应用于医疗、金融、企业决策等领域。

⑥跨领域知识共享:通过标准化和语义化表示,知识图谱可以促进跨领域的知识共享和协作,降低信息孤岛的现象。

⑦增强个性化体验:在社交平台、电商、媒体推荐等领域,知识图谱可根据用户行为和兴趣,提供更精准、个性化的服务和推荐。



Vol.3

知识图谱所使用到的数据类型


我们通常使用Neo4j来储存图数据库(https://neo4j.com/  ),当我们收集到了足够的信息数据,怎样处理成Neo4j可以识别并储存的内容就变得尤为重要。接下来就是知识图谱的构建过程。




Vol.4

构建知识图谱


在构建知识图谱时,我们往往会采取以下程序,进行信息提取、知识融合与知识处理(图3)[1]

图3 知识图谱的构建过程


1、信息提取

指的是从各类型数据源中提取出实体、属性以及实体间的相互关系,并在此基础上形成知识表达。

①实体抽取(Named Entity Recognition,NER):在图片5中,抑郁症、药物等方框中的字为实体,具体指从文本数据中准确命名实体的部分,显示为图片4中的圆圈内内容。其抽取的质量(准确率、召回率等)对后续知识获取的效率以及质量影响极大,是信息抽取中最为基础和关键的部分。

②关系提取(Relation Extraction):在图片5中黄底下划线的“治疗”,“属于”,“主要症状为”、“导致”、“形成”为实体之间抽取出的关联关系,通过关联才可以将实体链接起来,形成网状可检索的知识结构,而如何从文本语料中抽取这种关系是需要着重解决的问题。

图4 抑郁的知识图谱形成解析


图5 抑郁知识图谱的底层非结构化数据提取释义


③属性抽取(Attribute Extraction):从不同信息库中采集特定实体的属性信息,如在图2中展示的,氟西汀的名字、主要作用、副作用等,这些信息都属于可从文本中获取的属性信息。属性抽取技术也可以实现从多种数据来源中汇集信息(如图片、声音)实现对实体信息的完整化过程。

 


2、知识融合

在知识融合的过程中主要包括两部分内容,实体链接以及知识的合并。而在链接的过程中,涉及到共同参照分析。这是由于文本中指代的同一实体具有不同的表达方式,需要我们进行识别和处理。可以通过分析上下文信息,确定不同表达是否指代同一实体,并进一步链接。同时也存在一些同名异义的实体,为了确保每个实体的唯一性,我们需要进行以下步骤:首先进行候选实体生成,为每个模糊实体生成一组候选实体;在进行相似度计算,具体计算候选实体与模糊实体之间的相似度(通常可以采用属性相似度以及上下文相似度等方式),最后需要进行消歧决策,根据相似度得分,来选择最合适的候选实体作为最终实体。

 


3、知识处理

经过前面的系列抽取,我们已经可以获得一系列的要素信息,并经过消歧等步骤获得了基本的事实表达。接下来进行的知识加工包括三个步骤,本体构建、知识推理以及质量评估。

(1) 本体构建(Ontology Construction)

本体(Ontology)是知识图谱中用来描述和组织知识的核心模型,定义了实体、关系和属性的类别及它们之间的层次结构和约束。通过本体构建,知识图谱能够明确实体与实体之间的关系以及它们所具备的属性。有效的本体构建可以使得知识图谱具有语义理解能力,支持推理和查询。

①定义概念(Classes):确定图谱中将要表示的实体种类(如“人物”、“组织”、“地点”)。这些实体种类定义了实体的类别,便于对实体进行分类和组织。

示例:在医学领域,本体可以包括“疾病”、“症状”、“治疗方法”等概念。

②定义属性(Properties):确定每个概念或实体类型的属性(如“年龄”、“地址”、“发布日期”)。

③定义实例(Individuals):实体类中具体的实例。例如,“爱因斯坦”是“人物”类的一个实例,“北京”是“地点”类的一个实例。

④定义类之间的层级关系(Hierarchical Relationships):本体中的类之间通常会有层次关系,例如“哺乳动物”是“动物”类的子类,“猫”是“哺乳动物”类的子类。通过这种层级关系,本体可以帮助知识图谱进行归类和推理。

⑤定义公理(Axioms)和约束:公理是本体中定义的规则或定理,用于约束实体和关系。例如,规定某个疾病必须由特定的症状引起,或某个患者必须在特定时间内就诊等。本体中的约束帮助提高知识图谱的准确性和一致性。

⑥使用本体建模语言:为了正式化本体的表达,通常使用本体建模语言,如RDF(Resource Description Framework)、OWL(Web Ontology Language)等。

 

(2)知识推理(Knowledge Inference)

知识推理是指通过图谱中的已有知识,自动推导出新的知识或验证已有知识的正确性。推理可以基于规则、逻辑或概率模型进行。通过推理,知识图谱可以自动推导出隐藏的关系、发现新的实体和关系。

①基于规则的推理:通过预定义的规则对知识图谱中的事实进行推理。例如:如果“X是Y的父亲”,而“Y是Z的母亲”,则可以推理出“X是Z的祖父”。规则通常采用逻辑公式表达,如基于描述逻辑(DL)或一阶逻辑(First-Order Logic)等。

②基于图算法的推理:利用图论中的算法,如最短路径、图遍历等,推导实体之间的潜在关系。例如,通过PageRank算法可以评估节点的重要性,通过路径推理可以发现新的实体关系。示例:通过图遍历算法,发现某个“医生”与多个“患者”之间的关系,从而推理出该医生的专业领域或研究方向。

③概率推理:使用概率模型对知识图谱中的不确定性进行建模和推理。例如,基于贝叶斯网络、马尔可夫逻辑网络等方法,推导某个事件或实体的可能性。示例:通过历史病例数据推理某种症状和疾病之间的概率关系。

 

(3)质量评估(Quality Evaluation)

知识图谱的质量评估是确保图谱的准确性、完整性和一致性的重要环节。评估标准可以从多个维度进行,包括图谱的正确性、覆盖度、可信度、更新频率等。

 

①准确性(Accuracy):知识图谱中实体、关系和属性的表示是否正确。例如,是否正确地表示了“爱因斯坦”和“相对论”之间的关系。评估方法:通过人工标注的验证数据集或使用自动化工具与现有知识库(如Wikipedia、DBpedia)进行比较。

②完整性(Completeness):知识图谱是否包含了所有重要的实体和关系,是否存在信息缺失。评估方法:对图谱进行覆盖度分析,查看是否遗漏了某些重要的知识或实体。

③一致性(Consistency):知识图谱中的信息是否自洽,是否存在矛盾。例如,如果一个实体被描述为“出生于美国”,而在图谱中又被描述为“出生于英国”,就存在一致性问题。评估方法:使用逻辑检查工具,如基于规则的验证,检查图谱中的矛盾信息。

④可信度(Trustworthiness):知识图谱中的知识是否来源可靠,是否能够信赖。例如,数据来源是否权威,是否存在低质量的外部数据污染。评估方法:验证数据的来源、引用标准和更新频率,评估来源的可靠性。

⑤可扩展性(Scalability):知识图谱能否在不断增加的知识量下保持良好的性能,是否能够适应新的数据来源和知识更新。评估方法:测试图谱在数据量增加时的存储和查询性能。

⑥更新频率(Freshness):知识图谱的更新频率是否足够高,以反映最新的变化和趋势。评估方法:评估图谱的更新周期和新增数据的及时性。



Vol.5

知识图谱的进一步升级过程

图6 具有外部数据输入的知识图谱构建


图6来自2022年发表的知识图谱构建系列文章:“基于 RoBERTa-wwm-ext 预训练模型的领域特定知识图谱研究[2]”,其中对于命名实体识别中,文章具体列举了文本编码的预训练模型:双向长短期记忆网络(Bi-LSTM)。这是一种特殊的递归神经网络(RNN),用于处理和预测时间序列数据。LSTM通过引入门控机制,解决了传统RNN在长序列数据中存在的梯度消失和梯度爆炸问题。LSTM网络层由细胞状态(cell state)和三个门(输入门、遗忘门和输出门)组成,这些门控制信息的流入、流出和保留,从而使网络能够记住和利用长时间跨度的信息。LSTM在自然语言处理、语音识别、时间序列预测等领域有广泛应用,能够有效捕捉数据中的长期依赖关系。

并生成了条件随机场(Conditional Random Field, CRF),这是一种用于序列标注的概率图模型。它通过定义在给定观测序列条件下的标记序列的概率分布,来解决标记序列的预测问题。CRF模型在自然语言处理、图像处理等领域有广泛应用,特别适用于处理具有上下文依赖关系的序列数据。

CRF的基本思想是通过构建一个无向图模型,其中节点表示观测值和标记,边表示节点之间的依赖关系。通过最大化条件概率来训练模型,从而在给定观测序列的情况下,找到最可能的标记序列。



小结:

以上是知识图谱的初步介绍,如果你对这种方法比较感兴趣,可以继续关注我们后续的推文内容。我们将带你进一步了解如何生成知识图谱。


参考文献:

[1] Study on Smart Home Energy Management System Based on Artificial Intelligence


[2] Liu, X., Zhao, W., & Ma, H. (2022). Research on Domain-Specific Knowledge Graph Based on the RoBERTa-wwm-ext Pretraining Model. Computational intelligence and neuroscience, 2022, 8656013. https://doi.org/10.1155/2022/8656013 


PSYCH统计实验室

通知公告

网络分析课程目前开放视频课啦!


单次课200元/讲(学生),250元/讲(非学生)
共有四讲内容
①横断面网络分析简介与基础
②网络分析与因子分析
③交叉滞后网络分析
④时间序列网络分析


购买后开放视频权限14天,可多次申请。
并赠送所有课程相关资料(无PPT)
如果想申请购买,请联系M18812507626



更多资讯

关注我们


文稿:莲花清瘟

排版:Peruere
责编:Wink
审核:摘星

本文由“Psych统计自习室”课题组原创,欢迎转发至朋友圈。如需转载请联系后台,征得作者同意后方可转载。



Psych统计自习室
大家好,我们是由来自北京师范大学,西南大学,天津医科大学等高校在读硕士、博士研究生组成的一个科研团队——Psych统计自习室。Psych统计自习室旨在关注心理学、精神病学领域的最前沿的系列研究,并做前沿统计知识的分享。
 最新文章