Vol.1
前言
自智能搜索出现的那天起,在互联网上搜集信息似乎变得更加方便起来。从谷歌、百度等浏览器的检索功能,到现在智能问答的出现,无一不再展示着智能搜索引擎的进步。那么是什么重要的技术在推动着搜索引擎的发展?今天小室将带你走近智能服务技术的前沿话题——知识图谱。
Vol.2
概念解析
知识图谱(Knowledge Graph)是指通过图结构表示和存储知识的一种形式,其核心是将真实世界中的实体及其关系以节点和边的方式表示,形成一个语义化的网状结构。这种结构能够直观地展示实体之间的连接和关系,从而为知识的获取、存储、管理和应用提供支持。知识图谱是一种有效的知识组织和管理工具,是人工智能和数据科学领域的重要技术支撑。
1、知识图谱的关键特性包括
①实体(Nodes):代表现实世界中的对象或概念,例如人、地点、事件等。
②关系(Edges):描述实体之间的关联或交互,例如“朋友关系”、“位于”等。
③属性(Attributes):对实体或关系的进一步描述,例如实体的名称、类型或时间等。
④语义化:通过使用本体(Ontology)或语义规则对知识进行结构化定义,以提升机器对知识的理解能力。
图1 实体与关系的说明
图2 属性的说明
使用“实体-关系-实体”构成的三元组,就是知识图谱的核心架构模式,而加入属性后,就构成了“实体-属性-性值”三元组,更方便携带信息。
2、 知识图谱的常见用途
①信息检索与推荐:提高搜索引擎的结果准确性,提供个性化推荐。
②问答系统:支持自然语言的问答功能,通过知识推理回答复杂问题。
③智能助理:增强对用户意图的理解,提供语义化交互。
④科学研究:帮助整理和分析跨领域知识。
3、知识图谱的作用主要体现在以下几个方面
①信息组织与整合:通过图结构,将复杂的信息和知识进行结构化表示,使得不同来源、不同格式的知识能够统一、直观地呈现,便于理解与管理。
②知识发现与推理:基于图谱中的实体和关系,可以进行知识推理和发现新知识。例如,通过关系推理发现潜在的关联,或通过图算法(如路径搜索、聚类分析)揭示隐含的信息。
③提升搜索与推荐能力:在搜索引擎中,知识图谱帮助提高检索结果的相关性与准确性,理解用户查询背后的意图,并为用户提供更加精准的答案或推荐内容。
④增强自然语言处理能力:通过知识图谱,机器可以理解和处理自然语言中的语义关系,提升问答系统、对话系统的效果,支持更复杂的语义分析。
⑤智能决策与支持:知识图谱可用于支持决策过程,帮助分析决策条件、评估选项和预测后果,广泛应用于医疗、金融、企业决策等领域。
⑥跨领域知识共享:通过标准化和语义化表示,知识图谱可以促进跨领域的知识共享和协作,降低信息孤岛的现象。
⑦增强个性化体验:在社交平台、电商、媒体推荐等领域,知识图谱可根据用户行为和兴趣,提供更精准、个性化的服务和推荐。
Vol.3
知识图谱所使用到的数据类型
我们通常使用Neo4j来储存图数据库(https://neo4j.com/ ),当我们收集到了足够的信息数据,怎样处理成Neo4j可以识别并储存的内容就变得尤为重要。接下来就是知识图谱的构建过程。
Vol.4
构建知识图谱
在构建知识图谱时,我们往往会采取以下程序,进行信息提取、知识融合与知识处理(图3)[1]。
图3 知识图谱的构建过程
1、信息提取
指的是从各类型数据源中提取出实体、属性以及实体间的相互关系,并在此基础上形成知识表达。
①实体抽取(Named Entity Recognition,NER):在图片5中,抑郁症、药物等方框中的字为实体,具体指从文本数据中准确命名实体的部分,显示为图片4中的圆圈内内容。其抽取的质量(准确率、召回率等)对后续知识获取的效率以及质量影响极大,是信息抽取中最为基础和关键的部分。
②关系提取(Relation Extraction):在图片5中黄底下划线的“治疗”,“属于”,“主要症状为”、“导致”、“形成”为实体之间抽取出的关联关系,通过关联才可以将实体链接起来,形成网状可检索的知识结构,而如何从文本语料中抽取这种关系是需要着重解决的问题。
图4 抑郁的知识图谱形成解析
图5 抑郁知识图谱的底层非结构化数据提取释义
③属性抽取(Attribute Extraction):从不同信息库中采集特定实体的属性信息,如在图2中展示的,氟西汀的名字、主要作用、副作用等,这些信息都属于可从文本中获取的属性信息。属性抽取技术也可以实现从多种数据来源中汇集信息(如图片、声音)实现对实体信息的完整化过程。
2、知识融合
在知识融合的过程中主要包括两部分内容,实体链接以及知识的合并。而在链接的过程中,涉及到共同参照分析。这是由于文本中指代的同一实体具有不同的表达方式,需要我们进行识别和处理。可以通过分析上下文信息,确定不同表达是否指代同一实体,并进一步链接。同时也存在一些同名异义的实体,为了确保每个实体的唯一性,我们需要进行以下步骤:首先进行候选实体生成,为每个模糊实体生成一组候选实体;在进行相似度计算,具体计算候选实体与模糊实体之间的相似度(通常可以采用属性相似度以及上下文相似度等方式),最后需要进行消歧决策,根据相似度得分,来选择最合适的候选实体作为最终实体。
3、知识处理
经过前面的系列抽取,我们已经可以获得一系列的要素信息,并经过消歧等步骤获得了基本的事实表达。接下来进行的知识加工包括三个步骤,本体构建、知识推理以及质量评估。
(1) 本体构建(Ontology Construction)
本体(Ontology)是知识图谱中用来描述和组织知识的核心模型,定义了实体、关系和属性的类别及它们之间的层次结构和约束。通过本体构建,知识图谱能够明确实体与实体之间的关系以及它们所具备的属性。有效的本体构建可以使得知识图谱具有语义理解能力,支持推理和查询。
①定义概念(Classes):确定图谱中将要表示的实体种类(如“人物”、“组织”、“地点”)。这些实体种类定义了实体的类别,便于对实体进行分类和组织。
示例:在医学领域,本体可以包括“疾病”、“症状”、“治疗方法”等概念。
②定义属性(Properties):确定每个概念或实体类型的属性(如“年龄”、“地址”、“发布日期”)。
③定义实例(Individuals):实体类中具体的实例。例如,“爱因斯坦”是“人物”类的一个实例,“北京”是“地点”类的一个实例。
④定义类之间的层级关系(Hierarchical Relationships):本体中的类之间通常会有层次关系,例如“哺乳动物”是“动物”类的子类,“猫”是“哺乳动物”类的子类。通过这种层级关系,本体可以帮助知识图谱进行归类和推理。
⑤定义公理(Axioms)和约束:公理是本体中定义的规则或定理,用于约束实体和关系。例如,规定某个疾病必须由特定的症状引起,或某个患者必须在特定时间内就诊等。本体中的约束帮助提高知识图谱的准确性和一致性。
⑥使用本体建模语言:为了正式化本体的表达,通常使用本体建模语言,如RDF(Resource Description Framework)、OWL(Web Ontology Language)等。
(2)知识推理(Knowledge Inference)
知识推理是指通过图谱中的已有知识,自动推导出新的知识或验证已有知识的正确性。推理可以基于规则、逻辑或概率模型进行。通过推理,知识图谱可以自动推导出隐藏的关系、发现新的实体和关系。
①基于规则的推理:通过预定义的规则对知识图谱中的事实进行推理。例如:如果“X是Y的父亲”,而“Y是Z的母亲”,则可以推理出“X是Z的祖父”。规则通常采用逻辑公式表达,如基于描述逻辑(DL)或一阶逻辑(First-Order Logic)等。
②基于图算法的推理:利用图论中的算法,如最短路径、图遍历等,推导实体之间的潜在关系。例如,通过PageRank算法可以评估节点的重要性,通过路径推理可以发现新的实体关系。示例:通过图遍历算法,发现某个“医生”与多个“患者”之间的关系,从而推理出该医生的专业领域或研究方向。
③概率推理:使用概率模型对知识图谱中的不确定性进行建模和推理。例如,基于贝叶斯网络、马尔可夫逻辑网络等方法,推导某个事件或实体的可能性。示例:通过历史病例数据推理某种症状和疾病之间的概率关系。
(3)质量评估(Quality Evaluation)
知识图谱的质量评估是确保图谱的准确性、完整性和一致性的重要环节。评估标准可以从多个维度进行,包括图谱的正确性、覆盖度、可信度、更新频率等。
①准确性(Accuracy):知识图谱中实体、关系和属性的表示是否正确。例如,是否正确地表示了“爱因斯坦”和“相对论”之间的关系。评估方法:通过人工标注的验证数据集或使用自动化工具与现有知识库(如Wikipedia、DBpedia)进行比较。
②完整性(Completeness):知识图谱是否包含了所有重要的实体和关系,是否存在信息缺失。评估方法:对图谱进行覆盖度分析,查看是否遗漏了某些重要的知识或实体。
③一致性(Consistency):知识图谱中的信息是否自洽,是否存在矛盾。例如,如果一个实体被描述为“出生于美国”,而在图谱中又被描述为“出生于英国”,就存在一致性问题。评估方法:使用逻辑检查工具,如基于规则的验证,检查图谱中的矛盾信息。
④可信度(Trustworthiness):知识图谱中的知识是否来源可靠,是否能够信赖。例如,数据来源是否权威,是否存在低质量的外部数据污染。评估方法:验证数据的来源、引用标准和更新频率,评估来源的可靠性。
⑤可扩展性(Scalability):知识图谱能否在不断增加的知识量下保持良好的性能,是否能够适应新的数据来源和知识更新。评估方法:测试图谱在数据量增加时的存储和查询性能。
⑥更新频率(Freshness):知识图谱的更新频率是否足够高,以反映最新的变化和趋势。评估方法:评估图谱的更新周期和新增数据的及时性。
Vol.5
知识图谱的进一步升级过程
图6 具有外部数据输入的知识图谱构建
图6来自2022年发表的知识图谱构建系列文章:“基于 RoBERTa-wwm-ext 预训练模型的领域特定知识图谱研究[2]”,其中对于命名实体识别中,文章具体列举了文本编码的预训练模型:双向长短期记忆网络(Bi-LSTM)。这是一种特殊的递归神经网络(RNN),用于处理和预测时间序列数据。LSTM通过引入门控机制,解决了传统RNN在长序列数据中存在的梯度消失和梯度爆炸问题。LSTM网络层由细胞状态(cell state)和三个门(输入门、遗忘门和输出门)组成,这些门控制信息的流入、流出和保留,从而使网络能够记住和利用长时间跨度的信息。LSTM在自然语言处理、语音识别、时间序列预测等领域有广泛应用,能够有效捕捉数据中的长期依赖关系。
并生成了条件随机场(Conditional Random Field, CRF),这是一种用于序列标注的概率图模型。它通过定义在给定观测序列条件下的标记序列的概率分布,来解决标记序列的预测问题。CRF模型在自然语言处理、图像处理等领域有广泛应用,特别适用于处理具有上下文依赖关系的序列数据。
CRF的基本思想是通过构建一个无向图模型,其中节点表示观测值和标记,边表示节点之间的依赖关系。通过最大化条件概率来训练模型,从而在给定观测序列的情况下,找到最可能的标记序列。
小结:
以上是知识图谱的初步介绍,如果你对这种方法比较感兴趣,可以继续关注我们后续的推文内容。我们将带你进一步了解如何生成知识图谱。
参考文献:
[1] Study on Smart Home Energy Management System Based on Artificial Intelligence
[2] Liu, X., Zhao, W., & Ma, H. (2022). Research on Domain-Specific Knowledge Graph Based on the RoBERTa-wwm-ext Pretraining Model. Computational intelligence and neuroscience, 2022, 8656013. https://doi.org/10.1155/2022/8656013
PSYCH统计实验室
通知公告
网络分析课程目前开放视频课啦!
单次课200元/讲(学生),250元/讲(非学生)
共有四讲内容:
①横断面网络分析简介与基础
②网络分析与因子分析
③交叉滞后网络分析
④时间序列网络分析
购买后开放视频权限14天,可多次申请。
并赠送所有课程相关资料(无PPT)
如果想申请购买,请联系M18812507626
更多资讯
关注我们
文稿:莲花清瘟
排版:Peruere
责编:Wink
审核:摘星
本文由“Psych统计自习室”课题组原创,欢迎转发至朋友圈。如需转载请联系后台,征得作者同意后方可转载。