一文带你走进智能引擎的后台——知识图谱（Knowledge Graph）

文摘 2024-12-02 10:22 北京

Vol.1

前言

自智能搜索出现的那天起，在互联网上搜集信息似乎变得更加方便起来。从谷歌、百度等浏览器的检索功能，到现在智能问答的出现，无一不再展示着智能搜索引擎的进步。那么是什么重要的技术在推动着搜索引擎的发展？今天小室将带你走近智能服务技术的前沿话题——知识图谱。

Vol.2

概念解析

知识图谱（Knowledge Graph）是指通过图结构表示和存储知识的一种形式，其核心是将真实世界中的实体及其关系以节点和边的方式表示，形成一个语义化的网状结构。这种结构能够直观地展示实体之间的连接和关系，从而为知识的获取、存储、管理和应用提供支持。知识图谱是一种有效的知识组织和管理工具，是人工智能和数据科学领域的重要技术支撑。

1、知识图谱的关键特性包括

①实体（Nodes）：代表现实世界中的对象或概念，例如人、地点、事件等。

②关系（Edges）：描述实体之间的关联或交互，例如“朋友关系”、“位于”等。

③属性（Attributes）：对实体或关系的进一步描述，例如实体的名称、类型或时间等。

④语义化：通过使用本体（Ontology）或语义规则对知识进行结构化定义，以提升机器对知识的理解能力。

图1 实体与关系的说明

图2 属性的说明

使用“实体-关系-实体”构成的三元组，就是知识图谱的核心架构模式，而加入属性后，就构成了“实体-属性-性值”三元组，更方便携带信息。

2、知识图谱的常见用途

①信息检索与推荐：提高搜索引擎的结果准确性，提供个性化推荐。

②问答系统：支持自然语言的问答功能，通过知识推理回答复杂问题。

③智能助理：增强对用户意图的理解，提供语义化交互。

④科学研究：帮助整理和分析跨领域知识。

3、知识图谱的作用主要体现在以下几个方面

①信息组织与整合：通过图结构，将复杂的信息和知识进行结构化表示，使得不同来源、不同格式的知识能够统一、直观地呈现，便于理解与管理。

②知识发现与推理：基于图谱中的实体和关系，可以进行知识推理和发现新知识。例如，通过关系推理发现潜在的关联，或通过图算法（如路径搜索、聚类分析）揭示隐含的信息。

③提升搜索与推荐能力：在搜索引擎中，知识图谱帮助提高检索结果的相关性与准确性，理解用户查询背后的意图，并为用户提供更加精准的答案或推荐内容。

④增强自然语言处理能力：通过知识图谱，机器可以理解和处理自然语言中的语义关系，提升问答系统、对话系统的效果，支持更复杂的语义分析。

⑤智能决策与支持：知识图谱可用于支持决策过程，帮助分析决策条件、评估选项和预测后果，广泛应用于医疗、金融、企业决策等领域。

⑥跨领域知识共享：通过标准化和语义化表示，知识图谱可以促进跨领域的知识共享和协作，降低信息孤岛的现象。

⑦增强个性化体验：在社交平台、电商、媒体推荐等领域，知识图谱可根据用户行为和兴趣，提供更精准、个性化的服务和推荐。

Vol.3

知识图谱所使用到的数据类型

我们通常使用Neo4j来储存图数据库（https://neo4j.com/ ），当我们收集到了足够的信息数据，怎样处理成Neo4j可以识别并储存的内容就变得尤为重要。接下来就是知识图谱的构建过程。

Vol.4

构建知识图谱

在构建知识图谱时，我们往往会采取以下程序，进行信息提取、知识融合与知识处理（图3）^[1]。

图3 知识图谱的构建过程

1、信息提取

指的是从各类型数据源中提取出实体、属性以及实体间的相互关系，并在此基础上形成知识表达。

①实体抽取（Named Entity Recognition，NER）：在图片5中，抑郁症、药物等方框中的字为实体，具体指从文本数据中准确命名实体的部分，显示为图片4中的圆圈内内容。其抽取的质量（准确率、召回率等）对后续知识获取的效率以及质量影响极大，是信息抽取中最为基础和关键的部分。

②关系提取（Relation Extraction）：在图片5中黄底下划线的“治疗”，“属于”，“主要症状为”、“导致”、“形成”为实体之间抽取出的关联关系，通过关联才可以将实体链接起来，形成网状可检索的知识结构，而如何从文本语料中抽取这种关系是需要着重解决的问题。

图4 抑郁的知识图谱形成解析

图5 抑郁知识图谱的底层非结构化数据提取释义

③属性抽取（Attribute Extraction）：从不同信息库中采集特定实体的属性信息，如在图2中展示的，氟西汀的名字、主要作用、副作用等，这些信息都属于可从文本中获取的属性信息。属性抽取技术也可以实现从多种数据来源中汇集信息（如图片、声音）实现对实体信息的完整化过程。

2、知识融合

在知识融合的过程中主要包括两部分内容，实体链接以及知识的合并。而在链接的过程中，涉及到共同参照分析。这是由于文本中指代的同一实体具有不同的表达方式，需要我们进行识别和处理。可以通过分析上下文信息，确定不同表达是否指代同一实体，并进一步链接。同时也存在一些同名异义的实体，为了确保每个实体的唯一性，我们需要进行以下步骤：首先进行候选实体生成，为每个模糊实体生成一组候选实体；在进行相似度计算，具体计算候选实体与模糊实体之间的相似度（通常可以采用属性相似度以及上下文相似度等方式），最后需要进行消歧决策，根据相似度得分，来选择最合适的候选实体作为最终实体。

3、知识处理

经过前面的系列抽取，我们已经可以获得一系列的要素信息，并经过消歧等步骤获得了基本的事实表达。接下来进行的知识加工包括三个步骤，本体构建、知识推理以及质量评估。

（1）本体构建（Ontology Construction）

本体（Ontology）是知识图谱中用来描述和组织知识的核心模型，定义了实体、关系和属性的类别及它们之间的层次结构和约束。通过本体构建，知识图谱能够明确实体与实体之间的关系以及它们所具备的属性。有效的本体构建可以使得知识图谱具有语义理解能力，支持推理和查询。

①定义概念（Classes）：确定图谱中将要表示的实体种类（如“人物”、“组织”、“地点”）。这些实体种类定义了实体的类别，便于对实体进行分类和组织。

示例：在医学领域，本体可以包括“疾病”、“症状”、“治疗方法”等概念。

②定义属性（Properties）：确定每个概念或实体类型的属性（如“年龄”、“地址”、“发布日期”）。

③定义实例（Individuals）：实体类中具体的实例。例如，“爱因斯坦”是“人物”类的一个实例，“北京”是“地点”类的一个实例。

④定义类之间的层级关系（Hierarchical Relationships）：本体中的类之间通常会有层次关系，例如“哺乳动物”是“动物”类的子类，“猫”是“哺乳动物”类的子类。通过这种层级关系，本体可以帮助知识图谱进行归类和推理。

⑤定义公理（Axioms）和约束：公理是本体中定义的规则或定理，用于约束实体和关系。例如，规定某个疾病必须由特定的症状引起，或某个患者必须在特定时间内就诊等。本体中的约束帮助提高知识图谱的准确性和一致性。

⑥使用本体建模语言：为了正式化本体的表达，通常使用本体建模语言，如RDF（Resource Description Framework）、OWL（Web Ontology Language）等。

（2）知识推理（Knowledge Inference）

知识推理是指通过图谱中的已有知识，自动推导出新的知识或验证已有知识的正确性。推理可以基于规则、逻辑或概率模型进行。通过推理，知识图谱可以自动推导出隐藏的关系、发现新的实体和关系。

①基于规则的推理：通过预定义的规则对知识图谱中的事实进行推理。例如：如果“X是Y的父亲”，而“Y是Z的母亲”，则可以推理出“X是Z的祖父”。规则通常采用逻辑公式表达，如基于描述逻辑（DL）或一阶逻辑（First-Order Logic）等。

②基于图算法的推理：利用图论中的算法，如最短路径、图遍历等，推导实体之间的潜在关系。例如，通过PageRank算法可以评估节点的重要性，通过路径推理可以发现新的实体关系。示例：通过图遍历算法，发现某个“医生”与多个“患者”之间的关系，从而推理出该医生的专业领域或研究方向。

③概率推理：使用概率模型对知识图谱中的不确定性进行建模和推理。例如，基于贝叶斯网络、马尔可夫逻辑网络等方法，推导某个事件或实体的可能性。示例：通过历史病例数据推理某种症状和疾病之间的概率关系。

（3）质量评估（Quality Evaluation）

知识图谱的质量评估是确保图谱的准确性、完整性和一致性的重要环节。评估标准可以从多个维度进行，包括图谱的正确性、覆盖度、可信度、更新频率等。

①准确性（Accuracy）：知识图谱中实体、关系和属性的表示是否正确。例如，是否正确地表示了“爱因斯坦”和“相对论”之间的关系。评估方法：通过人工标注的验证数据集或使用自动化工具与现有知识库（如Wikipedia、DBpedia）进行比较。

②完整性（Completeness）：知识图谱是否包含了所有重要的实体和关系，是否存在信息缺失。评估方法：对图谱进行覆盖度分析，查看是否遗漏了某些重要的知识或实体。

③一致性（Consistency）：知识图谱中的信息是否自洽，是否存在矛盾。例如，如果一个实体被描述为“出生于美国”，而在图谱中又被描述为“出生于英国”，就存在一致性问题。评估方法：使用逻辑检查工具，如基于规则的验证，检查图谱中的矛盾信息。

④可信度（Trustworthiness）：知识图谱中的知识是否来源可靠，是否能够信赖。例如，数据来源是否权威，是否存在低质量的外部数据污染。评估方法：验证数据的来源、引用标准和更新频率，评估来源的可靠性。

⑤可扩展性（Scalability）：知识图谱能否在不断增加的知识量下保持良好的性能，是否能够适应新的数据来源和知识更新。评估方法：测试图谱在数据量增加时的存储和查询性能。

⑥更新频率（Freshness）：知识图谱的更新频率是否足够高，以反映最新的变化和趋势。评估方法：评估图谱的更新周期和新增数据的及时性。

Vol.5

知识图谱的进一步升级过程

图6 具有外部数据输入的知识图谱构建

图6来自2022年发表的知识图谱构建系列文章：“基于 RoBERTa-wwm-ext 预训练模型的领域特定知识图谱研究^[2]”，其中对于命名实体识别中，文章具体列举了文本编码的预训练模型：双向长短期记忆网络（Bi-LSTM）。这是一种特殊的递归神经网络（RNN），用于处理和预测时间序列数据。LSTM通过引入门控机制，解决了传统RNN在长序列数据中存在的梯度消失和梯度爆炸问题。LSTM网络层由细胞状态（cell state）和三个门（输入门、遗忘门和输出门）组成，这些门控制信息的流入、流出和保留，从而使网络能够记住和利用长时间跨度的信息。LSTM在自然语言处理、语音识别、时间序列预测等领域有广泛应用，能够有效捕捉数据中的长期依赖关系。

并生成了条件随机场（Conditional Random Field, CRF），这是一种用于序列标注的概率图模型。它通过定义在给定观测序列条件下的标记序列的概率分布，来解决标记序列的预测问题。CRF模型在自然语言处理、图像处理等领域有广泛应用，特别适用于处理具有上下文依赖关系的序列数据。

CRF的基本思想是通过构建一个无向图模型，其中节点表示观测值和标记，边表示节点之间的依赖关系。通过最大化条件概率来训练模型，从而在给定观测序列的情况下，找到最可能的标记序列。

小结：

以上是知识图谱的初步介绍，如果你对这种方法比较感兴趣，可以继续关注我们后续的推文内容。我们将带你进一步了解如何生成知识图谱。

参考文献：

[1] Study on Smart Home Energy Management System Based on Artificial Intelligence

[2] Liu, X., Zhao, W., & Ma, H. (2022). Research on Domain-Specific Knowledge Graph Based on the RoBERTa-wwm-ext Pretraining Model. Computational intelligence and neuroscience, 2022, 8656013. https://doi.org/10.1155/2022/8656013

PSYCH统计实验室

通知公告

网络分析课程目前开放视频课啦！

单次课200元/讲（学生），250元/讲（非学生）
共有四讲内容：
①横断面网络分析简介与基础
②网络分析与因子分析
③交叉滞后网络分析
④时间序列网络分析

购买后开放视频权限14天，可多次申请。
并赠送所有课程相关资料（无PPT）
如果想申请购买，请联系M18812507626

更多资讯

关注我们

文稿：莲花清瘟

排版：Peruere
责编：Wink
审核：摘星

本文由“Psych统计自习室”课题组原创，欢迎转发至朋友圈。如需转载请联系后台，征得作者同意后方可转载。

Psych统计自习室

大家好，我们是由来自北京师范大学，西南大学，天津医科大学等高校在读硕士、博士研究生组成的一个科研团队——Psych统计自习室。Psych统计自习室旨在关注心理学、精神病学领域的最前沿的系列研究，并做前沿统计知识的分享。

最新文章

如何在r中进行并行运算（一）

龙年的最后一天｜我们一起辞旧迎新

有调节网络中的AND和OR规则

数据可视化指南：如何⽤ R 绘制误差条图？

多水平数据中的验证性因素分析和潜在类分析——多水平因子混合模型

【重磅来袭！】Psych统计自习室寒假培训班第二轮火热报名中！

随机截距交叉滞后模型时间不变控制变量

如何用R语言进行量表的测量不变性检验

轻松掌握三种语言实现随机抽样的代码秘籍

跟着顶刊学配色

招新公告：Psych统计自习室招募新成员啦

（因果）贝叶斯网络与有向无环图（DAG）在因果推断中的应用

jamovi应用系列——潜剖面分析

有调节网络的应用实例

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（二）

贝叶斯网络在精神病理学研究中的应用

社交媒体成瘾纵向追踪实验主试招募令

【重磅来袭！】Psych统计自习室寒假培训班火热报名中！

密集追踪数据处理之贝叶斯多水平中介分析(1-1-1模型)

学习向量量化（Learning Vector Quantization ，LVQ)）及其扩展方法

如何将 DICOM 格式的图像转换为 NIfTI/BIDS 格式（一）

喜报| 粉丝破万，万幸有你！

申请国自然博士生项目经验

心理障碍的网络理论系列（一） ——为什么将心理障碍建模为网络

结构化残差-潜增长曲线模型（LCM-SR）

一文带你走进智能引擎的后台——知识图谱（Knowledge Graph）

如何使用JASP进行网络分析（简单易上手的教程）

有调节的网络中如何检验特定调节作用是否存在

初识Stan：一个简单的多层回归建模指南

reslice详解｜fmri数据处理细节

全教程：横断面网络分析中的网络比较

科普｜QSIprep：简化你的扩散MRI数据预处理之旅

回复贴：GBTM与LCGM

多模态脑影像数据处理方案

潜变量随机截距交叉滞后模型

Rstan和cmdstanr的安装及比较

网络“温度(temperatur)”——评估心理症状网络稳定性的新指标

社区检测中的Overlapping symptoms——基于Clique Percolation算法

如何使用R语言绘制双因子模型

平行潜类别增长模型

置换检验(Permutation tests)的原理和R语言实现

基于Plsgui处理sMRI操作流程|结构共变网络

开放科学下的纵向网络分析——纵向网络分析的预注册指南

Bootstrap抽样技术的简单介绍

利用 GAMLSS 对心理测验进行基于回归的常模分析

随机截距交叉滞后模型多组比较

多项式回归的原理与操作

双因子模型(bi-factor model)的简介及文章介绍

生存分析2 生存分析的操作过程与R实践

生存分析在SPSS上的实践

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉