GraphRAG范式的新角度思考及一个很有信息量的总结

文摘 2025-01-03 12:00 北京

今天是2025年01月03日，星期五，北京，天气晴。

我们今天继续来看GraphRAG，有几个问题思考下，看到一个很好的GraphRAG综述，则其中的几个关键点，给大家看看，会有更多收获。

大家一起加油。‍‍‍‍‍‍‍‍‍

一、关于GraphRAG的几个问题思考

关于GraphRAG这个话题，我们讲过很多了。其核心在解决如何通过检索增强生成（RAG）来利用图结构数据，以提升下游任务的表现。

Graph因其固有的“由边连接的节点”特性，编码了海量的异构和关系信息，从而受到广泛关注。

与主要使用语义/词汇相似性搜索的RAG不同，GraphRAG通过利用基于图的机器学习（例如，图神经网络（GNNs））以及图/网络分析技术（例如，图遍历搜索和社区检测），在捕捉关系知识方面提供了独特的优势。

例如，考虑查询“用于治疗上皮样肉瘤且同时影响EZH2基因产物的药物有哪些？”，盲目执行仅依赖语义/词汇相似性的现有BM25或基于嵌入的搜索会忽略图结构中编码的关系知识。

相比之下，一些GraphRAG方法沿着关系路径“疾病（上皮样肉瘤）→[适应症]→药物←[靶点]←基因/蛋白质（EZH2基因产物）”遍历图，以检索上皮样疾病的适应症邻居、EZH2基因的靶点邻居，并找到它们的交集药物。

RAG通过从外部数据源中检索额外信息来增强生成模型的能力，而图结构数据由于其内在的节点和边的关系，提供了丰富的关系信息。

但实际上，大家探索很多这类方案，但从技术本质上讲，其依旧有很多根本问题需要思考。

首先是图数据的多样性和异构性，图结构数据包含多种格式和领域特定的关系知识，这对RAG的设计提出了独特的要求。传统的RAG可以在嵌入空间中统一设计检索器、生成器和外部数据源，而图形结构数据的独特性（如多样化格式和特定领域的关系知识）在为不同领域设计GraphRAG时带来了独特且重大的挑战。一些图数据甚至可能是多模态的（例如，带属性的文本图包括结构和文本属性，场景图结合结构和视觉）。

其次是信息独立性与相互依赖性，传统RAG中信息是独立存储和使用的，而图RAG中的节点通过边相连，信息的相互依赖性增加了设计的复杂性。

最后是领域不变性与领域特异性，不同领域的图结构数据具有不同的生成过程，难以设计一个统一的图RAG框架来适用于所有领域。例如，在预测学术论文的主题时，广泛接受的同质性假设建议检索论文中的参考文献来辅助其主题预测。然而，当在飞行网络中分类机场的作用时，这种同质性假设并不适用，因为在这些网络中，枢纽通常稀疏地分布在一个国家内，并没有直接的连接。

二、关于GraphRAG一个很有信息量的综述

《Retrieval-Augmented Generation with Graphs (GraphRAG)》(https://arxiv.org/pdf/2501.00309)是第二个综述，相应的总结放在：https://github.com/Graph-RAG/GraphRAG/blob/main/README.md，这个工作，提出了一个由五个关键组件组成的GraphRAG综合框架：查询处理器、检索器、组织器、生成器和图数据源。

根据其特定应用将图RAG设计分为10个不同的领域，包括知识图谱、文档图谱、科学图谱、社交图谱、规划推理图谱、表格图谱基础设施图谱、生物图谱、场景图谱和随机图谱。

我觉得，这里的细分是很重要的，里面蕴含了具体领域、具体任务、具体场景，具体分析的思路，可以看看对应的不容任务类型，如下表：

遵循RAG的一般设定，看看GraphRAG的定义，给定一个图结构的数据源G，用户定义的查询Q进一步发送给查询处理器Processor以获取预处理后的查询Q。之后，检索器Retriever根据Q从图数据源G中检索内容C。接下来，检索到的内容C由组织者Organizer进行组织，形成内容C。最后，总结后的内容触发生成器ΩGenerator生成最终答案A。

所以，几个点可以看看：

一个是对于查询处理器Processor的现有方案及其与传统RAG的对比，顺便回顾下，包括：

实体识别(准确识别GraphRAG中实体的名称和结构可以减少级联错误并为后续检索和生成步骤提供基础)；

关系抽取（通过提取三元组构建图结构数据源，并将查询中提及的关系与图数据源中的关系进行匹配以指导图搜索）；

查询结构化(将自然语言查询转换为结构化格式，如SQL或SPARQL以便与关系数据库进行交互)；

查询分解（将输入查询拆分为多个不同的子查询，这些子查询用于首先检索子结果并将这些子结果汇总以得到最终结果）；

查询扩展（通过添加具有相似重要性的有意义术语来丰富一个查询，解决用户提交的查询是含糊的与多个主题相关；查询可能过于简短无法完全捕捉用户意图；用户通常不确定他们在寻找什么等问题）这五个常用方法。

一个是对检索器的描述，GraphRAG的工作流程更为多样化，包括：

“文本输入，文本输出”、“文本输入，图输出”、“图输入，文本输出”和“图输入，图输出”流程 。其用到的方案也可看看，包括基于启发式 (使用预定义规则、特定领域的见解和硬编码算法从图数据源中提取相关信息，如广度优先搜索BFS或深度优先搜索DFS）；

基于浅层嵌入（如基于邻近性的方法-DeepWalk和Node2Vec专注于保持相连节点的邻近性，确保图中相近的节点在嵌入空间中也保持相近。基于角色的方法-Role2Vec和GraphWave基于它们在图中的结构角色而非邻近关系生成节点嵌入，但这些方法缺乏归纳性，每当添加新节点、边或图时，都需要重新初始化和重新训练，因为现实世界的知识是动态演变的，新信息不断取代过时的内容）；基于深层嵌入（入GNN等），需要特别关注其适应图结构数据的思路。

一个是对组织器的描述，从外部图数据源检索相关内容C后，这些内容可能是实体、关系、三元组、路径或子图的格式，组织器Organizer将与处理过的查询 Q一起处理这些内容。其目的是对检索到的内容进行后处理和细化，以更好地适应生成器。这包括几个核心问题：

图剪枝(解决检索到的图可能很大并且可能包含大量噪声和冗余信息问题，基于语义的剪枝通过移除与查询语义不相关的节点和边关系来减小图的大小；QA-GNN通过使用大型语言模型对查询上下文和节点标签进行编码，然后进行线性投影来剪除相关性得分低的无关节点；基于句法的剪枝从句法角度移除无关节点，如利用依存分析生成上下文的解析树，然后根据它们与解析树的跨度距离过滤检索到的节点；基于结构的剪枝方法专注于根据检索到的图的结构属性进行剪枝，如RoK通过计算每条路径的平均PageRank分数来过滤掉子图中的推理路径；动态剪枝在训练期间动态移除噪声节点。如联合LK使用注意力权重递归地移除每一层的不相关节点，只保留固定比例的节点)；

重新排序(大模型性能可能受到上下文中相关信息位置的影响，使用预训练的交叉编码器、GNN或者重排模型对检索到的路径进行重新排序)；

图数据增强(图结构增强中向检索到的图中添加新节点和边，如GraphQA通过整合从上下文中提取的名词短语块节点来增强检索到的子图；图特征增强丰富图中节点和边的特征，如Once在推荐系统中使用大模型作为内容摘要器、用户分析器和个性化内容生成器)；

生成描述(将检索到的三元组、路径或图转换为大模型可以处理的自然语言，如对于一组事实，首先按特定顺序对其进行排序，然后逐个将其表述为单独的元组，每条信息通常在提示中用换行符分隔；使用预定义模板来表述路径或图形，生成更自然的文本，如使用模板“{实体1}的{关系}是/为：{实体2}”将事实（实体1，关系，实体2）转换为文本；也可以使用微调过的模型或大模型将输入事实转换为连贯的自然语言；也可以基于检索到的图和查询生成简洁的摘要)几个关键点。

参考文献

1、https://arxiv.org/pdf/2501.00309

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

老刘说NLP

老刘，NLP开源爱好者与践行者。主页：https://liuhuanyong.github.io。老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

最新文章

大模型用于情报分析时间线生成(TLS)任务：根本问题及两个代表工作

OCR噪声对RAG性能的影响分析：兼谈公众号文章的价值正确定位

60k感知算法岗面试，考察热门Occ算法及难点！

技术实践指引：3个适合练手的开源数据及项目平台

语音处理落地组件全家桶：语音大模型、数字人、语音到文本、文本转语音全集

老刘说NLP社区2024年终演讲：回顾得失，踏实前行

GraphRAG范式的新角度思考及一个很有信息量的总结

大模型4大神书《动手学大语言模型之语言理解和生成》分享

RAG落地端侧场景：EdgeRAG面向端侧RAG优化思路及特定领域多模态探索

2025年开篇：技术及宏观角度回顾2024年大模型发展

老刘说NLP及大模型的2024年终总结—不悲不喜、继续前行

GraphRAG前沿进展：引入本体的OG-RAG及HYBGRAG实现思路

大模型与知识图谱结合之三元组预测及GEAR多跳问答思路

老刘说NLP技术社区共享：围绕知识图谱+大模型+文档智能三驾马车前进

多模态RAG中的图文Embedding模型及8个图文对数据集

Prompt自动优化框架PromptWizard及AI搜索框架Level-Navi Agent实现思路

RAG的4种查询优化思路及用于时序预测的2个工作

又看多模态RAG进展：解读OmniSearch-多模态检索增强生成新SOTA！

大模型用于推荐(LLMERS)范式总结及缓存增强生成（CAG）实现思路

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

再看情报分析中的事件名称生成策略：基于最长公共子串思想原理

两个值得一读的技术总结：OpenAI o1模型复现复现思想及多模态大模型用于数学推理

langchain关于Agent的年终统计及文档图片去水印思路

文档智能遇上历史古籍：古籍文档修复及识别开源数据集

再看多模态RAG进展：VisDoMRAG及DocVLM-OCR方案解读

《一书解决几乎所有机器学习问题》.PDF下载

【数字人应用基建】29个文本转语音TTS开源工具

大模型人才的薪资，彻底爆了！

【数字人应用基建】7个数字人生成及24个语音到文本ASR开源项目

RAG常见模式、痛点及最佳实践总结4张图：兼看大模型时代的工程开发工具集合

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

RAG年终总结之12篇综述：从2022到2024看架构、策略、评测及演化

大模型行业，岗位也分三六九等

【RAG 2024时间线回顾】RAG七十二式：2024年度RAG清单索引

卷图不卷图谱-GraphRAG最近趋势：考虑结构性、相似性、相关性等Graph思想实现策略

视觉语言模型新SOTA！性能碾压LoRA，无需预训练，训练显存大大减少！

文档处理之E2M转Markdown工具及BigDocs大规模通用文档数据集

RAG＆KG＆LLM＆文档智能等前沿技术及落地跟进：老刘说NLP技术社区持续对外纳新

【前沿进展】文档多模态嵌入表示方案DSE、数据合成及AI搜索应用新风向

AI生成文本检测数据集及9个工具索引：兼看“磁悬浮老鹰”逻辑陷进测试

RAG用于翻译实现思路及多模态模型用于文档理解的几个核心问题

【文档智能】多模态文档OCR评测CC-OCR及专有模型代表工作

aiops-challenge比赛简单总结

故障分析怎么做？朴素KG方案及LLM+Graph RAG方案实现思路

yyds！哈工大博士的PyTorch笔记火了！！

ChatGPT两周年历程回顾及大模型Text2SQL方案索引

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

12个开源AI搜索引擎项目及关于Ai搜索的一些思考

AUTO-RAG多轮对话迭代式检索及RAGDiffusion多模态图像生成思路

使用LLM进行标书写作简单开源项目及openai O1实现思路再索引

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉