GraphRAG门槛高，试试更小、更快、更干净的 GraphRAG

文摘科技 2024-08-22 12:08 北京

点击上方蓝字关注我们

IT 咖啡馆，探索无限可能！

恭喜你发现了这个宝藏，这里你会发现优质的开源项目、IT知识和有趣的内容。

微软开源的GraphRAG一直是被寄予厚望的下一代RAG技术，但是其使用门槛过高的问题也一直被人所诟病。

今天我们分享的开源项目，它是一个简化版实现的GraphRAG，可以让用户更简单并且低成本的使用GraphRAG的能力，它就是：nano-GraphRAG

GraphRAG

Graph RAG（Graph Retrieval-Augmented Generation**）**是一种基于图的知识检索增强技术，它结合了知识图谱的广泛知识表示能力和大语言模型（LLM）的生成能力。不同于使用纯文本片段的简单语义搜索方法。GraphRAG 流程包括从原始文本中提取知识图谱、构建社区层次结构、为这些社区生成摘要，然后在执行基于 RAG 的任务时利用这些结构。

微软在今年4月份的时候提出了GraphRAG的概念，发布了GraphRAG的论文《From Local to Global: A Graph RAG Approach to Query-Focused Summarization》。在这篇论文中，微软的研究人员提出了一种从文本构建并增强知识图的方法，来解决 Baseline RAG 系统在全局理解上的缺陷。

有兴趣的同学也可以直接访问对应的代码仓库和文档，自己动手试一试。

项目仓库：https://github.com/microsoft/graphrag
项目文档：microsoft.github.io/graphrag/

nano-GraphRAG 是什么

nano-GraphRAG是一款简洁且易于定制的 GraphRAG 实现。微软开源的GraphRAG 在功能上确实非常强大，但是官方版本中对于阅读与定制修改都非常的不友好。nano-GraphRAG项目的目的就是为您呈现了一个更为精简、高效、清晰的 GraphRAG 版本，同时保留了其核心特性。如何不考虑测试的代码，那么nano-GraphRAG 的代码量大约只有 800行。并且它短小精悍，易于扩展，支持异步操作，且完全采用类型注解。

安装nano-GraphRAG

安装nano-GraphRAG的方式非常简单，你可以选择从pip来安装或者自己从原来来安装。

从 PIP 安装

pip install nano-graphrag

从源代码安装

# clone this repo firstcd nano-graphragpip install -e .

上手使用

配置LLM

首先需要在你的环境中配置LLM，在nano-graphrag中，我们需要两种类型的 LLM，一种是优秀的，一种是便宜的。前者用于规划和响应，后者用于总结。默认情况下，优秀的是gpt-4o，便宜的是gpt-4o-mini。

如果使用默认OpenAI，这需要设置penAI API 密钥：export OPENAI_API_KEY="sk-..."

您可以实现自己的LLM函数（参考_llm.gpt_4o_complete）：

async def my_llm_complete(    prompt, system_prompt=None, history_messages=[], **kwargs) -> str:  # pop cache KV database if any  hashing_kv: BaseKVStorage = kwargs.pop("hashing_kv", None)  # the rest kwargs are for calling LLM, for example, `max_tokens=xxx`  ...  # YOUR LLM calling  response = await call_your_LLM(messages, **kwargs)  return response

将默认值替换为：

# Adjust the max token size or the max async requests if neededGraphRAG(best_model_func=my_llm_complete, best_model_max_token_size=..., best_model_max_async=...)GraphRAG(cheap_model_func=my_llm_complete, cheap_model_max_token_size=..., cheap_model_max_async=...)

下载资源物料

这里下载下载查尔斯·狄更斯的《圣诞颂歌》

curl <https://raw.githubusercontent.com/gusye1234/nano-graphrag/main/tests/mock_data.txt> > ./book.txt

通过Python来使用nano-GraphRAG

from nano_graphrag import GraphRAG, QueryParamgraph_func = GraphRAG(working_dir="./dickens")
with open("./book.txt") as f:    graph_func.insert(f.read())
# Perform global graphrag searchprint(graph_func.query("What are the top themes in this story?"))
# Perform local graphrag search (I think is better and more scalable one)print(graph_func.query("What are the top themes in this story?", param=QueryParam(mode="local")))

增量更新

nano-graphrag支持增量插入，不会添加重复的计算或数据。nano-graphrag使用内容的 md5-hash 作为密钥，因此没有重复的块。但是，每次插入时，图的社区都会重新计算，并且社区报告也会重新生成

with open("./book.txt") as f:    book = f.read()    half_len = len(book) // 2    graph_func.insert(book[:half_len])    graph_func.insert(book[half_len:])

异步

对于每个方法NAME(...)，都有一个对应的异步方法aNAME(...)

await graph_func.ainsert(...)await graph_func.aquery(...)...

可用参数

GraphRAG和QueryParam在dataclassPython 中。使用help(GraphRAG)和help(QueryParam)查看所有可用参数！

自定义扩展

在使用中给大家看了可以通过自定义LLM来，使用非OpenAI的LLM，这里除了LLM以外，nano-GraphRAG支持的扩展还包括：

Prompt：nano-graphrag使用来自 dict 对象的提示nano_graphrag.prompt.PROMPTS。你可以使用它并替换里面的任何提示。
Embedding：您可以用任何实例替换默认嵌入函数_utils.EmbedddingFunc。
存储：你可以将所有存储相关的组件替换为你自己的实现，nano-graphrag主要使用三种存储：base.BaseKVStorage用于存储 key-json 对数据，base.BaseVectorStorage用于索引嵌入，base.BaseGraphStorage用于存储知识图谱。

Benchmark

首先我们先说明对比的基础条件，我们使用三国演义来作为benchmark的基准语料库，GraphRAG和nano-graphrag都使用OpenAI的Embedding和gpt-4o，并且都不是不使用缓存，两者在同一设备和网络连接上。

Index对比

相对都比较慢，都超过了 10 分钟。

Local Search对比

问题：大乔和曹操的关系

GraphRAG

nano-graphrag

Global Search对比

问题："大乔与曹操的关系”

GraphRAG

nano-graph

总结

nano-graphrag的尝试对于行业来说是非常有益的，GraphRAG的能力是非常不错的，因此如果能在GraphRAG的基础上实现出更加轻量级、更加易于上手和入门的产品，那对于有RAG需要的用户来说，必然是非常大的福音。

项目信息

项目名称：nano-graphrag
GitHub 链接：https://github.com/gusye1234/nano-graphrag
Star 数：1K

往期推荐

浏览器书签秒变导航站，有手就行

7K star！滴滴开源，灵活的流程图可视化框架

「Github一周热点32期」动画图解算法教程、用LLM写完整报告等5个项目

识别二维码关注我们

微信号- it-coffee

B站 - IT-咖啡馆

头条号- IT咖啡馆

http://mp.weixin.qq.com/s?__biz=MzI1NzEzOTAzOA==&mid=2247486484&idx=1&sn=46e0a9015c80161da4fabf243f5ffbc6

IT咖啡馆

开源项目、IT技能和有趣的事情

2K star！语音转文本模型，比Whisper快，更适合小设备

16K star！开源工作流编排，让计划更简单

16K star！实时文档协作编辑器，远程工作好帮手

「Github一周热点47期」llama官方配套资料、低代码框架、网页变化监控工具、工作流编排平台和我的世界AI工具

3K star！微软开源的AI屏幕解析工具，基于纯视觉识别UI

31K Star！快速构建应用，几分钟就能开发网站的低代码工具

「Github一周热点46期」大模型OCR、IPTV直播源、工作流程自动化、下一代信息浏览器和下载金融数据工具

12K star！开源OCR工具包，效果不错

「Github一周热点45期」OCR工具包、文件分享平台、开源调查问卷、编程AI助手和面部识别框架

「Github一周热点44期」多语言算法库、远程工作指南、可扩展区块链、一体化项目管理平台和数学动画引擎

掌握深度学习，这5个开源项目值得收藏

36K star！轻量化的docker终端可视化工具

24K star！开源的量化交易平台开发框架

「Github一周热点43期」面向LLM的爬虫、网页一键变APP、开源金融分析工具等

开源的3D互动数字人聊天，你的二次元AI助理

8K star X2！anthropics 开源的AI学习资源，27份指南+5个课程

「Github一周热点42期」计算机视觉工具、AirDrop替代、 llama开发框架等5个项目

8K star！互动式学习，0基础入门CUDA

5k star！可视化的定时任务管理系统

4k star！OCR进入2.0时代，端到端的开源模型

20K star！用React编程做视频，程序员爱了

「Github一周热点41期」eBPF的捕获工具、本地版AWS、Devops脚本等5个项目

17K star！备用机必备神器，开源短信转发工具

9K star！Java开发的网盘应用，多种存储支持

8K star！开源的小巧工具，帮你实现证件照自由

28K star！开源的自建PaaS平台，拥有自己的Heroku

「Github一周热点39期」开源RAG UI、AI证件照、开源免费ERP等5个项目

8K star！开源行为检测引擎，更适合云原生环境

16K star！网站内容变化实时监控，快速掌握一手信息

「Github一周热点38期」黑客工具箱、Notion平替、AI换脸等5个项目

4K star！实现页面拖拽，只需几行代码

8K star！抖音开源力作，全面的前端UI库

6K star！平替Lodash，体积缩小97%，轻巧的JS实用库

「Github一周热点37期」开源身份认证、代理客户端、Transformer可视化等5个项目

56K star！Nginx的轻量替代者，自动HTTPS的web服务器

GraphRAG门槛高，试试更小、更快、更干净的 GraphRAG

浏览器书签秒变导航站，有手就行

7K star！滴滴开源，灵活的流程图可视化框架

25K star！实时视频换脸，不要轻易相信你看到的

7K star！精致小巧的开源Redis可视化客户端

35K star！生产环境的Java诊断工具，阿里开源神器

54K star!网站状态监控轻松搞定，小巧且强大

37K star！实时后端服务，一个文件实现

5K Star!这款开源神器让路由追踪直观可视

3K star！LLM读不懂？那用可视化的方式来学吧

为AI开发者而生，agent开发专用的IDE

16K star！强大而易用的网络流量监控和分析工具

15K star！高效PDF转markdown，AI实用工具

一周2K star！Netflix 开源的工作流编排器，不容错过

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉