微软LazyGraphRAG：新一代超低成本RAG

科技 2024-11-28 00:01 北京

微软GraphRAG自发布以来，引起了很大关注（目前19.6k star），但是成本/慢一直被诟病，微软LazyGraphRAG应运而生，其只有完整GraphRAG成本的 0.1%。低成本的核心：

使用 NLP 名词短语提取来提取概念及其共现
使用图形统计来优化概念图并提取分层社区结构

示例对比，LazyGraphRAG论据更加详细，Query：描述 2024 年健康保险计划开放注册期间，美国个人在选择健康保险计划时应考虑哪些因素。

LazyGraphRAG效果评测

LazyGraphRAG的一个关键优势是其在成本和质量方面的固有可扩展性。在一系列竞争方法（标准向量RAG、RAPTOR、GraphRAG本地、GraphRAG全局和DRIFT搜索机制）中，LazyGraphRAG在成本-质量上显示出强大的性能，如下所示：

LazyGraphRAG数据索引成本与向量RAG相同，是完整GraphRAG成本的0.1%。
对于与向量RAG相当的查询成本，LazyGraphRAG在本地查询上超越了所有竞争方法，包括长上下文向量RAG和GraphRAG DRIFT搜索（我们最近引入的RAG方法，已被证明优于向量RAG）以及GraphRAG本地搜索。
相同的LazyGraphRAG配置还显示出与GraphRAG全局搜索相当的答题质量，但对于全局查询，查询成本降低了700多倍。
对于GraphRAG全局搜索查询成本的4%，LazyGraphRAG在本地和全局查询类型上显著超越了所有竞争方法，包括C2级别的GraphRAG全局搜索（社区层级中的第三层，推荐大多数应用使用）。

图1显示了LazyGraphRAG在与八个竞争条件的对比中的胜率。在最低预算水平，即使用低成本LLM模型进行100次相关性测试（与SS_8K成本相同）时，LazyGraphRAG在本地和全局查询上显著超越了所有条件，除了全局查询的GraphRAG全局搜索条件。在预算增加到500次相关性测试时，使用的是更先进的LLM模型（C2查询成本的4%），LazyGraphRAG在本地和全局查询上显著超越了所有条件。随着相关性测试预算增加到1,500，LazyGraphRAG的胜率持续上升，展示了其在成本与质量方面的可扩展性。

GraphRAG无价值了？

这是否意味着所有支持图形的 RAG 都应该采用LazyGraphRAG模式？微软认为答案是否定的，原因有三：

GraphRAG 实体、关系和社区摘要的数据索引具有超越问答的使用价值（例如，阅读和分享为报告）。
实体、关系和社区摘要的 GraphRAG 数据索引与类似 LazyGraphRAG 的搜索机制相结合，可能会比单独使用 LazyGraphRAG 取得更好的效果。
一种旨在支持类似 LazyGraphRAG 的搜索机制（例如，通过预先声明和主题提取）的新型 GraphRAG 数据索引可能会实现最佳结果。

https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/

来源 | PaperAgent

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247551574&idx=5&sn=300f337ea8ce29d315b390223a2054c2

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

10W+下载，2025最新中文版《大模型基础》教程pdf免费分享

某副教授相亲100多场总结出来的经验，网友：建议开源，发表论文...

【独家专访】诺奖得主Hinton 首次系统阐述：为何说接下来十年AI将颠覆人类社会运行方式

宇宙最强-清华大学《大模型研讨课》课程视频分享

2024年，做大模型增量预训练（continue pretrain）的注意事项！！！

微软LazyGraphRAG：新一代超低成本RAG

喜提AAAI一作顶会：没算法没实验，全靠idea思路好...

面试了一个参加Kaggle比赛的同学，当场想给她offer！

创业一年半，胖了30斤，AI大佬感叹：还是回谷歌好

大模型分布式训练学习过程总结（万字长文）

快手用大模型搞推荐，拿到收益了

Transformer王者归来，再登Nature！！！

再见RAG，你好Agentic RAG！

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

ChunkRAG：比CRAG提升10个点准确率

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉