StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

文摘 2024-10-20 14:18 北京

对于一些知识密集型问题往往需要从多个信息源中提取和整合知识，比如金融，法律等领域。传统 RAG 方法在处理这类知识密集型推理任务时常常力不从心。今天介绍一个来自中科院的新 rag 技术——structRAG^[1]，它在这方面获得了很不错的突破。

研究人员借鉴了人类处理复杂推理任务时的方式。人类通常不会不同于简单阅读散乱的原始内容，而是会将这些信息信息汇总成结构化知识，再利用这些结构化信息进行思考推理。

StructRAG 通过以下三个过程模拟这一过程：

混合结构路由器（Hybrid structure router）训练
混合结构路由器根据任务需求灵活选择最佳知识结构形式，例如表格、图或算法，确保知识的呈现最大化满足推理需要。例如，当需要比较多家公司的财务数据时，混合结构路由器会优先选择表格这一形式，以便清晰展示数据对比。训练混合结构路由器采用混采用直接偏好优化（DPO）算法，能够不依赖额外的奖励模型实现优良效果。这种方法通过生成高质量的偏好对来确保训练的有效性，结合“合成-模拟-判断”的新颖方法来构建偏好数据。
知识结构化
分散知识结构化器（Scattered knowledge structurizer）对知识进行结构化。利用 LLM 将散乱的文本信息转化为结构化知识。经过结构化后，信息的可读性显著提升，为后续推理奠定基础。对文档进行分析时，StructRAG 可以选择不同的知识结构，优化信息呈现方式。

问题分解与推理
最后，通过高效利用结构化知识，结构化知识利用器（Structured knowledge utilizer）可以准确分解复杂问题并采取相应的答案推理。这种逐步推导的方法在应对多样化问题时表现出更强的适应能力。例如，处理多层次的问题时，利用器能够分解为多个简单的子问题，使得整体推理更加高效。

在这一过程中，StructRAG 有以下一些技术实现亮点：

混合信息结构化：StructRAG 根据不同任务需求灵活选择最优结构类型，避免固定结构类型的局限性。
基于 LLM 的知识结构化：充分利用 LLM 的理解和生成能力，构建高质量的结构化知识。
科学问题分解与精准知识提取：通过将复杂问题分解为子问题，实现对结构化知识的精确利用，确保最终答案的准确性。

StructRAG 相较于传统 RAG，有以下优点：

更好地处理分散信息：通过结构化知识，StructRAG 能够更有效地整合来自多个来源的信息。
任务适应性强：能够根据任务特性选择最优的知识结构，极大地提高了处理多种问题的能力。
卓越的性能：在知识密集型推理任务中，StructRAG 展现出了压倒性的优势，相比之下更高效。
处理速度快：相较于 Graph RAG 等方法，StructRAG 的操作速度显著更快，使其在实时应用场景中具有更大优势。

研究结果表明，StructRAG 在 Loong 基准测试任务中均已取得最先进的性能。随着任务复杂度的增加，其性能优势越发明显。

小结

StructRAG 也不是没有缺点，相比简单的 RAG 方法，StructRAG 的操作复杂度显著提高，需要更多的计算资源。在不同任务中，如果选择了不当的结构可能会导致推理效果下降。在知识结构化过程高度依赖于大规模语言模型的性能，因此其效果与底层模型的能力密切相关。

对于研究团队来讲，如何优化结构选择算法、提升知识结构化的准确性，及探索更多样化的结构类型是将来重点的改进方向。

总的来说，StructRAG 的问世不仅提高了 AI 系统处理复杂推理任务的能力，也为我们理解和模拟人类认知过程提供了新的视角。它在在金融分析、科研文献综述等知识密集型领域的问答类需求提供了新的改进方向，值得感兴趣的朋友深度探索。

参考资料

[1]

structRAG: https://arxiv.org/pdf/2410.08815

后台回复“入群”进群讨论

http://mp.weixin.qq.com/s?__biz=MzA5MTIxNTY4MQ==&mid=2461147615&idx=1&sn=77990a14ff2fed13c8c3941b510ec7b9

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型

AI 能自查幻觉了！谷歌苹果联手打造“真话检测器”

AutoGen: 我也能实现OpenAI Swarm中的handoff

Mem0上架chrome插件商店，把记忆交给AI！

A16Z：导出"你的大脑"给AI,你将收获什么？

Meta：无需人工标注，LLM 评估器也能自我提升？

非广告免费使用Qwen2.5 72B等付费模型的方法来了，很实用！

为什么 AI 在数学题前抓瞎？苹果研究揭示 AI 推理能力的局限性

Swarm：一个OpenAI开源的multiAgent框架，简单哲学的代表

Python 3.13.0 震撼发布：性能飞跃，AI 项目迎来新机遇

Dario Amodei 最新博文预言我们这代人将有可能活到150岁！

Anthropic CEO 撰文《慈爱机器》，畅谈他的低调策略与宏伟愿景

红杉年度文章解读：生成式AI进入第二阶段，应用层价值凸显以及商业模式将重塑

回忆录（3）：从 Hinton 到你们——AI 时代的科学革命

如何管理各种GPU构建企业私有LLM服务——GPUStack

回忆录（2）：从诺贝尔奖到 AI 新纪元

回忆录（1）：从"人类之父"到"AI 之源"：Geoffrey Hinton 与我们的起源

看哭了！“从学生到大师：AI 的诺奖之旅与 Hinton 的传奇”

将代码库或网站一键转成单个文件供给LLM，这些项目你应该知道！

AI交互不再是Chat：OpenAI推出Canvas功能，应对Claude崛起，头狼竞争白热化

众大佬出走后的OpenAI DevDay发布了什么新内容？实时API可能颠覆CallCenter市场格局

国庆礼物来了！参与就有机会获得畅销书《AI提示工程必知必会》

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉