缓存增强生成 (CAG) 开启RAG知识任务新范式

文摘 2025-01-07 07:40 新加坡

检索增强生成（RAG）作为一种通过集成外部知识源来增强语言模型的强大方法而受到关注。然而，RAG 带来了一些挑战，例如检索延迟、文档选择中的潜在错误以及系统复杂性的增加。

随着具有显着扩展上下文窗口的大型语言模型（ LLMs ）的出现，近日，有一篇名为《Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks^[1]》的论文提出了一种名为缓存增强生成（Cache-Augmented Generation，CAG）的新架构范式。

它不同于传统的 RAG 模式，不再依赖于运行时的检索，而是通过预加载知识和预计算缓存，让 LLM 在需要的时候直接调用，大大提升了效率。CAG 的出现，为知识密集型任务提供了一个新的、更高效的选择。

我们的方法包括将所有相关资源预加载到LLM的扩展上下文中，并缓存其运行时参数，特别是当要检索的文档或知识的大小有限且易于管理时。在推理过程中，模型利用这些预加载的参数来回答查询，而无需额外的检索步骤。

比较分析表明，CAG 消除了检索延迟并最大限度地减少了检索错误，同时保持了上下文相关性。跨多个基准的绩效评估突出了长背景LLMs表现优于或补充传统 RAG 管道的情况。

这些发现表明，对于某些应用，特别是那些知识库有限的应用，CAG 提供了 RAG 的简化且高效的替代方案，可以在降低复杂性的情况下实现可比或更好的结果。

本文提出了一种替代范例，即缓存增强生成（CAG），利用长上下文LLMs的功能来应对这些挑战。

我们的方法不是依赖检索管道，而是预先将所有相关文档预加载到LLM ，并预先计算键值 (KV) 缓存，该缓存封装了LLM的推理状态。预加载的上下文使模型能够提供丰富的、上下文准确的答案，而无需在运行时进行额外的检索。这种方法消除了检索延迟，减少了检索错误，并简化了系统架构，同时通过确保模型整体处理所有相关上下文来保持高质量的响应。

上下文LLMs最新进展扩展了他们对大量文本输入进行处理和推理的能力。通过适应更大的上下文窗口，这些模型可以在单个推理步骤中吸收大量信息，使其非常适合文档理解、多轮对话和长文本摘要等任务。

此功能消除了对实时检索的依赖，因为所有必要的信息都可以预加载到模型中。这些发展为简化知识密集型任务的工作流程创造了机会，有可能减少甚至消除对传统 RAG 系统的需求。

通过将传统 RAG 工作流程与我们提出的方法进行比较的一系列实验，我们确定了长上下文LLMs在效率和准确性方面优于 RAG 的场景。

通过解决技术和实际影响，本文旨在深入了解 CAG 何时以及为何可以作为 RAG 的简化、有效替代方案，特别是在用于检索的文档或知识的大小有限且易于管理的情况下。我们的研究结果挑战了知识集成任务对 RAG 的默认依赖，提供了一个简化、强大的解决方案来利用长上下文LLMs不断增长的能力。

展望未来，随着LLMs的预期进步，我们的方法将变得更加强大。随着未来模型继续扩展其上下文长度，它们将能够在单个推理步骤中处理越来越大的知识集合。

此外，这些模型从长上下文中提取和利用相关信息的能力得到提高，这将进一步提高其性能。这两种趋势将显着扩展我们方法的可用性，使其能够处理更复杂和多样化的应用程序。

因此，我们的方法论完全有能力成为知识密集型任务的强大且多功能的解决方案，利用下一代LLMs不断增长的能力。

论文：https://arxiv.org/html/2412.15605v1

AI技术研习社

专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践！

最新文章

用微调、量化与推断，玩转 Qwen2-VL多模态大模型自定义OCR数据！

AirLLM：低内存硬件的颠覆性分层推理技术，引领AI性能新高度

DeepSeek大模型新王|DeepSeek R1/R1-Zero开源来袭~

一文详解！大模型性能测试全指标、计算方法及优化指南

MiniRAG来了！检索增强生成从未如此简单！

LLaMA2秒变SQL小能手！开源本地LLM玩转数据隐私神器！

多模态RAG破局：ImageSearch引领图像搜索新革命

RAG+LlamaParse：引领PDF解析与检索新时代！

缓存增强生成 (CAG) 开启RAG知识任务新范式

ImageBind：统一多模态的嵌入空间，打造全能 AI！

硬核攻略！图像+文本多模态 RAG 全能指南

GraphRAG × AutoGen × Ollama × Chainlit = 本地免费多代理 RAG 超级 AI 助手

用Python实现RLHF奖励模型构建，全方位提升模型表现！

如何提升预训练LLMs：从零打造到微调优化的全攻略

LlamaFactory：解锁LLM微调效率的终极神器！

RAG评估框架：RAG Triad框架及其实战

AI Agents：揭秘数字化工人构建术，颠覆未来职场格局！

揭秘监督微调（SFT）：语言模型性能跃升的秘密武器！

LLMs开发者必看！Pydantic AI代理框架震撼登场！

Long Term Memory：揭开人工智能自我进化的核心秘密！

手把手教你打造通用型LLM智能体，一文读懂核心原理！

3 大智能体开发平台详细对比：FastGPT、Dify和Coze

RAG内容生成革新：STORM与Co-STORM引领智能检索与人类协作

2025年Agents预测：知识研究领域Agent将迎来革命性突破！（附Top 3免费工具推荐）

RAG as a Service：开发者必备的新晋神器！

VLM论文深度解析：揭秘多模态大模型如何联动权重、任务与视觉嵌入

RAGAs评估工具：用指标与LLM优化你的RAG管道性能

视觉语言模型（VLMs）：复合人工智能系统的未来

《LLM 推理必知参数，全网最全解析！》

架构师必修之项目篇：基于ASR+GPT4.0+TTS实现全双工智能语音助手

Mobile-Agent重磅来袭：视觉感知+多模态智能助理，玩手机更高效！

LLM加速全攻略：教你降本增效，提升响应速度的必备技巧！

构建Agent应用：Development Roadmap

检索增强生成（RAG）：解密AI如何融合记忆与搜索

揭秘汽车语音助手：从语音识别到智能回复的全流程解析！

RAG 和 RAU：自然语言处理中检索增强语言模型的调查

RAG 驱动的 NER：构建自定义模型的入门指南

基于BERT的对话意图和槽位联合识别模块

GLM-4-Plus上线：杀进“世界前三”，它真的好用吗？

揭秘RAG背后的人机对话流程：从语音识别到智能生成

揭秘RAG：全方位解析RAG检索中的意图识别，如何助力智能问答

Agent智能大揭秘：企业如何利用AI代理驱动高效增长！

LLMs+SQL：用自然语言轻松搞定数据查询，彻底解锁数据库潜能！

秒懂LLM流式输出的SSE原理！一文带你搞定SSE实现和Python实战案例

RAG实战：打造可扩展的智能文档系统：终极 RAG 管道全解析

RAG工具：FlashRAG用于高效 RAG 研究的 Python 工具包

重磅上线！ChatGPT引入Search功能，秒查秒懂新体验！

RAG评估：RAGChecker重磅发布！精准诊断RAG系统的全新细粒度框架！

RAGFlow重磅开源！基于深度文档理解的智能检索神器！

从零开始，用万行代码打造专属向量数据库！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉