缓存增强生成 (CAG) 开启RAG知识任务新范式

文摘   2025-01-07 07:40   新加坡  
检索增强生成(RAG)作为一种通过集成外部知识源来增强语言模型的强大方法而受到关注。然而,RAG 带来了一些挑战,例如检索延迟、文档选择中的潜在错误以及系统复杂性的增加。
随着具有显着扩展上下文窗口的大型语言模型( LLMs )的出现,近日,有一篇名为《Don’t Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks[1]》的论文提出了一种名为缓存增强生成(Cache-Augmented Generation,CAG)的新架构范式。
它不同于传统的 RAG 模式,不再依赖于运行时的检索,而是通过预加载知识和预计算缓存,让 LLM 在需要的时候直接调用,大大提升了效率。CAG 的出现,为知识密集型任务提供了一个新的、更高效的选择。
我们的方法包括将所有相关资源预加载到LLM的扩展上下文中,并缓存其运行时参数,特别是当要检索的文档或知识的大小有限且易于管理时。在推理过程中,模型利用这些预加载的参数来回答查询,而无需额外的检索步骤。
比较分析表明,CAG 消除了检索延迟并最大限度地减少了检索错误,同时保持了上下文相关性。跨多个基准的绩效评估突出了长背景LLMs表现优于或补充传统 RAG 管道的情况。
这些发现表明,对于某些应用,特别是那些知识库有限的应用,CAG 提供了 RAG 的简化且高效的替代方案,可以在降低复杂性的情况下实现可比或更好的结果。
本文提出了一种替代范例,即缓存增强生成(CAG),利用长上下文LLMs的功能来应对这些挑战。
我们的方法不是依赖检索管道,而是预先将所有相关文档预加载到LLM ,并预先计算键值 (KV) 缓存,该缓存封装了LLM的推理状态。预加载的上下文使模型能够提供丰富的、上下文准确的答案,而无需在运行时进行额外的检索。这种方法消除了检索延迟,减少了检索错误,并简化了系统架构,同时通过确保模型整体处理所有相关上下文来保持高质量的响应。
上下文LLMs最新进展扩展了他们对大量文本输入进行处理和推理的能力。通过适应更大的上下文窗口,这些模型可以在单个推理步骤中吸收大量信息,使其非常适合文档理解、多轮对话和长文本摘要等任务。
此功能消除了对实时检索的依赖,因为所有必要的信息都可以预加载到模型中。这些发展为简化知识密集型任务的工作流程创造了机会,有可能减少甚至消除对传统 RAG 系统的需求。
通过将传统 RAG 工作流程与我们提出的方法进行比较的一系列实验,我们确定了长上下文LLMs在效率和准确性方面优于 RAG 的场景。
通过解决技术和实际影响,本文旨在深入了解 CAG 何时以及为何可以作为 RAG 的简化、有效替代方案,特别是在用于检索的文档或知识的大小有限且易于管理的情况下。我们的研究结果挑战了知识集成任务对 RAG 的默认依赖,提供了一个简化、强大的解决方案来利用长上下文LLMs不断增长的能力。
展望未来,随着LLMs的预期进步,我们的方法将变得更加强大。随着未来模型继续扩展其上下文长度,它们将能够在单个推理步骤中处理越来越大的知识集合。
此外,这些模型从长上下文中提取和利用相关信息的能力得到提高,这将进一步提高其性能。这两种趋势将显着扩展我们方法的可用性,使其能够处理更复杂和多样化的应用程序。
因此,我们的方法论完全有能力成为知识密集型任务的强大且多功能的解决方案,利用下一代LLMs不断增长的能力。
论文:https://arxiv.org/html/2412.15605v1

AI技术研习社
专注分享人工智能、大模型、算法、大数据开发、数据分析领域的技术干货和落地实践!
 最新文章