来源:深度图学习与大模型LLM 本文约3500字,建议阅读9分钟
本文深入探讨了 Retrieval-Augmented Generation (RAG) 的发展历程,从基础概念到最新技术。
LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!
4. 现有RAG框架一览
基于智能体的RAG
一种新的智能体检索增强型生成(RAG)框架采用了分层的多智能体结构,子智能体使用小型预训练语言模型(SLMs)针对特定的时间序列任务进行微调。主智能体将任务分配给这些子智能体,从共享知识库中检索相关提示。这种模块化多智能体方法实现了较高的性能,展现了在时间序列分析中相较于特定任务方法的灵活性和效率。
RULE
RULE是一个多模态RAG框架,旨在提升医学视觉-语言模型(Med-LVLM)的事实准确性,通过引入校准选择策略控制事实风险,并开发偏好优化策略平衡模型内在知识与检索上下文,证明了其在提升Med-LVLM系统事实准确性方面的有效性。
METRAG
METRAG,一个多层次、思维增强(thoughts enhanced)的检索增强型生成框架,结合文档相似性和实用性来提升性能。包括一个任务自适应摘要器,以产生蒸馏后内容摘要。利用这些阶段的多次思考,LLM生成知识增强内容,在知识密集型任务上与传统方法相比展现出更优越的性能。
RAFT(Retrieval Augmented Fine-Tuning)
干扰文档是检索增强型微调(RAFT)(Zhang等,2024)的关键特征之一,用不相关、干扰性文档训练模型如何辨别,而直接引用相关来源。结合思维链推理,增强了模型的推理能力。RAFT在特定领域的RAG任务中表现出一致的性能提升,包括PubMed、HotpotQA和Gorilla数据集,作为LLMs的后训练增强。
FILCO
FILCO旨在提升生成模型在开放域问答和事实验证等任务中提供的上下文质量,解决对检索段落过度或不足依赖的问题,可能导致生成输出中的幻觉问题。该方法通过词汇和信息论方法识别有用的上下文,并通过训练上下文过滤模型在测试期间提炼检索上下文,提高了上下文质量。
Self-RAG
反思标记是自反思检索增强型生成(Self-RAG)(Asai等,2023)的关键属性,通过结合检索与自反思来提高大型语言模型(LLMs)的事实准确性。与传统方法不同,Self-RAG自适应地检索相关段落,并使用反思标记评估和提炼其响应,允许模型根据特定任务需求调整行为,并在开放域问答、推理、事实验证和长篇生成任务中表现出优越性能。RAG的智能性和有效性在很大程度上取决于检索质量,对知识库的更多元数据理解将增强RAG系统的有效性。
MK Summary
一种以数据为中心的检索增强型生成(RAG)工作流程,超越了传统的检索-阅读模式,采用了准备-重写-检索-阅读框架,通过整合上下文相关、时间关键或特定领域的信息来增强LLMs。其创新点包括生成元数据、合成问题和答案(QA),并引入文档集群的元知识摘要(MK摘要)。
CommunityKG-RAG
CommunityKG-RAG是一个零样本框架,将知识图谱(KGs)中的社区结构整合到检索增强型生成(RAG)系统中。通过利用KGs中的多跳连接,提高了事实检查的准确性和上下文相关性,超越了不需要额外领域特定训练的传统方法。
RAPTOR
RAPTOR引入了一种层次化方法来增强检索增强型语言模型,解决了传统方法只检索短的、连续文本块的限制。RAPTOR通过递归嵌入、聚类和总结文本,形成摘要树以在不同抽象级别检索信息。实验表明RAPTOR在需要复杂推理的问答任务中表现出优越性能。当与GPT-4配对时,RAPTOR在QuALITY基准测试中的准确性提高了20%。
4.1 基于长上下文的RAG框架
近期推出的支持长期上下文的大型语言模型(LLMs),如Gemini-1.5和GPT-4,显著提升了RAG性能。
Self-Route
Self-Route 通过模型自省动态分配查询至RAG或LC,从而优化计算成本与性能。为RAG和LC在处理长期上下文任务时的最佳应用提供了深刻见解。
SFR-RAG
SFR-RAG是一个小巧而高效的RAG模型,旨在增强LLMs对外部上下文信息的整合,同时减少幻觉现象。
LA-RAG
LA-RAG是一种新型RAG范式,旨在提升LLMs中的自动语音识别(ASR)能力。亮点在于其能够利用细粒度的标记级语音数据存储和语音到语音的检索机制,通过LLM的上下文学习提高ASR的精确度。
HyPA-RAG
LLMs在AI法律和政策背景下因知识过时和幻觉而面临挑战。HyPA-RAG是一个混合参数自适应检索增强型生成系统,通过自适应参数调整和混合检索策略提高了精确度。在NYC Local Law 144的测试中,HyPA-RAG展现了更高的正确性和上下文精度,有效应对了法律文本的复杂性。
MemoRAG
MemoRAG引入了一种新型RAG范式,克服传统RAG系统在处理模糊或非结构化知识时的局限。MemoRAG的双系统架构利用轻量级长距离LLM生成草稿答案并指导检索工具,而更强大的LLM则负责完善最终输出。这一框架针对更好的线索提取和记忆容量进行了优化,在复杂和简单的任务中都显著超越了传统RAG模型。
NLLB-E5
NLLB-E5推出了一个可扩展的多语言检索模型,解决支持多语言,尤其是像印度语这样的低资源语言所面临的挑战。借助NLLB编码器和E5多语言检索器的蒸馏方法,NLLB-E5能够实现跨语言的零样本检索,无需多语言训练数据。在Hindi-BEIR等基准测试上的评估显示了其强大的性能,突显了任务特定的挑战,并推动了全球包容性的多语言信息获取。
5. RAG的挑战与局限性
扩展性与效率:RAG的一大挑战在于其扩展性。鉴于检索组件依赖外部数据库,应对庞大且日增的数据集需要高效的检索算法。高昂的计算和内存需求也使得RAG模型难以在实时或资源受限的环境中部署。 检索品质与相关性:保证检索文档的品质和相关性是一个重要议题。检索模型有时可能返回无关或过时的信息,这会降低生成内容的准确性。特别是在长篇内容生成方面,提升检索精确度仍是研究的热点。 偏见与公正性:与其它机器学习模型一样,RAG系统可能因检索数据集中的偏见而表现出偏见。基于检索的模型可能会放大检索知识中的有害偏见,导致生成的输出带有偏见。开发用于检索和生成的偏见缓解技术是一个持续的挑战。 连贯性:RAG模型常在将检索到的知识融入连贯、与上下文相关联的文本中遇到难题。检索到的内容与生成模型输出之间的衔接并不总是完美,可能会导致最终回答中出现不一致或事实性幻觉。 可解释性与透明度:与众多AI系统类似,RAG模型往往被视作不透明的黑箱操作
6. 未来方向
6.1 强化多模态融合
在RAG模型中整合文本、图像、音频和视频数据,需着眼于提升多模态融合技术,实现不同数据类型间的无缝交互,包括:
研发更先进的方法来对齐和合成跨模态信息。 需要更多创新来增强多模态输出的连贯性和情境适应性。 提升RAG系统跨不同模态检索相关信息的能力。例如,结合基于文本的查询与图像或视频内容检索,可以增强视觉问答和多媒体搜索等应用。
6.2 扩展性与效率
随着RAG模型在更广泛的大规模应用中部署,其扩展性变得至关重要。研究应聚焦于开发高效扩展检索和生成过程的方法,同时不牺牲性能。分布式计算和高效索引技术对于处理庞大数据集至关重要。提升RAG模型的效率需要优化检索和生成组件,以减少计算资源和延迟。
6.3 个性化与适应性
未来的RAG模型应专注于根据个体用户的偏好和情境个性化检索过程。这包括开发基于用户历史、行为和偏好调整检索策略的技术。通过深入理解查询和文档库的上下文和情感,增强RAG模型的上下文适应性,对于提升生成响应的相关性至关重要。研究应探索基于互动上下文的动态调整检索和生成过程的方法,包括将用户反馈和上下文线索整合到RAG流程中。
6.4 伦理与隐私考量
解决偏见是未来研究的关键领域,尤其是针对RAG模型的偏见。随着RAG系统在多样化应用中的部署,确保公平性并减少检索和生成内容中的偏见至关重要。未来的RAG研究应聚焦于保护隐私的技术,以在检索和生成过程中保护敏感信息。包括开发安全数据处理方法和隐私意识的检索策略。模型的可解释性也是持续改进RAG研究的一个关键领域。
6.5 跨语言及低资源语言支持
拓展RAG技术以支持多语言,尤其是资源匮乏的语言,是一个充满希望的发展方向。
致力于提升跨语言检索与生成能力,确保在不同语言中都能提供准确且相关的结果。提升RAG模型对低资源语言的有效支持,需要开发在有限训练数据下进行内容检索与生成的方法。研究应聚焦于转移学习与数据增强技术,以提高在边缘语言中的表现。
6.6 高级检索机制
未来RAG研究应探索能够适应变化查询模式和内容需求的动态检索机制。包括构建能够根据新信息和用户需求演进而动态调整检索策略的模型。
研究混合检索方法,结合密集检索与稀疏检索等不同策略,有望提升RAG系统的效果。研究应着眼于如何整合多样化的检索方式,以适应各种任务并达到最佳性能。
6.7 与新兴技术的融合
将RAG模型与脑机接口(BCIs)相结合,可能在人机交互和辅助技术领域开辟新的应用。研究应探讨RAG系统如何利用BCI数据来提升用户体验和生成具有上下文感知的响应。RAG与增强现实(AR)和虚拟现实(VR)技术的结合,为创造沉浸式互动体验提供了机遇。未来的研究应调查RAG模型如何被用于增强AR和VR应用,通过提供上下文相关的信息和交互,提升用户体验。
• 论文原文: https://arxiv.org/abs/2410.12837