一篇大模型RAG最新综述

学术 2024-11-08 11:55 湖北

好久没分享过综述了，今天分享一个最新的RAG综述，来自卡内基梅隆大学。标题：A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions

1. 引言

1.1 RAG技术概述

检索增强生成技术（RAG）主要由两个关键部分构成：其一是检索组件，主要职责是从外部数据库（如维基百科或私有库）中提取相关信息，通过密集向量表征进行文档识别；其二是生成组件，基于transformer结构，对获取的信息进行处理并输出自然语言文本。这种技术有效降低了内容生成中的虚假信息，提升了文本的准确性和语境适应性。目前，RAG已在开放域问答、智能对话系统及个性化推荐等多个方向得到应用。

1.2 检索与生成的融合系统

在RAG技术问世以前，NLP领域主要采用单一的检索或生成方法。传统检索系统虽能快速定位相关文档，但缺乏信息整合能力；纯生成模型尽管表达流畅富有创意，却常有事实偏差。这两种方法各有优劣，促使研究者开始探索融合方案，其中DrQA是较早将检索技术应用于问答任务的代表。

1.3 RAG系统的挑战

该技术面临几个主要问题：首先，在处理模糊查询和专业领域检索时准确度不足，即使采用DPR等技术，仍可能出现检索偏差；其次，检索信息与生成内容的整合有时显得生硬，影响输出质量；再次，系统运行需要大量计算资源，特别是在规模化应用场景下；最后，还存在偏见传播和透明度等伦理问题，虽然RAG可能通过多元信息检索减少偏见，但仍需警惕信息源本身的偏向性。

2. RAG技术架构详解

2.1 基本框架

RAG系统由检索器和生成器两部分组成，前者负责文档检索，后者整合信息生成回应。相比传统模型，RAG能够实时调用外部知识，性能优于固定数据集的生成模型。

2.2 检索技术分析

2.2.1 BM25算法

作为传统检索方法，BM25基于TF-IDF原理对文档进行排序。虽然在关键词匹配方面表现优异，但在语义理解上存在局限。

2.2.2 DPR技术

DPR采用双编码器架构，将查询和文档映射至高维向量空间，通过语义相似度进行匹配，在开放域问答中展现出优异性能。

2.2.3 REALM方案

REALM创新地将检索过程融入语言模型训练，实现检索器与生成器的协同优化。通过同步更新机制，该方法在知识密集型任务中展现出优势。

最新研究显示，Self-RAG和REPLUG等技术通过引入LLM提升了检索能力。这些系统运用注意力机制处理输入和检索文本，确保生成过程中突出重要信息，尽管计算开销较大。

2.3 生成模块解析

生成模块作为RAG系统的重要组成部分，主要负责整合检索信息与输入内容，输出连贯的响应结果。该模块以大规模语言模型为基础，确保输出内容的流畅性与准确性，并与初始查询保持高度相关。

2.3.1 文本转换转换器T5

作为文本生成的主流选择，T5模型将所有自然语言处理任务统一为文本转换框架。这种设计理念使其在问答、摘要等多种任务中展现出优异的适应性。在与检索模块结合后，T5基础的RAG系统在多个评测数据集上取得了显著成果，尤其是在Natural Questions和TriviaQA等测试中的表现超越了传统生成模型。其出色的多任务处理能力使其成为知识密集型应用的理想选择。

2.3.2 双向自回归转换器BART

BART在处理含噪声输入的文本生成任务中表现突出，特别适合摘要和开放域问答等应用。其去噪自编码机制能够有效重构受损文本序列，当与检索功能结合时，显著提升了生成内容的事实准确度。

3. 多模态RAG技术探析

3.1 文本RAG技术

文本领域的RAG应用最为成熟，以BERT和T5为代表的Transformer架构为核心，通过注意力机制增强了文本理解能力，推动了多种实际应用的发展。

3.2 音频RAG技术

音频RAG技术将检索增强生成扩展到语音领域，借助Wav2Vec 2.0等预训练模型进行特征表示，为语音识别等应用提供支持。

3.3 视频RAG技术

视频RAG模型通过I3D TimeSformer等技术捕捉时空特征，实现了视觉与文本信息的融合，提升了视频理解和字幕生成等任务的效果。

3.4 跨模态RAG应用

跨模态RAG技术整合了多种数据形式，如Flamingo模型实现了文本、图像和视频的统一处理。"检索即生成"方法通过利用大规模配对数据集，将RAG框架扩展到了更广泛的应用场景，实现了高效的跨模态信息检索与生成。

4. 现有RAG框架一览

当前RAG框架呈现多元化发展趋势，各具特色：

智能体RAG采用分层多智能体结构，通过小型预训练语言模型构建的子智能体处理特定任务，主智能体负责任务分配与知识检索，展现了较高的灵活性与效率。
医学领域的RULE框架着重提升医学视觉语言模型的准确性，引入校准选择策略和偏好优化机制，有效平衡了模型固有知识与检索信息。
METRAG通过多层次思维增强方式，结合文档相似度和实用性评估，配合任务自适应摘要器，在知识密集型任务中展现优势。
RAFT创新地引入干扰文档训练机制，结合思维链推理，增强模型辨别能力，在多个专业领域数据集上取得显著进展。
FILCO专注于提升上下文质量，通过词汇和信息论方法筛选有效信息，解决了过度依赖或忽视检索内容的问题。
Self-RAG引入反思机制，通过自适应检索和响应评估，使模型能够根据具体任务需求调整行为模式。

其他创新框架包括：

MK Summary：采用准备-重写-检索-阅读的工作流程
CommunityKG-RAG：整合知识图谱的社区结构
RAPTOR：实现层次化信息检索

4.1 长上下文RAG技术发展

随着Gemini-1.5和GPT-4等支持长上下文的模型出现，RAG技术也相应演进：

Self-Route实现了RAG与长上下文处理的动态调度
SFR-RAG提供了轻量高效的外部信息整合方案
LA-RAG专注于提升语音识别能力
HyPA-RAG通过参数自适应优化法律文本处理
MemoRAG创新地采用双系统架构处理非结构化知识
NLLB-E5突破了多语言检索的限制

这些框架各具特色，推动了RAG技术在不同应用场景中的发展。

以下是修改后的版本：

5. RAG技术面临的挑战

当前RAG技术存在多个待解决的关键问题：

系统性能方面：

面对海量数据时的扩展性受限
实时处理和资源受限环境下的部署困难
检索效率与计算资源消耗的平衡问题

质量控制方面：

检索内容的相关性和时效性难以保证
长文本生成时的检索精确度有待提升
检索知识与生成内容的连贯性存在缺陷

社会影响方面：

数据集固有偏见可能被系统放大
模型决策过程缺乏透明度和可解释性
系统公平性与伦理问题需要关注

6. 发展趋势与前景展望

6.1 多模态技术整合

未来发展重点包括：

优化跨模态信息的对齐与融合
增强多模态输出的连贯性
提升跨模态检索能力

6.2 性能优化方向

关注重点：

开发分布式计算解决方案
改进索引技术
优化计算资源利用效率

6.3 个性化服务增强

发展方向：

构建用户画像驱动的检索策略
提升上下文理解能力
整合交互反馈机制

6.4 伦理与隐私保障

重点关注：

减少系统偏见
加强隐私保护
提高模型可解释性

6.5 语言支持拓展

发展重点：

增强跨语言能力
支持低资源语言
优化多语言检索生成

6.6 检索机制创新

创新方向：

开发动态检索策略
探索混合检索方法
优化检索效果评估

6.7 技术融合探索

未来展望：

与脑机接口技术结合
在AR/VR领域的应用
探索新型人机交互模式

http://mp.weixin.qq.com/s?__biz=MzkyOTU5NzY1Mw==&mid=2247489831&idx=1&sn=0957ce4b03c66cddafb87597d87f0f39

NLP前沿

一手ai news分享 \x26amp; 热点paper解读

最新文章

测试时训练(TTT)太强了！

大模型也能"反悔"了！

Merkle树+RAG，Cursor的秘密曝光!

GraphRAG进化，效率翻倍！

8个月炼出好"钢"，Steel-LLM开源了~

OpenAI发布GPT学习法则~

465次实验炸出大模型量化真相

Qwen2.5.1 Coder系列开源来袭！冲！

一篇大模型RAG最新综述

解密o1，六大推理秘诀大曝光！

GraphRAG 0.4来袭：增量更新+DRIFT，起飞~

Llama 3退位，腾讯Hunyuan强势登顶

文本分块的天花板来了~

三连发！1.7B小模型把大厂干懵了~

给RAG装上眼睛，性能暴涨39%！

AI助攻SCI，这招太强了

KAG来了，RAG慌了！

传统RAG凉凉？多模态RAG带来工业级革命

AutoRAG开源：RAG界的AutoML终于来了！

智谱大气！首个语音到语音国产大模型开源

大模型数学能力翻车实锤！Apple新研究暴露真相~

prompt要自己写自己了！大厂扎堆放大招~

Claude昨夜王炸！新模型暴打o1，还能玩电脑~

RAG遇上知识冲突，Google祭出终极大招~

向o1看齐，google开源RAG推理扩展，提升近60%

微软开源，CPU推理100B模型，速度飞起~

Llama3 太炸裂了！远超过去的体验！

英伟达一夜封神，开源新模型打进全球前三！

忘记社区，lightrag开源graph的又一用法

entropix，终于找到了真正解决幻觉的方法了

是时候更新vllm了，新版吞吐提升2倍

openai今天open了2下，prompt自动生成器、Agent框架开源

手撕LLM+RLHF+VLM+o1推理，我全都要!!!

现实再次给大模型带来沉重打击

cde，世界上最好的 BERT 大小文本嵌入模型

卷疯了！开源社区离openai o1越来越近~

openai突发上架新模型：gpt4t-lu-test

SFT无需指令，响应微调开源~

点赞送书啦！大模型应用落地指南

Meta刚开源llama 3.2多模态，就被打败了~

cot-decoding，谷歌把o1的底裤都开源了

openai终于open了，开源了，别骂了~

免费送！我们出版了首本大模型RAG书籍

如果思维链都满足不了你，那思维图尼？

RL驱动的Reflection炼丹，谷歌开源SCoRe

大模型Agent，如何利用历史经验自我进化？

OpenAI o1时代，RLHF和多模态我全都要！！！

Qwen2.5系列开源来袭！冲！

达到草莓的70%！首个open o1项目开源

疯狂24h后，openai o1有哪些新的秘密？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉