长上下文能取代RAG吗？

科技 2024-10-01 00:04 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。
转载自 | 新智元
编辑 | alan

曾几何时，LLM还是憨憨的。

脑子里的知识比较混乱，同时上下文窗口长度也有限。

检索增强生成（RAG）的出现在很大程度上提升了模型的性能。

然而，LLM很快变得强大，上下文窗口长度也迅速膨胀。

现役的主流大模型，比如GPT-4o、Claude-3.5、Llama3.1、Phi-3和 Mistral-Large2等，都支持128K长的上下文，Gemini-1.5-pro甚至达到了1M的长度。

于是人们不禁要问：在长上下文LLM时代，RAG还有存在的必要吗？

这样的疑问是有根据的，之前的一项研究就证明了，长上下文（LC）在答案质量方面始终优于RAG：

论文地址：https://www.arxiv.org/pdf/2407.16833

在这勃勃生机、万物竞发的春天里，RAG当真要失宠了么？

近日，来自英伟达的研究人员重新审视了这个问题，他们发现， LLM上下文中检索块的顺序对于答案质量至关重要。

传统的RAG会将检索到的块按照相关性降序排列，但这篇工作表明，保留原始文本中检索块的顺序，能够显著提高RAG的答案质量。

论文地址：https://arxiv.org/pdf/2409.01666

由此，研究人员提出了保序机制——Order-Preserve RAG（OP-RAG）。

在En.QA数据集上的实验中，OP-RAG方法（Llama3.1-70B）仅使用16K检索到的token，就实现了44.43的F1-score。

相比之下，没有RAG的Llama3.1-70B，在充分利用128K上下文的情况下，只达到了34.32的F1-score。

而GPT-4o和Gemini-1.5-Pro则分别为32.36分和43.08分。

上图显示了每组实验平均输入的token数量，可以认为OP-RAG以很少的资源量达到了超越长上下文的效果。

——这也再次证明了RAG的独特价值。

Make RAG Great Again

RAG曾帮助早期的LLM克服了有限上下文的限制，通过访问最新的信息，显著减少LLM的幻觉，提高了事实准确性。

尽管目前长上下文的研究逐渐获得偏爱，但作者认为超长的语境会导致LLM对相关信息的关注度降低，最终使答案质量下降，而本文提出的OP-RAG则能够用更少的token换来更高的答案质量。

OP-RAG

首先通过以下方式表示长上下文：将长文本d切成N个连续且均匀的块c，ci表示第i块。给定一个查询q，可以得到ci块的相关性得分（通过计算嵌入之间的余弦相似度）:

检索出相似度得分最高的前k个块，但保留这些块在原始长上下文d中的顺序。

上图直观展示了普通RAG与OP-RAG之间的差异：一个长文档被切分为13块并计算了相似度分数。

同样是检索相似度得分最高的前4个块，Vanilla RAG按分数降序重排了，而OP-RAG保留了块之间的相对顺序。

实验设置

研究人员选择了专为长上下文QA评估而设计的EN.QA和EN.MC数据集进行实验。

En.QA由351个人工注释的问答对组成，数据集中的长上下文平均包含150,374个单词，这里使用F1-score作为En.QA的评估指标。

EN.MC由224个问答对组成，其注释与En.QA类似，但每个问题提供四个答案供选择。

En.MC中的长上下文平均包含142,622个单词，这里使用准确性作为En.QA评估的指标。

所有数据集上的块大小都设置为128个token，块之间不重叠，使用BGE-large-en-v1.5的默认设置来获得查询和块的嵌入。

消融研究

上下文长度的影响

作者评估了上下文长度对OP-RAG性能的影响。实验中每个块包含128个token，生成答案时检索块数为128。

如下图所示，随着上下文长度的增加，性能最初会提高。这是因为更多的上下文可能有更大的机会覆盖相关的块。

然而，随着上下文长度进一步增加，答案质量会下降，因为更多不相关的块产生了干扰。

实验中的Llama3.1-8B模型，在EN.QA数据集和EN.MC数据集上，上下文长度为16K时达到性能峰值，而Llama3.1-70B模型在EN.QA上的最佳性能点为16K，在EN.MC上为32K。

Llama3.1-70B的峰值点晚于Llama3.1-8B，可能是因为较大规模的模型具有更强的区分相关块和不相关干扰的能力。

这里有两方面的启示，首先是需要在检索更多上下文来提高召回率，和限制干扰来保持准确性之间进行权衡；

其次，引入过多的不相关信息会降低模型的性能，这也是当前长上下文LLM所面临的问题。

OP-RAG和检索块数

如下图所示，当检索到的块的数量较小（比如8）时，本文提出的保留顺序RAG相对于普通RAG的优势并不明显。

而当检索到的块数量很大时，OP-RAG的性能显著优于普通RAG。

在EN.QA数据集上，当检索到的块数为128时, 普通RAG只能实现38.40的F1-score，而OP-RAG获得了44.43分。

在EN.MC数据集上，检索块数为192时，普通RAG的Accuracy为81.22，而OP-RAG达到了88.65。

实验结果

研究人员将OP-RAG与两种类型的基线进行比较。

第一类方法使用没有RAG的长上下文LLM。如下表所示，在没有RAG的情况下，LLM需要大量token作为输入，效率低且成本高。

相比之下，本文的保序RAG不仅显著减少了所需token数量，而且提高了答案质量。

对于Llama3.1-70B模型，没有RAG的方法在EN.QA数据集上，只能实现34.26的F1-score，且平均需要117K个token作为输入。相比之下，OP-RAG以48K个token的输入获得了47.25的分数。

第二类基线采用SELF-ROUTE机制，它根据模型自我反思将查询路由到RAG或长上下文LLM 。如上表所示，OP-RAG方法明显优于在LLM的输入中使用更少token的方法。

参考资料：

https://arxiv.org/pdf/2409.01666

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

http://mp.weixin.qq.com/s?__biz=MzI4MDYzNzg4Mw==&mid=2247565988&idx=2&sn=d2138e34087006508638e91133f1c8a5

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

李飞飞：若我夺下诺贝尔奖，定以中国人身份去领

谷歌&MIT何恺明团队：视觉大模型像LLM一样高效Scaling，指路连续token+随机生成顺序

LLM实践系列-拯救Continue Pretrain的数据

中国最“孤独”的985高校！校长曾正面回应人才流失严重等问题

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

Bengio团队新论文！KL正则化有漏洞，强化学习新策略：不要做我可能不会做的事情

重磅！美国加州否决SB 1047法案！

卷起来！让智能体评估智能体，Meta发布Agent-as-a-Judge

00后国人论文登Nature，大模型对人类可靠性降低

2025年两院院士增选，83位学者暂停参选资格

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

LeCun最新万字演讲：纯语言模型永远到不了人类水平，我们基本已经放弃了

深度｜李飞飞：我不知道什么是AGI

香港理工大学成功举办“大模型时代的计算语言学高峰论坛暨香港理工大学与中国计算机学会合作创新国际研讨会”

2025泰晤士世界大学排名公布！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

大模型合成数据机理分析，人大刘勇团队：信息增益影响泛化能力

又一本开源免费的大模型书来了，449页pdf！

扩散模型训练方法一直错了！谢赛宁：Representation matters

更快、更强、更经济！港大开源大模型RAG系统LightRAG

真见证历史！SpaceX 星舰第五飞试飞一级回收成功，首次实现“筷子”夹大火箭

GR-2登场！ByteDance Research提出机器人大模型，具备世界建模和强大泛化能力

NLPCC 2024 Evaluation Workshop

特斯拉首款无人驾驶出租问世，马斯克掀翻全场！无方向盘、无踏板，3万美元26年量产

一文看懂LLM推理，UCL汪军教授解读OpenAI ο1的相关方法

全是细节 | 聊一聊做SFT的经验

不出所料！Jürgen又站出来反对Hinton得诺奖，Nature也炮轰提名过程不透明

3D场景的大语言模型：在鲁棒数据训练下的3DLLM新SOTA！

AI再夺诺奖！2024诺贝尔化学奖授予哈萨比斯等人

如何靠自学转码成为谷歌工程师？这里是一份技术栈清单

重磅！亚马逊云科技正式推出「AI 从业者认证」

重要的事情说两遍！Prompt「复读机」，显著提高LLM推理能力

某大厂被爆明文存储密码，罚7亿！

Sebastian Raschka最新博客：从头开始，用Llama 2构建Llama 3.2

垂直领域大模型的思考

号称击败Claude 3.5 Sonnet，媲美GPT-4o，开源多模态模型Molmo挑战Scaling law

NLPCC 2024 Keynote

何恺明新作出炉！异构预训练Transformer颠覆本体视觉学习范式，AI性能暴涨超20%

人大附高中生中NeurIPS，入选高中赛道Spotlight，顶会真卷到中学了

还在“卷”长度？长文本模型真的基于上下文进行回复吗？

刚刚，OpenAI重磅发布交互界面canvas，让ChatGPT成为写作和编程利器

OpenAI研究员、思维树作者姚顺雨专访：人生是一场无限流游戏丨独家

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

MIT系初创打破Transformer霸权！液体基础模型刷新SOTA，非GPT架构首次显著超越Transformer

全量指令微调有害！

stable diffusion原理解读通俗易懂，史诗级万字爆肝长文，喂到你嘴里

关于GPT5训练失败的思考

NLPCC 2024 Call for Early Bird Registration

单靠推理Scaling Law无法成就o1！无限推理token，GPT-4o依然完败

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉