论文解读：迄今为止最好的 RAG 技术栈

科技 2024-10-28 07:58 天津

点这里👇星标关注，获取最新资讯！

概述

这篇文章深入探讨了 Wang 等人在 2024 年的研究，旨在为构建高效的检索增强生成（RAG）系统提供最佳实践建议。文章由 Towards AI 的联合创始人兼 CTO Louis-Francois 撰写，分析了 RAG 系统的核心组件与策略。

主要内容摘要

查询分类：通过分类任务决定是否需要进行检索，确保系统只在必要时检索外部数据。
数据分块：为数据选择合适的块大小至关重要，理想的块大小在 256 至 512 个 token 之间，有助于减少噪音和提高效率。
元数据与混合搜索：元数据（如标题或关键词）与混合搜索（结合语义搜索和传统关键词搜索 BM25）可显著提升检索精度。
嵌入模型选择：挑选适合的嵌入模型，文章推荐使用像 FlagEmbedding 这样性能与效率均衡的模型。
向量数据库：使用像 Milvus 这样的高性能向量数据库来处理大量检索请求，确保系统的长期稳定性。
查询转换：在检索前进行查询转换以提高准确性，如通过查询重写或分解复杂问题，改进系统的检索表现。
重新排序与文档打包：在文档检索后，通过 reranking 技术提升结果的相关性，并进行文档重新打包，以优化信息呈现。
摘要：生成之前进行文档摘要，有助于去除冗余信息，降低生成成本。
微调生成模型：通过对生成模型进行微调，提高模型处理复杂查询和去除无关信息的能力。
多模态检索：整合多模态技术处理图像查询，并基于类似内容进行检索，进一步提高系统的响应准确性。

意见

Wang 等人的研究被认为是 RAG 系统的“洞察金矿”。
查询分类对于确定何时需要检索至关重要。
数据的最佳块大小介于 256 到 512 个令牌之间，但可能因数据集而异。
元数据和混合搜索是高效检索的首选，而不是 HyDE 等更复杂的方法。
建议使用 FlagEmbedding 的 LLM，因为它在性能和大小之间取得了平衡。
Monot5 是最受欢迎的重新排名模型，因为它在性能和效率之间取得了平衡。
建议以“相反”的顺序重新打包文档，以改进 LLM 的生成过程。
像 Recomp 这样的摘要工具对于减少提示长度和成本很有价值。
使用相关文档和随机文档的混合来微调生成器有利于处理不相关的信息。
多模态检索是处理文本和图像的系统的一个重要考虑因素。
该论文承认了未来研究的局限性和领域，例如猎犬和发电机的联合训练。

探索每个组件

大家早上好！我是 Towards AI 的联合创始人兼首席技术官 Louis-Francois，今天，我们正在深入研究可能是最好的检索增强一代（RAG）技术栈——这要归功于 Wang 等人在 2024 年的一项出色研究。

这是构建最佳 RAG 系统的见解金矿，我在这里为您分解它。

那么，是什么让 RAG 系统真正成为顶级的系统呢？是组件，对吧？让我们回顾一下最好的组件以及它们的工作原理，这样您也可以使您的 RAG 系统成为顶级系统并获得多模式奖励。

查询分类

让我们从 Query Classification 开始。并非所有查询都是平等的 — 有些查询甚至不需要检索，因为大型语言模型已经知道答案。例如，如果你问 “谁是梅西？”LLM 可以满足您的需求。无需检索！

Wang 等人创建了 15 个任务类别，确定查询是否提供了足够的信息或是否需要检索。他们训练了一个二元分类器来分隔任务，在不需要检索的地方标记为“sufficient”，在需要检索时标记为“insufficient”。在此图像中，黄色表示不需要，红色表示去获取一些文档！

分块

接下来：分块。这里的挑战是为您的数据找到完美的数据块大小。太长了？您会增加不必要的噪音和成本。太短了？你错过了上下文。

Wang 等人发现 256 到 512 个标记之间的块大小效果最好。但请记住，这因数据而异 - 因此请务必运行您的评估！专业提示：使用 small2big（从小块开始进行搜索，然后移动到较大的块进行生成），或尝试滑动窗口以重叠块之间的标记。

元数据和混合数据

利用您的元数据！添加标题、关键字甚至假设问题等内容。将其与 Hybrid Search 配对，它结合了向量搜索（用于语义匹配）和用于传统关键字搜索的优秀 BM25，您就是金子。

HyDE（生成伪文档以增强检索）很酷，可以带来更好的结果，但效率非常低。现在，坚持使用 Hybrid Search——它取得了更好的平衡，尤其是在原型设计方面。

嵌入模型

选择正确的嵌入模型就像找到一双完美的鞋子。

你不想要打网球的足球鞋。

来自 FlagEmbedding 的 LLM 最适合这项研究——性能和大小的完美平衡。不太大，也不太小——恰到好处。

请注意，他们只测试了开源模型，因此 Cohere 和 OpenAI 被淘汰出局。否则，Cohere 可能是您最好的选择。

向量数据库

现在是数据库。对于长期使用，Milvus 是他们的首选矢量数据库。它是开源的、可靠的，是保持检索系统平稳运行的绝佳选择。我还在下面的描述中链接了它。

查询转换

在检索之前，您必须转换这些用户查询！无论是通过查询重写以使其清晰，还是通过查询分解将复杂问题分解为更小的问题并检索每个子问题，甚至生成伪文档（如 HyDE 所做的_）并在检索过程中使用它们，此步骤对于提高准确性都至关重要。请记住，更多的转换可能会增加延迟，尤其是 HyDE..

重新排名

现在我们来谈谈 Reranking 。检索文档后，您需要确保最相关的文档位于文档堆的顶部。这就是重新排名的用武之地。

在这项研究中，monoT5 脱颖而出，成为平衡性能和效率的最佳选择。它微调 T5 模型，以根据文档与查询的相关性对文档重新排序，确保最佳匹配优先。RankLLaMA 总体性能最好，但 TILDEv2 最快。如果您有兴趣，论文中提供了有关每个的更多信息。

文档重新打包

重新排名后，您需要进行一些 Document Repacking 。Wang 等人推荐了“反向”方法，其中文档按相关性升序排列。Liu 等人（2024 年）发现，这种方法（将相关信息放在开头或结尾）可以提高性能。重新打包优化了信息呈现给 LLM 的方式，以便在重新排序过程发生后生成，以帮助 LLM 更好地以更好的顺序理解提供的信息，而不是理论上的相关顺序。

综述

然后，在调用 LLM，您希望使用 Summarization 来减少绒毛。发送到 LLM成本高昂，而且通常是不必要的。摘要将有助于删除冗余或不必要的信息并降低成本。

使用 Recomp 等工具进行抽取压缩以选择有用的句子，并使用抽象压缩来综合来自多个文档的信息。但是，如果速度是您的首要任务，您可以考虑跳过此步骤。

微调生成器

最后，您是否应该微调用于生成的 LLM？绝对！使用相关文档和随机文档的混合进行微调可以提高生成器处理不相关信息的能力。它使模型更加健壮，并有助于它给出更好的整体响应。论文中没有提供确切的比率，但结果很明确：微调是值得的！不过，这显然也取决于您的域。

多模态

处理图像？实施多模式检索。对于文本到图像，在数据库中查询相似图像可以加快该过程。在图像到文本中，匹配相似的图像可检索准确的预存储字幕。这一切都与接地气有关——检索真实的、经过验证的信息。

结论

简而言之，Wang 等人的这篇论文为我们提供了一个构建高效 RAG 系统的坚实蓝图。但请记住，这只是一篇论文，并未涵盖 RAG 管道的各个方面。例如，猎犬和发电机的联合训练没有被探索，这可能会释放更多的潜力。由于成本原因，他们也没有深入研究分块技术，但这是一个值得探索的方向。

我强烈建议您查看完整的论文以获取更多信息。我们最近还出版了《Building LLMs for Production》一书，其中充满了 RAG 和微调见解、技巧和实际示例，可帮助您构建和改进基于 LLM 的系统。该链接也位于下面的实体书和电子书版本的描述中。

一如既往，感谢您的阅读。如果您觉得此分析有帮助或有任何评论，请在下面的评论中告诉我，我们下次见！

引用

用于生产的构建LLMs：https://amzn.to/4bqYU9b
Wang et al.， 2024 （论文参考）：https://arxiv.org/abs/2407.01219
LLM（嵌入模型）：https://github.com/FlagOpen/FlagEmbedding/tree/master/FlagEmbedding/llm_embedder
Milvus （vector database）：https://milvus.io/
Liu et al.， 2024 （文档重新包装）：https://arxiv.org/abs/2307.03172
Recomp （摘要工具）：https://github.com/carriex/recomp

RagLlmFine Tuning人工智能嵌入

《研发效能(DevOps)工程师》工信部教考中心-职业技术证书

🏆 考取证书，提升职业竞争力！

报名咨询：黛西老师159 1031 7788

1门顶5门，学习端到端的研发生命周期！

稳稳拿捏400+技术技能知识点。

http://mp.weixin.qq.com/s?__biz=MzA5NzU3Njc5Mw==&mid=2651261193&idx=1&sn=568074325496d0639ff6cdd654f70971

DevOps

分享研发效能（DevOps）相关趋势、发展、技术、实践等优质内容和组织相关活动。 IDCF国际DevOps教练联合会，培养端到端研发效能人才，链接高效能组织与个人，成就不凡。

SDL最佳实践原则丨IDCF

软件开发模式变迁史——从瀑布到敏捷再到DevOps | IDCF

《工程效能十日谈》读书创造营招募 | IDCF

工程师文化：比亚迪的底色 | IDCF

产品KPI：产品经理24个绩效指标及计算公式详解 | IDCF

复盘华为的国际化之路：青山处处埋忠骨，世界何处不是家 | IDCF

架构师必备10大接口性能优化秘技，条条经典！ | IDCF

30岁以上的项目经理，少奋斗20年的职业规划路线图及应对策略

破局与重塑：一家头部券商的研发精益效能之路 | IDCF

顶层设计：小红书取消专业职级的4个错误 | IDCF

技术专家面试的底层逻辑解析 | IDCF

制造业最前沿7大模式：智能制造、网络化制造、云制造、增材制造、绿色制造、服务型制造、协同制造思维导图详解

ChatGPT之父山姆·奥特曼分享的13个成功诀窍 | IDCF

从运营思维来思考产品和运营的关系 | IDCF

流程与管理—三大复盘的方法（AAR/GRAI/KPT) | IDCF

项目管理说穿了，就是六抓六放 | IDCF

2024年人工智能发展报告总结 | IDCF

软件架构技术-云原生架构与CICD/DevOps | IDCF

后台工程师职业能力提升之道 | IDCF

如何提高决断力？ | IDCF

最佳实践：基于BDD的可执行需求与自动化验证研究 | IDCF

最佳实践：DevOps 开发推广实践探索——由点及面，实践出真知丨IDCF

论文解读：迄今为止最好的 RAG 技术栈

鹅厂写码13年，我总结的程序员高效阅读方法论丨IDCF

TechLead 如何构建团队愿景?丨IDCF

倒计时3天！珠海开发者大会暨“1024”程序员嘉年华活动欢迎您的参加！

最佳实践：独立测试团队敏捷实践探索 | IDCF

最佳实践：如何构建研发效能指标度量体系丨IDCF

DevOps如何构建数字化项目管理?诚邀参加中国项目经理大会

邀请函：2024珠海开发者大会暨“1024”程序员节嘉年华活动

最佳实践：研发效能度量应用治理实践丨IDCF

最佳实践：容器技术为研发效能带来革命性变革丨IDCF

制造业项目经理必备：从项目启动到交付的全方位攻略 | IDCF

一文看懂什么是企业数字化 | IDCF

程序员必备！面向Prompt编程全攻略 | IDCF

重磅：信通院&IDCF联合征集 - 中国软件工程智能化系列标准 | IDCF

研发效能（DevOps）工程师如何引领技术创新浪潮？| IDCF

44页PPT | 华为战略规划核心：全面解读‘五看三定’方法论及其在战略洞察与制定中的应用

如何进行产品设计？比画原型更重要的是掌握这三种架构图| IDCF

LLM RAG面试问题大全! | IDCF

项目跟进难？7大步骤轻松跟进项目全过程 | IDCF

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

测试分层策略实践模型 | IDCF

职业技术证书《研发效能(DevOps)工程师（中级）》第十三期·开启报名丨IDCF

《解决企业个性化代码生成准确率的核心实践》—徐磊老师议题预告，10.19 · 上海站

架构师基本功：如何画好一张UML用例图？ | IDCF

DevOps的十个实践和三步工作法 | IDCF

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉