干货：标准RAG架构和落地实践

科技 2024-11-13 07:53 四川

ChatGPT 的面世改变了 AI 的发展格局。企业争相利用这项新技术打造新产品，提高竞争优势和生产力，实现更加经济高效的运营。生成式 AI (GenAI) 模型，如 Grok-1（逾 3,000 亿参数）和 GPT-4（数万亿参数），利用来自互联网等文本来源的海量数据进行训练。这些第三方大语言模型适用于通用用例。

虽然企业可以用自有的数据对模型进行调优，但重新训练模型需要额外的时间和资源。好在现在有了一种颇受欢迎的技术，即检索增强生成 (RAG)，它可以利用企业专有的数据来增强开源预训练模型，从而创建特定领域的 LLM，得出针对具体业务的结果。此外，RAG 无需与第三方大型基础模型共享数据，因此能够让企业更好地保护数据安全。

将介绍 RAG 如何与英特尔多种优化技术和平台搭配使用，为 GenAI 系统带来出色的价值和性能。

知识全解系列

存储系统基础知识全解（PDF）

存储系统基础知识全解（PPT版）

服务器基础知识全解(终极版)

SSD闪存技术基础知识全解（PPT终极版）

SSD闪存技术基础知识全解（PDF终极版）

（持续更新中...）

检索增强生成 (RAG) 是什么？

RAG 技术将动态、依赖查询的数据添加到模型的提示流中，再从存储在矢量数据库中的专有知识库中检索相关数据。提示和检索到的上下文可以丰富模型的输出，从而带来更加相关和准确的结果。因为数据不会被发送给管理模型的第三方，因此，RAG 可让企业在保护数据隐私性和完整性的同时更好地通过 LLM 充分利用数据。RAG 工作流程的关键构成可简单分为四个步骤：用户查询处理、检索、上下文整合和输出生成。下图展示了这一基本流程。

RAG 的实用性不仅限于文本，它还可以极大地改变视频搜索和交互式文档探索的方式，甚至使聊天机器人能够利用 PDF 内容来回答问题。

RAG 的应用过程通常被称为“RAG 管线”，因其从用户提示开始，整个数据处理流程都是一致的。用户提示首先进入关键步骤“检索机制”中。在这一步，相关提示会被转换为矢量嵌入，接着使用矢量搜索在预先构建的矢量数据库（如 PDF、日志、转录文本等）中找到相似的内容。检索到最相关的数据后，RAG 会将其与用户提示整合，然后传送给模型用于推理服务和最终输出生成。这种上下文整合为模型提供了在预训练阶段无法获得的额外信息，使模型能够更好地契合用户的任务或兴趣领域。由于 RAG 无需重新训练或调优模型，因此能够高效地添加数据来为 LLM 提供上下文。

标准RAG解决方案的架构

下图所示的 RAG 解决方案架构展示了标准 RAG 实施方案的构建模块。RAG 实施流程主要包括构建知识库、查询和上下文检索、响应生成和跨应用产出监控几个核心部分。

1、构建知识库：

• 数据收集：从基于文本的来源（如转录文本、PDF 和数字化文档）中收集数据建立私有知识库。

• 数据处理管线：利用特定 RAG 管线来提取文本、格式化内容以进行处理，并将数据分块成可管理的大小。

• 矢量化：通过嵌入模型处理数据块，将文本转换为矢量，可包括用于丰富上下文的元数据。

• 矢量数据库存储：将矢量化数据存储在可扩展的矢量数据库中，以便进行高效检索。

2、查询和上下文检索：

• 查询提交：用户或子系统通过聊天式界面或 API 调用提交查询，并通过安全服务进行身份验证。

• 查询处理：采取输入保护措施来确保安全性和合规性，然后进行查询矢量化。

• 矢量搜索和重排序：进行初始矢量搜索以检索相关矢量，然后使用更复杂的模型重排序以优化结果。

3、响应生成：

• LLM 推理和响应生成：将顶层上下文与用户查询结合，再通过预训练或调优的 LLM 进行处理，然后再进行后处理以提升质量和增强安全性。

• 响应交付：通过界面将最终响应返回给用户或子系统，确保答案的连贯性和上下文准确性。

4、产出监控：

• 检索性能：监控检索过程的时延和准确性，并保留记录以用于审核。

• 重排序的效率：跟踪重排序的表现，确保上下文相关性和速度。

• 推理服务质量：观察 LLM 推理的时延和质量，维护日志以便审核和改进。

• 安全防护有效性：监控输入和输出处理的安全防护 (guardrail)，确保合规性和内容安全性。

RAG相关技术

开发 RAG 应用通常会从集成 RAG 框架开始，例如 Haystack、LlamaIndex、LangChain 和英特尔研究院的fastRAG。这些框架可通过提供优化和集成关键的 AI 工具链来简化开发过程。目的是减少开发人员对大量低级别编程的需求。这种抽象使得开发人员能够利用增强的性能和针对其特定用例量身定制的解决方案，专注于高效构建 RAG 应用。

我们从知识库构建、查询和上下文检索以及响应生成这三个关键步骤来考量 RAG 工具链。通常，RAG 框架提供涵盖整个工具链的 API。不管是选择使用这些抽象，还是选择利用独立组件，都需要深思熟虑并从工程角度慎重考虑。

1、构建知识库+上下文检索：

• 集成框架：Haystack 和 LangChain 作为常见 RAG 框架，为矢量数据库和搜索算法提供了高级抽象，使得开发人员能够在基于 Python 的环境中管理复杂的过程。

• 矢量数据库技术：Pinecone、Redis 和 Chroma 是支持主流搜索算法的关键矢量数据库解决方案。英特尔研究院提供的可扩展矢量搜索 (Scalable Vector Search, SVS) 技术也很有发展前景，预计将在 2024 年初与各大矢量数据库集成。

• 嵌入和模型可访问性：通过 Hugging Face API 进行集成的嵌入模型往往可无缝整合到 RAG 框架中。这大大提升了纳入先进自然语言处理 (NLP)的简便性。

2、响应生成：

• 低级别优化：oneAPI 高性能库可以优化 PyTorch、TensorFlow 和 ONNX等主流 AI 框架，因此您可以使用熟悉的开源工具，因为它们已针对英特尔硬件进行了优化。

• 高级推理优化：英特尔 Extension for PyTorch 等扩展添加了高级量化推理技术，可助力提升了大语言模型的性能。

RAG应用与落地

RAG 管线的许多步骤需要耗费大量计算资源，而同时，终端用户又对低时延响应有着较高要求。此外，由于 RAG经常用于处理机密数据，因此整个管线的安全性都至关重要。

计算需求

一般来说，LLM 推理是 RAG 管线计算最密集的阶段，特别是在实时应用环境中。然而，创建初始知识库（处理数据和生成嵌入）对计算的需求同样可能很高（取决于数据的复杂性和体量）。英特尔在通用计算技术、AI 加速器和机密计算方面的进步为应对整个 RAG 管线的计算挑战提供了重要基石，同时还能提高数据隐私和安全性。

和大多数软件应用一样，RAG 也能从专为满足终端用户事务需求而量身定制的可扩展基础设施中受益。随着事务需求的增加，开发人员可能会因计算基础设施负载过重而面临时延增加，且基础设施还会因矢量数据库查询和推理计算而趋于饱和。因此，获得随时可用的计算资源来扩展系统和快速处理新增需求对企业至关重要。另外，实施关键优化以提升诸如嵌入生成、矢量搜索与推理等关键步骤的性能也非常重要。

数据隐私和安全性

• 安全 AI 处理：英特尔软件防护扩展（英特尔SGX）和英特尔（英特尔® TDX）在处理过程中在 CPU 内存中进行机密计算和数据加密，提高了数据安全性。这些技术对于处理敏感信息至关重要，有助于利用管线各部分的加密数据创建更安全的 RAG 应用。

对于需要在矢量嵌入生成、检索或推理过程中更安全地处理敏感数据的 RAG 应用来说，这是一个重要特性。

• 采取适当防护：在 RAG 应用中，防护涉及采取措施来管理 LLM在 RAG 系统内的行为。这包括监控模型的响应、帮助遵守指导原则和最佳实践，以及控制其输出来降低毒性、不公平偏见和隐私泄露的风险。在 RAG 应用中采取防护措施有助于 LLM 得到用户的信任和负责任的运用，同时符合系统的整体目标和要求。

开源优化

嵌入优化

• 量化嵌入模型：英特尔® 至强® 处理器可以利用量化嵌入模型来优化从文档中生成矢量嵌入的过程。例如，bge-small-en-v1.5-rag-int8-static 是一个使用英特尔 Neural Compressor 进行量化的 BAAI/BGE-smallen-v1.5 版本，与 Optimum-Intel 兼容。按照 Massive Text Embedding Benchmark (MTEB) 性能指标计算，使用量化模型进行检索和重排序任务时，浮点 (FP32) 和量化 INT8 版本之间的差异小于 2%，同时提高了吞吐量。

矢量搜索优化

• 针对 CPU 优化的工作负载：在英特尔® 至强® 处理器上，矢量搜索操作得到了高度优化，特别是在第三代及以后的处理器中引入了英特尔高级矢量扩展 512（英特尔AVX-512）之后。英特尔® AVX-512 利用融合乘加 (FMA) 指令，将乘法和加法合并为一个运算，从而增强了内积计算，这是矢量搜索中的一个基本运算。这一功能减少了计算所需的指令数量，显著提高了吞吐量和性能。

• 可扩展矢量搜索 (SVS)：可扩展矢量搜索 (SVS) 技术提供快速的矢量搜索能力，可助力优化检索时间并提升整体系统性能。它通过使用局部自适应矢量量化 (LVQ) 来优化基于图形的相似度搜索，在保持准确性的同时尽可能降低内存带宽要求。其结果是显著减少了距离计算时延，并在吞吐量和内存要求方面获得了更好的表现。

推理优化

RAG 主要涉及推理运算，这一过程可由英特尔® 至强® 处理器通过先进的模型压缩技术提供支持。这些技术支持在较低精度（BF16 和 INT8）下进行运算，并且不会造成明显的性能损失。在本节中，我们将简要介绍各种针对推理的优化和机会。

• 英特尔® 高级矩阵扩展（AMX）：第四代和第五代英特尔® 至强® 可扩展处理器内置英特尔AMX，能够提高矩阵运算的效率并优化内存管理。

• 先进的开源推理优化工具：英特尔贡献并扩展了主流深度学习框架，如PyTorch、TensorFlow、Hugging Face、DeepSpeed 等。对于 RAG工作流程，英特尔关注的是通过实施量化等模型压缩技术来优化 LLM 的机会。

全店打包（目前43本资料）本次更新暂未涨价（需要的读者赶紧上车），由于打包资料持续增加且考虑已买读者权益，价格也即将会随之上涨，因此，买的早就是优势。

本文仅展现少部分原版PPT，可购买“架构师技术全店资料打包汇总(全)”43本技术打包（含后续更新），或单独购买，获取《SSD闪存技术基础知识全解（PPT终极版）》、《SSD闪存技术基础知识全解（PDF终极版）》。

免责申明：本号聚焦相关技术分享，内容观点不代表本号立场，可追溯内容均注明来源，发布文章若存在版权等问题，请留言联系删除，谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(43本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新，现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)”和“存储系统基础知识全解（终极版）”pdf及ppt版本，后续可享全店内容更新“免费”赠阅，价格仅收249元(原总价489元)。

温馨提示：

扫描二维码关注公众号，点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。

http://mp.weixin.qq.com/s?__biz=MzAxNzU3NjcxOA==&mid=2650752952&idx=1&sn=bc4c820cba4bd5329927c47570663f71

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最新文章

AMD，超级计算杀疯了

超大规模集群：CPU&GPU部署与实践

算力网络基础知识全解（收藏版）

服务器内部揭秘（CPU、内存、硬盘）

干货解读：2024云计算白皮书

2024中国AI服务器产业链图谱分析（附产业链全景图）

AMD与Intel处理器综合对比分析

算力网络基础知识全解（收藏版）

AI芯片架构众多，谁会主宰算力芯片？

干货：标准RAG架构和落地实践

2024信创4大领域和15个产业现状调研

机架服务器设计和规格介绍

全国智算基础设施布局概述

交换机：从EOR到TOR架构变迁

SSD闪存技术基础知识全解（终极版）

大模型时代：交换机衡量指标、技术演变及性能分析

AI服务器核心部件产业链剖析（2024）

RAID软硬混战，怎样选最适合？

干货：白牌和品牌服务器之争

SCM新介质：未来方向思考和探讨

下载提醒：SSD闪存技术基础知识全解（终极版）

图解：72个机器学习基础知识点

十年一剑，TPU引领AI芯片时代

直播预告：阿加犀基于SiRider S1芯擎开发板的机器人应用分享

收藏：数据存储和保护技术(110页PPT)

GPU虚拟化：常见技术实现解析

Blackwell GB200：英伟达GPU重塑AI服务器

2024中国智能算力行业白皮书

GPU虚拟化：英伟达&AMD技术分析

大模型技术关键特性与发展趋势

收藏：存储和服务器基础技术

AI网络背景下RDMA的Why，What & How

一文读懂NPU是啥？

GDDR和HBM内存对比

干货：GPU训练和渲染技术

AI芯片算力基础及关键参数

Intel 2025服务器CPU路线图

鲲鹏CPU处理器芯片及架构

AI网络设计：常见误解规避及分析

存储系统基础知识全解（终极版）

国产CPU崛起：一文理解指令集概念

服务器基础知识全解（终极版）

2024年AMD CPU和GPU技术进展

2024中国AI Agent研究综述

服务器CPU：架构、性能及未来趋势

超异构计算技术趋势分析

VMware by Broadcom：虚拟化国产替换是否Ready？

详解服务器磁盘及网卡技术

深入浅出：服务器组成及架构之争

干货：InfiniBand核心技术功能答疑

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉