FlashRAG-Paddle | 基于PaddleNLP的高效开发与评测RAG框架

科技 2024-11-26 20:45 北京

产品亮点

1. FlashRAG-Paddle：组件化、模块化的RAG框架

全面且可定制的RAG框架，集成检索器、重排序器、生成器和压缩器等核心组件，提供36个基准数据集和9种先进算法，辅以高效预处理脚本，简化流程，轻松实现复杂RAG场景下的模型测试与验证。

2. PaddleNLP: 超大Batch嵌入表示学习和多硬件高性能推理

PaddleNLP提供一站式大语言模型解决方案，支持超大Batch嵌入学习，多硬件高性能推理，涵盖了INT8/INT4量化技术，以及PageAttention、FlashDecoding等高效的注意力机制优化和TensorCore深度优化，从而大幅提升训练与推理效率，全方位满足多样化的应用需求。

3. FlashRAG & PaddleNLP：检索增强生成结合高性能推理，更准更快，提升用户体验

基于飞桨框架3.0版本，PaddleNLP内置了全环节算子融合等技术，使得FlashRAG推理性能相较于transformers动态图推理实现了70%以上的显著提升，结合检索增强知识，输出结果更加准确，为FlashRAG框架使用者带来了敏捷高效的使用体验。

背景介绍

在大语言模型时代，检索增强生成已成为缓解幻觉问题的有效解决方案。通过外接知识库，大模型可以在长尾问题、垂域问题上有良好的表现。检索增强生成（RAG）技术的广泛应用和巨大潜力吸引了大量研究关注。然而，近年来随着大量RAG算法和模型的出现，如何在一致的环境下快速构建并比较评估这些方法变得越来越具有挑战性。同时，如何利用大语言模型为文本更快更好的构建准确嵌入表示、如何加速推理生成速度等方面也日益受到关注。

为解决上述问题，中国人民大学高瓴人工智能学院联合百度共同发布了FlashRAG-Paddle框架，其中内置36个经过预处理的RAG数据集以及9种预实现的RAG算法，能够帮助研究人员高效地在RAG领域进行复现、基准测试和开发新算法。同时，借助基于飞桨框架3.0版本打造的PaddleNLP大语言模型套件，通过极致的全流程优化，为RAG中的检索器、生成器、重排器、精炼器提供从组网开发、预训练、精调对齐、模型压缩以及推理部署的一站式解决方案。

目前，FlashRAG已在GitHub平台获得近1.3K星标，欢迎大家持续关注、使用和贡献代码!

FlashRAG-Paddle框架

FlashRAG-Paddle是一个用于检索增强生成（RAG）研究的Python工具包，它基于飞桨框架和PaddleNLP大语言模型套件构建，并针对国产芯片进行了优化。

全面且可定制的框架：包含RAG场景所需的核心组件，如检索器、重排序器、生成器和压缩器，可灵活组合成复杂的流程。
综合基准数据集：包含36个经过预处理的RAG基准数据集，用于测试和验证RAG模型的性能。
预实现的先进RAG算法：提供9种先进的RAG算法，可在不同设置下轻松复现结果。
高效的预处理阶段：通过提供各种脚本，如用于检索的语料库处理、检索索引构建以及文档的预检索，简化了RAG工作流程的准备工作。

为了能够灵活高效地搭建各类RAG系统，FlashRAG采用了组件化、模块化的设计理念，将整个框架的设计包括三个层面：组件层、流程层、数据层。

组件层

组件层位于框架的最底层，提供了构建RAG系统所需的各类基础组件，主要包括：

检索器(Retriever)：负责从知识库中检索与查询最相关的文档。FlashRAG支持使用embedding模型以及基于词项匹配的BM25方法等。
生成器(Generator)：根据给定的文本（通常是查询和检索结果的拼接）生成最终的回复。框架支持使用各类LLM模型，并支持FastChat、vllm等加速方案。
重排器(Reranker)：对检索结果进行重新排序，以进一步提升与查询的相关性。重排器分为交叉编码器和双塔编码器两种类型。
精炼器(Refiner)：对输入的文本进行进一步的精炼和压缩，去除冗余信息。目前已支持抽取式、生成式、基于LLMLingua和基于Selective-Context的多种精炼器。

基于实现的组件库，用户可以自由选择需要使用的组件来完成自己的特定需求。

流程层

流程层位于组件层之上，通过组装各类组件实现端到端的RAG流程。基于各种方法的推理路径，我们将RAG流程分为了四大类：

Sequential：顺序执行retriever、refiner、reranker、generator等组件，是最基础的RAG流程。
Conditional：通过judger模块判断不同类型的查询，并选择不同的执行路径。
Branching：并行执行多条路径，并将各路径的生成结果进行整合，代表工作如REPLUG、SuRe等。
Loop：通过迭代的方式交替执行retriever和generator，代表工作如Self-Ask、Self-RAG、FLARE、IRCoT等。

数据层

最上层为数据层，包括用于检索的语料数据以及用于评估的各种任务数据。在RAG流程运行完成后，会自动计算相关的评价指标并保存评测结果。我们收集并处理了RAG研究中广泛使用的35个数据集，并对其进行了预处理，以确保格式一致，便于使用。对于某些数据集，我们根据社区中常用的方法对其进行了调整以满足RAG任务的要求。所有数据集均可在Huggingface平台上进行下载。

PaddleNLP:

超大Batch嵌入表示学习和多硬件高性能推理

助力检索增强生成

PaddleNLP是基于飞桨框架打造的大语言模型套件，通过极致的全流程优化，为开发者提供从组网开发、预训练、精调对齐、模型压缩以及推理部署的一站式解决方案。

模型组网简化与参数多样：PaddleNLP通过统一分布式表示与自动并行技术，显著简化了组网开发的流程，减少了分布式核心代码量50%以上，结合多种并行策略Llama 3.1 405B等超大规模模型能够开箱即用。此外，PaddleNLP预置了80多个主流模型的训练、压缩、推理全流程方案，满足了不同应用场景下的多样化需求。
精调与对齐性能提升：借助飞桨框架独有的FlashMask高性能变长注意力掩码计算机制和Zero Padding零填充数据流优化技术，PaddleNLP有效减少了无效数据填充带来的计算资源浪费，显著提升了精调和对齐的性能。以Llama 3.1 8B模型为例，其性能相较于LLaMA-Factory方案实现了1.2倍的提升，单机即可轻松完成128K长文的SFT/DPO任务。
硬件适配广泛与高效：PaddleNLP基于飞桨插件式松耦合统一硬件适配方案（CustomDevice），仅需适配30余个接口即可实现大模型的基础适配，支持英伟达GPU、昆仑芯XPU、昇腾NPU、燧原GCU和海光DCU等多款主流芯片的大模型训练和推理。依托框架提供的多种算子接入模式和自动并行调优技术，PaddleNLP实现了框架与芯片间的软硬协同性能优化，为用户提供了更加高效、稳定的模型训练和推理体验。

超大Batch嵌入表示学习

嵌入表示学习采用In-batch negative策略，即将 batch 内的所有其他样本视作负样本，定义Contrastive loss函数如下：

其中是第个文本和第个文本之间的余弦相似度，是匹配样本的相似度。从公式中可以看出随着batch size的增大，模型能接触并学习更多负样本，进而提取出更具判别性的特征。因此在大模型训练过程中，需要更大的Batch提升模型性能。

PaddleNLP通过在数据并行中支持In-batch negative策略以及flashmask等显存优化策略，在训练embedding模型时，提升每次训练的batch size，进而显著提高训练效率和效果。

多硬件高性能推理

特点一：高性能推理优化，支持Llama 3.1 405B高性能推理

PaddleNLP构建了大模型高性能推理方案，支持Llama 3.0、Llama 3.1、Mixtral等一系列大语言模型推理。当前支持技术包含:

Weight Only INT8及INT4推理，支持权重、激活、Cache KV进行INT8、FP8量化的推理；
注意力机制支持PageAttention、FlashDecoding等优化；
支持基于TensorCore深度优化。

PaddleNLP高性能推理通过内置全环节算子融合策略，获取更优推理性能。在7B、14B、32B和72B模型的推理性能上，PaddleNLP后端相比transformers后端动态图推理提速70%至119%。同时，Llama 3.1 405B作为开源社区中的最大模型，PaddleNLP推理也快速支持了此模型，单机8卡即可实现快速推理能力。

特点二：多硬件大模型推理支持

在硬件支持方面，飞桨推理引擎展现出了强大的兼容性和灵活性。当前在支持完美支持英伟达GPU的基础上，还支持了国产及国际领先的AI芯片生态，包括昆仑XPU、昇腾NPU、海光DCU、燧原GCU、英特尔X86 CPU等多种硬件的大模型推理，不同硬件的推理入口保持统一，仅需修改device即可支持不同硬件推理。

PaddleNLP的这一特性强化了RAG在更广泛的多硬件环境下的部署场景，满足不同用户的多样化需求，推动RAG在更多实际业务中的应用与落地。

FlashRAG + PaddleNLP 快速打造RAG文档问答应用

RAG（检索增强生成）技术巧妙融合了信息检索与先进的生成模型，通过从丰富的外部知识库中精准检索相关信息，为大型语言模型提供强有力的回答辅助。这一创新技术充分发挥了信息检索的精准性与生成模型的创造力，能够自动生成既高质量又准确，同时紧密贴合上下文的文档总结。接下来，我们将为您详细介绍如何仅需三步，即可轻松构建RAG文档总结应用。

构建自己的语料数据库

步骤1：准备语料

首先需要准备预料库来作为检索召回的基础，预料库保存为jsonl以下格式，

{"id": "0", "contents": "contents for building index"}{"id": "1", "contents": "contents for building index"}

更多语料制作细节，请前往链接查看。

https://github.com/RUC-NLPIR/FlashRAG-Paddle

步骤2：索引

然后，使用以下代码构建您自己的索引。

对于密集检索方法，通过使用embedding模型，将文档嵌入到密集向量中，之后使用faiss来建立密集向量索引。

python -m flashrag.retriever.index_builder \    --retrieval_method e5 \    --model_path intfloat/e5-base-v2/ \    --corpus_path indexes/sample_corpus.jsonl \    --save_dir indexes/ \    --use_fp16 \    --max_length 512 \    --batch_size 256 \    --pooling_method mean \    --faiss_type Flat

对于稀疏检索方法，基于Pyserini或bm25s，依据词频将语料构建为Lucene的倒排索引。

python -m flashrag.retriever.index_builder \    --retrieval_method bm25 \    --corpus_path indexes/sample_corpus.jsonl \    --bm25_backend bm25s \    --save_dir indexes/

配置检索器和生成器

步骤1: 配置检索模型和生成模型

通过这段代码，我们指定了检索模型和生成模型的具体设置，为RAG运行提供了必要的配置信息。

# 定义一个配置字典，包含所有必要的设置config_dict = {    "save_note": "demo",  # 保存备注，用于标识这次配置    "model2path": {  # 模型名称及其对应的路径        "e5": "intfloat/e5-base-v2",  # 检索模型e5的路径        "llama3-8B-instruct": "meta-llama/Meta-Llama-3-8B-Instruct"  # 生成模型llama3-8B-instruct的路径    },    "retrieval_method": "e5",  # 指定使用的检索模型    "generator_model": "llama3-8B-instruct",  # 指定使用的生成模型    "corpus_path": "indexes/general_knowledge.jsonl",  # 知识库文件的路径，检索模型会从这里查找信息    "index_path": "indexes/e5_Flat.index",  # 索引文件的路径，用于加速检索过程}
# 使用配置字典和一个配置文件路径来初始化配置对象config = Config("my_config.yaml", config_dict=config_dict)

步骤2: 定义对话模板

为了让AI助手更加人性化，我们需要为它设定一些对话模板。这些模板会指导AI如何回应用户的输入，并确保回复既友好又准确。

# 定义一个带有引用信息（reference）的系统提示，AI在回应时会参考这些信息system_prompt_rag = (    "你是一个友好的AI助手。"    "像人类一样回应输入，如果输入中有指令，请遵循指令进行回应。"    "\n以下是一些提供的参考信息。你可以使用这些信息来回答问题。\n\n{reference}")
# 定义用户输入的基本模板，{question}会被实际的问题所替换base_user_prompt = "{question}"
# 使用前面定义的配置和模板，创建一个带有引用信息的对话模板对象prompt_template_rag = PromptTemplate(config, system_prompt=system_prompt_rag, user_prompt=base_user_prompt)

‍步骤3: 加载检索模型和生成模型

在配置好对话模板之后，接下来我们需要加载之前配置的检索模型和生成模型。这两种模型在PaddleNLP库中已经集成，所以我们可以直接调用它们，无需从头开始训练或编写复杂的代码。

# 根据配置加载检索模型，这是RAG用于从知识库中查找信息的模型retriever = load_retriever(config)
# 根据配置加载生成模型，这是RAG用于生成输出的模型generator = load_generator(config)

检索增强，生成输出

通过这段代码，RAG首先使用检索模型根据用户的查询找到最相关的文档。然后，它将这些文档信息整合到对话模板中，形成一个包含引用信息的输入提示。最后，使用生成模型根据这个输入提示来生成智能化的回应，并打印出来。

# 使用检索模型，根据用户的查询（query）来检索最相关的topk个文档retrieved_docs = retriever.search(query, num=topk)
# 将检索到的文档信息整合到对话模板中，形成带有引用信息的输入提示input_prompt_with_rag = prompt_template_rag.get_string(question=query, retrieval_result=retrieved_docs)
# 使用生成模型，根据带有引用信息的输入提示来生成回应# 这里可以设置一些生成参数，如temperature控制生成的随机性，max_new_tokens控制生成的最大长度response_with_rag = generator.generate(    input_prompt_with_rag, temperature=temperature, max_new_tokens=max_new_tokens)[0]
# 打印生成的回应print(response_with_rag)

总结

FlashRAG-Paddle这一工具包不仅有助于现有 RAG 技术的复现，还支持新方法的开发，更重要的是，它为基于国产硬件和软件的AI应用提供了更广泛、更灵活的开发和部署选项，从而推动了AI技术的自主创新和国产化进程。

FlashRAG和FlashRAG-Paddle的所有资源已开源，我们诚挚邀请国内外的研究人员和开发者使用、复现和贡献代码，共同推动RAG技术的发展和国产化进程！

FlashRAG论文链接

https://arxiv.org/abs/2405.13576

FlashRAG-Paddle 链接

https://github.com/RUC-NLPIR/FlashRAG-Paddle

PaddleNLP 链接

https://github.com/PaddlePaddle/PaddleNLP

精彩课程预告

为了帮助您迅速且深入地了解FlashRAG-Paddle，中国人民大学高瓴人工智能学院与百度高级研发工程师将在12月3日（周二）19：00，为您详细解读FlashRAG-Paddle框架如何帮助研究人员高效地在RAG领域进行复现、基准测试和开发新算法。机会难得，立即扫描下方二维码预约吧！

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

飞桨PaddlePaddle

源于产业实践的开源深度学习平台

最新文章

飞桨PP系列模型上新！PP-DocBee文档图像理解的新‘蜂’向标！

盘点2024：这一年，我们这样走过

效率提升300%！文心一言与辞海强强结合，推出智能知识审校系统“辞文”

正在报名！文心中国行走进武汉，共探大模型时代产业新机遇

“智惠万企—文心赋能中小企业专项行动计划”正式发布并启动招募

百度AICA第八期正式收官 79名首席“AI架构师”毕业执桨起航

百度与南京市鼓楼区共建江苏首个飞桨人工智能产业赋能中心

文心中国行再聚鹭岛！厦门飞桨赋能中心启航

大模型助力教师提效创新：百名教师齐聚百度飞桨（厦门）人工智能产业赋能中心！

飞桨扬帆智海，大湾区杯AI For Science科技竞赛圆满完赛

大模型区域落地再加速！“文心中国行”走进广州

大模型技术沙龙：行业深度融合与创新路径探索

大学生做得好不好小学生来pick，2024 C4-AI总决赛在中华世纪坛圆满落幕

飞桨大模型Unified Checkpoint技术加速模型存储95%，节省空间78.5%

一亿中流加入飞桨技术伙伴计划，“AI+营销”实现智能化精准拓客

飞桨AI for Science课程表｜前沿讲座系列课程预告（三）

PaddleX上线小目标检测模型产线，支持遥感分析、智能监控、智慧交通等领域高效应用

飞桨教师风采｜李彝利：基于飞桨的校企协同AI创新人才培养模式探索

下一站，广州！12月19日文心中国行与您共建大模型产业应用生态圈

飞桨星河社区六周年｜学练进阶·技术畅谈，一起并肩前行

第六届CECC大会圆满落幕，大模型技术引领教育改革与创新

学校新来了一位AI作文老师：能看、会评、还教改写

飞桨出海助力智利企业Simon9精准解决包装行业质检难题，生产损失降低90%

第六届CECC中国计算机教育大会百度“大模型技术创新与教育实践”论坛来啦

飞桨AI for Science课程表｜前沿讲座系列课程预告（二）

PaddleX 上线多标签分类模型产线，高效支持图像识别、智能监控、工业质检等领域应用

FlashRAG-Paddle | 基于PaddleNLP的高效开发与评测RAG框架

重磅！飞桨开源社区携手百度开源办公室，为开源贡献者送福利！

“未来之后”AI4S第三届国际高峰论坛报名｜诺贝尔奖得主、五位院士、顶尖专家学者与企业领袖齐聚，分享前沿趋势及领域成果

飞桨PaddleScience与北大研究会开展科学计算训练营

百度飞桨联动香港教育大学AIREA，共话AI+教育发展新趋势

PaddleX 上线人脸定位与识别端到端模型产线，为安全监控、身份认证、智能家居等领域保驾护航

大模型时代下的高等教育转型——百度领航AI通识课程建设

「体验官招募」多模态大模型开发套件PaddleMIX开发项目挑战

基于PP-ShiTuv2新增PaddleX图像识别模型产线，显著提升商品识别等细粒度开放域产业场景检索性能

一束电力智能之光，点亮“星河”应用创新未来

百度文心智能体技术获2024世界互联网大会领先科技奖

2024大湾区科学论坛举行，百度吴甜解读大模型如何重塑产业智能引擎

官方带队实测，阶梯式解锁飞桨框架3.0能力新特性，轻松上手！

飞桨AI for Science课程表｜前沿讲座系列课程预告

PaddleClas 2.6 发布，新增细粒度商品识别、特色多标签分类等前沿算法和检索能力！

AI少年科创营：学而思与百度飞桨携手开启青少年AI科普之旅

百度王海峰：文心一言用户规模达4.3亿

打造没有围墙的学校，百度世界2024发布科技馆智能体

文心iRAG和无代码“秒哒”发布！李彦宏：即将迎来AI应用的群星闪耀时刻

太好了支持多比例出图！新媒体人有救了！

飞桨PaddleScience亮相DACOMA-24，助力科学计算新探索

PaddleSeg发布图像异常检测高精度模型STFPM，无监督异常检测算法赋能产业升级

百度联合学界打造国内最新AI for Science系列课程

百度升级AI for Science共创计划，携手学者共研顶尖学术成果

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉