五大主流开源大模型RAG评估框架详解

科技 2024-11-16 00:03 中国

、—1—

RAG 评估的挑战

增强检索生成技术（Retrieval Augmented Generation，简称 RAG）目前正成为增强大语言模型（LLM）性能的核心手段。该技术通过将外部知识库融入LLM，大幅提升了大模型的精确度和对上下文的感知力。然而，对 RAG 系统性能的评测颇具挑战，这促使了一系列开源 RAG 评估框架的诞生。下面，让我们共同探讨5大开源的 RAG 评估框架。

—2—

开源评估框架1：Ragas

Ragas（Retrieval-Augmented Generation Assessment）是一款专为评测增强检索生成（RAG）流程而精心构建的强大工具。它凭借其全面评估 RAG 的方法论，迅速赢得了开发者和数据科学家们的广泛认可。

Ragas 是一个框架，它可以帮助我们来快速评估 RAG 系统的性能，为了评估 RAG 系统，Ragas 需要以下信息:

question：用户输入的问题。

answer：从 RAG 系统生成的答案（由 LLM 给出）。

contexts：根据用户的问题从外部知识源检索的上下文即与问题相关的文档。

ground_truths：人类提供的基于问题的真实（正确）答案。这是唯一的需要人类提供的信息。

当 Ragas 拿到上述这些信息后会基于大语言模型来对 RAG 系统进行打分，就像在任何机器学习系统中一样，LLM 和 RAG 流程中各个组件的性能对整体体验具有重大影响。Ragas 提供了专门用于单独评估 RAG 流程的每个组件的指标。

1、关键特性

量身定制的评估标准：Ragas 提供了一系列专门为 RAG 系统设计的评估指标，这些指标能够精确地评估 RAG 系统在多个维度的性能。
适应性强的评估方式：Ragas 支持本地及分布式评估，这确保了它能够适应各种计算环境和数据量级的需求。无论是进行单机的小规模评估，还是应对分布式系统上的大规模数据评估，Ragas 都能轻松应对。
与主流框架兼容：Ragas 能够与众多流行的大型语言模型（LLM）框架无缝对接。这种兼容性让开发者能够轻松地将 Ragas 整合进现有的 RAG 系统开发流程，大大简化了开发过程并降低了工作负担。

2、评估示例


from ragas import evaluatefrom datasets import Dataset
# 假设评估数据已经结构化eval_dataset = Dataset.from_dict({    "question": ["What is the capital of France?"],    "contexts": [["Paris is the capital of France."]],    "answer": ["The capital of France is Paris."],    "ground_truths": [["Paris is the capital of France."]]})# 运行评估框架results = evaluate(eval_dataset)print(results)

3、Github 地址

https://github.com/explodinggradients/ragas

—3—

开源评估框架2：Prometheus

Prometheus 以其作为监控工具和时间序列数据库的卓越性能而著称，然而，其强大的数据搜集和预警能力也使得它在大语言模型（LLM）评估领域值得一谈。

1、关键特性

高效的数据采集与储存能力：有效地捕捉和保存与大语言模型（LLM）系统相关的信息，涵盖 RAG 流程中的数据。这些信息对于诊断系统性能和行为的分析至关重要。
先进的查询功能：配备了一种先进的查询语言，使用户能够轻松地对积累的数据进行检索和分析。借助这种功能强大的查询工具，用户能够细致地探究系统在不同时间段的性能指标，以及不同参数间的相互关联。
弹性的报警机制：拥有一个弹性的报警系统，能够在系统发生异常时迅速发出警告。这样的机制有助于问题的及时识别和处理，保障系统的持续稳定运作。

2、应用场景

Prometheus 能够监控基于大语言模型（LLM）的系统（包括 RAG 流程）的性能和运行状况。尽管它并非专为 LLM 设计，但其收集和分析时间序列数据的功能对于监测 LLM 性能和系统健康状态的长期趋势极为有用。

例如，通过定时搜集 RAG 系统在不同查询条件下的响应时长、准确度等数据，并运用其查询语言进行深入分析，可以揭示系统性能的波动趋势，以及潜在的问题点。一旦响应时间异常延长或准确度明显下降，警报系统便会迅速通知相关人员采取措施。

3、Github 地址

https://github.com/prometheus/prometheus

—4—

开源评估框架3：DeepEval

DeepEval 是 LLM 评估领域内另一个突出的框架，它专门针对大语言模型的输出而设计。类似于 Pytest，但它更加专注于 LLM，提供了全面的评估指标，并且支持对 LLM 输出的单元测试功能。

1、关键特性

整合了最新的大语言模型（LLM）输出评估的研究成果。
涵盖了丰富的评估指标体系。
为大语言模型（LLM）的输出提供了单元测试支持。
保障了 LLM 生成内容的质量及一致性。

2、Github 地址

https://github.com/confident-ai/deepeval

—5—

开源评估框架4：Phoenix

Phoenix 是由 Arize AI 打造的一款开源工具，旨在为人工智能提供可观测性和评估功能。尽管它并非专门针对 RAG 流程设计，但其强大的功能使其成为评估大语言模型（LLM）的一个有力选择。

1、关键特性

实时监控能力：该工具实现了对 AI 的模型的即时监控，确保能够即时捕捉到大模型运行时的各类信息，包括输入输出数据、性能指标等关键细节。
性能评估与异常侦测：工具内置了性能分析和问题识别的功能。利用这些功能，用户能够深入探究模型的性能表现，快速识别潜在的问题，例如：大模型可能出现的过拟合或欠拟合现象。
广泛兼容性：该工具支持多种 AI 和机器学习场景，其中包括大语言模型（LLMs）。这种广泛的适用性使其能够在多种人工智能项目中被有效利用，展现出其高度的通用性。

2、应用场景

Phoenix 的强项在于其能够全面揭示大模型性能。以大语言翻译项目为例，利用 Phoenix 可以对翻译模型的性能进行实时监控。通过评估模型对各种语言文本的转换效果，可以识别出潜在的翻译误差或不精确之处。此外，Phoenix 还能监测模型是否出现过拟合，即模型过于依赖训练数据，而在处理新数据时表现不佳。基于这些分析，可以对模型进行相应的调整和改进，从而提升翻译的准确度和效率。

3、Github 地址

https://github.com/Arize-ai/phoenix

—6—

开源评估框架5：ChainForge

ChainForge 是一款开源的可视化编程工具，旨在对大语言模型（LLM）的响应进行解析和评价。该工具的设计宗旨是简化提示工程和响应评估的过程，使其更加直观且易于使用。

1、关键特性

图形化操作界面：提供了一个图形化界面，方便设计和测试各种提示词。通过此界面，开发人员能够清晰地观察到提示的结构与内容，从而便捷地进行修改和完善。
支持多家 LLM 供应商：该工具兼容多个大型语言模型（LLM）供应商，使用户能够在不同的 LLM 大模型之间进行比较和选择。
输出对比与分析功能：内置了用于对比和分析 LLM 输出的功能。利用这些功能，用户能够对不同 LLM 大模型的输出进行详细比较，识别各自的优势与不足，进而挑选出最合适的大模型。

2、应用场景

ChainForge 的可视化手段在大型语言模型（LLM）的评估领域显得格外突出。以内容生成项目为例，当需要挑选一个最适宜的 LLM 大模型来产出高品质文章时，ChainForge 的图形化界面就能派上用场。用户可以利用这个界面来构思多种提示，并审视不同 LLM 大模型对这些提示词的反馈。通过对比这些大模型的输出，可以辨别出哪个大模型更能够满足文章生成的需求，进而决定在实际操作中使用该大模型。

3、Github 地址

https://github.com/ianarawjo/ChainForge

RAG 和 Agent 是 AI 大模型应用落地的2大关键技术，除了 RAG 技术外，AI Agent 技术无疑成为了焦点领域。自从 ChatGPT 4推出以来，各种应用场景都在积极融入 AI Agent 技术，特别是 AI Agent 智能体的产业升级、企业级系统改造，已经在各行各业广泛使用和已积累了丰富的实际操作经验。我们精心打造了一套 AI Agent 项目实战直播训练营，异常火爆，对于感兴趣的朋友，欢迎报名参加。

—7—

火爆的 AI Agent 训练营

为啥如此火爆？

第一、这是大势所趋，我能正在经历一场重大技术变革，还不像当年的互联网的兴起，这是一场颠覆性的变革，掉队就等于淘汰，因为未来所有应用都将被AI Agent 重写一遍；

第二、现在处于红利期，先入场的同学至少会享受4~5年的红利，拿高薪，并且会掌握更多的资源。

第三、企业需求旺盛，越来越多的企业开始在 AI Agent 领域进行创新尝试，这为我们提供了丰富的岗位机会和广阔的发展空间。

最近两年一直在研究大模型应用技术，大模型的价值太大了，AI Agent 的潜力太大了，“未来所有应用都将被 AI Agent 重写一遍”这句话也是今天听到最多的一句话。我的团队这两年，尤其是今年接了很多开发 AI Agent 的项目，越来越多的企业都开始做这方面的创新尝试。

AI Agent 足够重要，但也足够复杂，我这两年的实践的结论是，想开发出一个能够可靠稳定的 Agent 应用实在太难了，大模型技术本身的复杂度，大模型推理的不确定性等等，这些困难直接导致很人对其望而却步，或是遇到问题无从下手。一般的技术同学想要自己掌握 Agent 太难了。

为此我特意打造了一个为期3天的 AI Agent 企业实战训练营：

课程原价199元，现在仅花19元就能拿下！抢完立刻恢复199元！

—8—

3天的直播训练营，带你快速掌握 Agent

3天的直播课，带你快速掌握 Agent 核心技术和企业级项目实践经验。

模块一：AI Agent 技术原理篇

全面拆解 AI Agent 技术原理，掌握 AI Agent 三大能力及其运行机制。

模块二：AI Agent 应用开发实战篇

深度讲解 AI Agent 技术选型及开发实践，具备开发 AI Agent 核心技术能力。

模块三：AI Agent 企业级案例实战篇

从需求分析、技术选型到架构设计实践，深度学习企业级 AI Agent 项目流程级重点难点问题解决。

3天时间，你能学会什么？

在真实项目实践中，获得以下能力：

第一、全面了解 AI Agent 的原理、架构和实现方法，掌握核心技术精髓。

第二、熟练使用 Dify/Coze 平台和 LangChain 开发框架，为未来的技术实践打下坚实基础。

第三、通过企业级项目实战演练，能够独立完成 AI Agent 的设计开发和维护，提升解决实际问题的能力。

第四、为职业发展提供更多可能性，无论是晋升加薪还是转行跳槽，提升竞争力。

限时优惠：

原价199元，现在报名只需19元！这是一个难得的机会，让我们一起踏上 AI Agent 技术之旅，开启技术新纪元！

—9—

添加助理直播学习

购买后，添加助理进行直播学习👇

⬇戳”阅读原文“，立即预约！

END

http://mp.weixin.qq.com/s?__biz=MzIzODIzNzE0NQ==&mid=2654452138&idx=1&sn=fcb9169f4d369daa29cdc971a4388a29

玄姐聊AGI

5年连续创业者，融资超亿元｜ AI 大模型资深应用专家｜前58集团技术委员主席｜前百度资深工程师｜大厂 MVP｜毕业浙江大学

最新文章

RAG现有框架总结：7个GraphRAG+17个传统RAG | 推荐收藏

爆跌90%......

团队准备解散了。

爆跌了。。。

别再手动编排工作流了，AI做的比你更好！

五大主流开源大模型RAG评估框架详解

裁员9000人！

跌爆了。。。

大模型 Agent 应用的6种架构设计模式，你知道几种？

内部消息：互联网巨头豪赌AI Agent，背后秘密大曝光！

对AI大模型应用场景落地几点思考！

特朗普当选美国总统，中国程序员的机会来了！！

上周和阿里专家一次沟通。。。

96W，确实可以封神了！！

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

大厂RAG面试真题大全！

经过了裁员优化后，有大厂发现35+员工堪比985211的员工了。他们既听话又好用，又有丰富踩坑经验，不容易犯错。

离谱！一边裁员，一边60K*16高薪挖人！

很严重了，我劝大家学会这门新技能吧...

前阿里员工爆料：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

字节跳动员工自爆工资收入，网友说：字节10年能挣普通人一辈子

央国企降薪潮来袭！惨不忍睹！

刚刚，OpenAI发布sCM提升50倍效率，扩散模型重大技术突破！

Google 最新推出的RAG替代方案--RIP

如何基于一台MacBook搞定企业级大模型知识库部署

阿里专家揭秘：为什么现在要学习 AI Agent？

取代IT岗，中国又一新兴岗位在崛起！这才是IT人未来最好的就业方向！！

雷军做程序员时写的博客，的确强大！

比裁员更侮辱人的事发生了。。。

AI应用落地关键技术：AI Agent

惊恐！银行崩了，余额归 0 ，钱没了。。。

OpenAI重磅发布交互界面canvas，让ChatGPT成为编程和写作利器

一文彻底理解大模型 Agent 智能体原理和案例

成本降低98%！OpenAI开发者大会4大新能力，处理token猛增50倍！

一文剖析AI大模型技术架构的全景视图：从基础实施层、云原生层、模型层、应用技术层、能力层、到应用层

Cursor 实用技巧指南

Spring AI Alibaba 让 Java 开发者一步迈入 AI 原生时代！

突发！上交所系统被买崩了？股票交易量火爆挤瘫 IT系统！

大厂职级：P6/P7/P8技能、薪资和成长路线全攻略！

裁员了，很严重，大家做好准备吧。。。

突发！OpenAI 山姆奥特曼长文解读智能时代，很快会有超级智能！

4.6K star！Cursor 开源平替来了，一天狂揽近 1K Star！

Spring AI Alibaba 重磅发布！AI 驱动的 Java 开发框架

如何基于一台MacBook搞定企业级大模型知识库部署

多家企业面临薪资困境，提前规划，为你的未来保驾护航！

前阿里员工自述困境：35岁+，年薪曾达180万，离职五月终获字节跳动Offer，却面临45%薪资下调，心理压力巨大

中国程序员的悲哀！！（全球调研）

人人都能听懂的大白话 Transformer 技术原理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉