大模型的幻觉、错误,及回答质量等问题,一直客观存在。
虽然已经有一些评估大模型的方法(详见上一篇大模型的评估方法),但这些方法对主观问题覆盖不足,无法满足生产的要求。于是,在做完客观评估后,常用的方法是人工主观测试,但人工测试无论从数量还是质量上看,是完全不靠谱的。
现实工作中需要频繁使用对模型的评估测试能力,比如,选择基模型、模型训练或微调后的版本,都需要评估测试。甲方要引入模型,也需要评估测试。现实需要一个好的测试方法和测试工具。
Patronus AI 是领先的生成式人工智能应用自动化测试和评估平台。
Patronus 提供端到端系统来评估、监控和提高 LLM 系统的整体性能。
系统架构
评估的原理比较简单,就是让大模型回答问题,然后评估回答的结果。这个和客观题的评估类似,但输入和结果的处理更为复杂。主观题使用大模型来做结果评估,这种方法,也有一个特定的名字,叫LLM as a judge(LLM作法官),是被接受的方法。
Patronus做了两个重要的事情:
Patronus训练了一个专门用于幻觉检测的模型,叫Lynx.
这个模型基于Llama-3-70B-Instruct微调,使用了Databricks的工具和环境(数据)。还专门发布了一个幻觉检测的数据集,叫HaluBench(https://huggingface.co/datasets/PatronusAI/HaluBench)。
在这个数据集上检测,PatronusAI /Llama-3-Patronus-Lynx-70B-Instruct的表现优于 GPT-4o、Claude-Sonnet 和其他开源模型。PatronusAI /Llama-3-Patronus-Lynx-8B-Instruct 是 8B 变体,与 GPT-4o 相比仅相差约 3%。
2. Patronus的数据集处理。
Patronus发布了多个数据集供客户使用,包括:
pii-questions-1.0.0:PII 引发的提示
toxic-prompts-1.0.0:LLM 可能会做出攻击性回应的有毒提示
legal-confidentiality-1.0.0:法律提示,检查大模型是否理解法律文件条款中的保密概念
model-origin-1.0.0-small:OWASP 安全评估检查 LLM 是否泄露有关模型来源的信息
prompt-injections-1.0.0-small: 提示注射测试
Patronus也支持客户提供自己的测试集。还提供测试集生成服务,生成的方法包括:
基于文档的生成
通过多种形式(例如文本、表格、代码和图像)生成定制的、特定领域的数据集。客户以支持的格式(例如 PDF、JSON、JPG)共享他们的数据,从数据中提取相关内容以进行生成。
基于标准的生成
标准驱动生成创建了一系列提示,以根据特定标准评估模型行为(例如,模型是否输出版权、不安全信息、PII)。
这些提示可以是对抗性的,也可以是侧重于确保测试用例的良好覆盖率。对于覆盖率,我们采用课程提取方法,并在最终数据集中用类别标记提示。
对抗性攻击
可以根据红队技术为不同的模型系列生成对抗性提示。这些包括各种方法,以递归分支和迭代的方式找到提示改进,从而导致模型输出不安全的信息。提示由问题组成或采用完成样式。它们可用于测试模型安全性的不同方面。
对话数据集
可以生成具有不同用户角色的多轮对话数据集。
有了好的模型评估能力,有了数据集,评估就变得容易了,再加上自动化框架,可以完整实现大模型的幻觉评估应用。
Patronus AI还发布了一个产品,叫“ CopyrightCatcher ”,这是业界首个检测大型语言模型 (LLM) 何时输出受版权保护内容的解决方案。
CopyrightCatcher 可以发现LLM生成精确复制书籍等文本来源内容的情况。它可以对LLM输出是否包含受版权保护的内容进行评分,并突出显示LLM输出中包含受版权保护内容的特定部分。
Patronus AI 的初步研究表明,最先进的 LLM 以惊人的高速度生成受版权保护的内容。Patronus AI 的 AI 研究人员开发了一个包含 100 个提示的对抗性测试集,以研究模型生成精确复制品的频率。结果看上去很严重:
OpenAI 的 GPT-4:44%的提示产生了受版权保护的内容。
Mistral 的 Mixtral-8x7B-Instruct-v0.1 在 22%的提示上产生了受版权保护的内容。
Anthropic 的 Claude-2.1:在8%的提示上制作了受版权保护的内容。
Meta 的 Llama-2- 70b -chat 在10%的提示中产生了受版权保护的内容 。
这个产品也很有意义。
2024年5月22日,Patronus AI宣布完成1700 万美元的A 轮融资,使总融资额达到2000 万美元。此次融资由Notable Capital 的Glenn Solomon领投,Lightspeed Venture Partners、Datadog、 Gokul Rajaram、Factorial Capital 以及几位领先的软件和 AI 高管参与其中。
其创始团队,看上去CTO是个中国女孩。
大模型的评估,核心就是三个点,评估平台,评估数据,结果分析。这三个点,Patronus都做了非常好的覆盖,从思路和方法论上是非常靠谱的。资本也非常认可。
这个项目既是大模型的应用,又是促进大模型应用的场景。非常值得学习。
END
关联阅读:
大模型的评估方法