Meta：无需人工标注，LLM 评估器也能自我提升？

文摘 2024-10-14 13:16 北京

当下，如何做好一个LLM应用有很多策略，但是要说如何评估它好不好，这方面技术却并不是很多。这里有一张图，来指导我们何种情况采取何种策略。

如果已经有手工标注的评估集了那还好说，但大多数没有，并且，这种依赖人类专家手工打标来评估LLM应用性能，既费时又费力。那么，有没有什么方法可以让助手自己学会评估自己的回答呢？最近，Meta FAIR一项新的研究提出了一种创新的方法，让大型语言模型（LLM）评估器能够自我学习和提升，而无需依赖昂贵的人工标注数据。这个方法的核心是使用合成数据和迭代自改进技术。

挑战：昂贵且过时的人工标注数据

通常，训练 LLM 评估器需要大量的人工偏好数据，这既费时又费力。然而，这种方法有两个主要问题：

成本高昂：获取高质量的人工标注数据需要大量的时间和金钱。
数据过时：随着模型的不断改进，旧的数据很快就会变得过时。

创新方法：合成数据和迭代自改进

为了解决这些问题，研究人员提出了一种新的方法，该方法使用合成数据和迭代自改进技术来训练 LLM 评估器。具体来说，这个方法包括以下几个步骤：

生成对比模型输出：首先，研究人员使用未标注的指令来生成两种不同的模型输出，一种被认为是好的，另一种被认为是差的。
训练 LLM 作为法官：然后，他们训练 LLM 来扮演法官的角色，对这两组输出进行评估，并给出判断。
迭代自改进：这个过程会不断重复，每次都使用上一次训练得到的更好的模型来进行评估，从而实现自我改进。

优势：无需人工标注，性能提升

这种方法的优势在于，它不需要任何人工标注的数据，同时还能显著提升 LLM 评估器的性能。实验结果表明，这种方法可以将 LLM 在RewardBench 上的准确率从 75.4 提高到 88.3，甚至在使用多数投票的情况下可以达到 88.7 。这比 GPT-4 的84.3 还要高，并且与使用人工标注数据训练的顶级奖励模型相媲美。

实验结果：性能显著提升

研究人员在多个数据集上进行了实验，包括 RewardBench 和MT-Bench 。结果表明，他们的方法在这些数据集上都取得了显著的性能提升。

RewardBench：将 LLM 的准确率从 75.4 提高到 88.3，在使用多数投票的情况下可以达到 88.7 。

MT-Bench：与人类判断的一致性达到 79.5%，而 GPT-4 的一致性为 79.1%。

总结：LLM 评估器的未来

这项研究表明，合成数据和迭代自改进技术为 LLM 评估器的训练提供了一种新的途径。这种方法不仅节省了成本，而且提高了评估器的性能。未来，这种方法可能会被广泛应用于 LLM 的训练和评估中。

想了解更多，可以阅读他们的论文：Self-Taught Evaluators^[1]。

参考资料

[1]

Self-Taught Evaluators: https://arxiv.org/pdf/2408.02666

近期原创文章：

后台回复“进群”入群讨论

AI工程化

专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。

最新文章

AirLLM：突破显存限制，让 4GB GPU 也能运行 70B 大模型

超越v0chat，开源的AI前端开发神器——screenshot-to-code

Anthropic提出的Contextual RAG开源实现Open Contextual RAG来了

Claude 3.5 Sonnet登陆Github，Cursor亚历山大

chromem-go：零依赖嵌入式向量数据库，Go 开发者的新宠！

RAGChecker:显著超越RAGAS，一个精细化评估和诊断 RAG 系统的创新框架

微软 OmniParser：超越GPT4V的视觉屏幕界面解析利器

为什么大模型会算错“9.11与9.8谁大？”，这个可观测工具帮你一探究竟

Meta 发布 Llama 3.2 1B和3B版本：推理速度翻倍，模型更轻

探索 Claude Artifacts 的无限可能：一周内构建的14个实用工具

最快体验 Claude 3.5 Sonnet 控制电脑方法来了！

国内首部AI知识产权标准启动编制，诚邀科技企业、律所律师、知产服务机构参编！

Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

mPLUG-DocOwl 1.5：无需 OCR 原生理解解析各种结构文档

开源向量数据库性能对比: Milvus, Chroma, Qdrant

重磅消息：Claude 3.5 系列模型大更新及革命性增加计算机使用能力

AIGC利器ComfyUI V1 发布：简化安装，跨平台支持，非技术用户福音

每天写代码：Jquery作者John Resig透露程序员高产秘诀

超简单！手把手从零构建神经网络

StructRAG：超越GraphRAG，知识密集型 RAG 性能提升的新思路

一个 Python 文件实现 Perplexity 搜索?

Agora 协议:打造Agent互联网的第一步

Zerox：gpt-4o-mini 加持的零配置高效 OCR 神器

OpenAI：AI不仅仅对你名字有偏见，这些方面也差别对待

Google AI 助手 NotebookLM 正式发布：多模态理解能力大幅提升

Mistral AI 发布革命性边缘模型 Ministral 3B 和8B：性能与隐私双料俱佳

NVIDIA 发布 Llama 3.1 70B 模型：性能超越 Claude 3.5 和GPT-4o

Ollama 平台新功能：轻松运行 Hugging Face Hub 上的 GGUF 模型