当下,如何做好一个LLM应用有很多策略,但是要说如何评估它好不好,这方面技术却并不是很多。这里有一张图,来指导我们何种情况采取何种策略。
如果已经有手工标注的评估集了那还好说,但大多数没有,并且,这种依赖人类专家手工打标来评估LLM应用性能,既费时又费力。那么,有没有什么方法可以让助手自己学会评估自己的回答呢?最近,Meta FAIR一项新的研究提出了一种创新的方法,让大型语言模型(LLM)评估器能够自我学习和提升,而无需依赖昂贵的人工标注数据。这个方法的核心是使用合成数据和迭代自改进技术。
挑战:昂贵且过时的人工标注数据
通常,训练 LLM 评估器需要大量的人工偏好数据,这既费时又费力。然而,这种方法有两个主要问题:
成本高昂:获取高质量的人工标注数据需要大量的时间和金钱。 数据过时:随着模型的不断改进,旧的数据很快就会变得过时。
创新方法:合成数据和迭代自改进
为了解决这些问题,研究人员提出了一种新的方法,该方法使用合成数据和迭代自改进技术来训练 LLM 评估器。具体来说,这个方法包括以下几个步骤:
生成对比模型输出:首先,研究人员使用未标注的指令来生成两种不同的模型输出,一种被认为是好的,另一种被认为是差的。 训练 LLM 作为法官:然后,他们训练 LLM 来扮演法官的角色,对这两组输出进行评估,并给出判断。 迭代自改进:这个过程会不断重复,每次都使用上一次训练得到的更好的模型来进行评估,从而实现自我改进。
优势:无需人工标注,性能提升
这种方法的优势在于,它不需要任何人工标注的数据,同时还能显著提升 LLM 评估器的性能。实验结果表明,这种方法可以将 LLM 在RewardBench 上的准确率从 75.4 提高到 88.3,甚至在使用多数投票的情况下可以达到 88.7 。这比 GPT-4 的84.3 还要高,并且与使用人工标注数据训练的顶级奖励模型相媲美。
实验结果:性能显著提升
研究人员在多个数据集上进行了实验,包括 RewardBench 和MT-Bench 。结果表明,他们的方法在这些数据集上都取得了显著的性能提升。
RewardBench:将 LLM 的准确率从 75.4 提高到 88.3,在使用多数投票的情况下可以达到 88.7 。
MT-Bench:与人类判断的一致性达到 79.5%,而 GPT-4 的一致性为 79.1%。
这项研究表明,合成数据和迭代自改进技术为 LLM 评估器的训练提供了一种新的途径。这种方法不仅节省了成本,而且提高了评估器的性能。未来,这种方法可能会被广泛应用于 LLM 的训练和评估中。
想了解更多,可以阅读他们的论文:Self-Taught Evaluators[1]。
参考资料
Self-Taught Evaluators: https://arxiv.org/pdf/2408.02666
近期原创文章:
Swarm:一个OpenAI开源的multiAgent框架,简单哲学的代表 为什么 AI 在数学题前抓瞎?苹果研究揭示 AI 推理能力的局限性 为什么LLM无法真正推理?OpenAI的o1也无法改变这一事实 原创 克制大模型怪脾气的新招——基于意图的提示校准降低LLM提示敏感度问题,让大模型表现更稳定 原创 Anthropic提出Contextual Retrieval让RAG再进化,大幅降低检索失败率 原创 测试时计算vs.预训练计算:LLM进化的重大转折 原创 AI"破解"AI:来自Claude协助的OpenAI o1模型架构图 OpenAI o1模型推理能力大幅提升的背后:重复采样如何提升AI推理能力 OpenAI前研究科学家开源面向未来的提示工程库 ell,重新定义提示工程 揭秘MemoRAG:AI记忆模块如何提升生成质量
后台回复“进群”入群讨论
橱窗有更多精选好书,欢迎光临!