Meta:无需人工标注,LLM 评估器也能自我提升?

文摘   2024-10-14 13:16   北京  

当下,如何做好一个LLM应用有很多策略,但是要说如何评估它好不好,这方面技术却并不是很多。这里有一张图,来指导我们何种情况采取何种策略。

如果已经有手工标注的评估集了那还好说,但大多数没有,并且,这种依赖人类专家手工打标来评估LLM应用性能,既费时又费力。那么,有没有什么方法可以让助手自己学会评估自己的回答呢?最近,Meta FAIR一项新的研究提出了一种创新的方法,让大型语言模型(LLM)评估器能够自我学习和提升,而无需依赖昂贵的人工标注数据。这个方法的核心是使用合成数据和迭代自改进技术。

挑战:昂贵且过时的人工标注数据

通常,训练 LLM 评估器需要大量的人工偏好数据,这既费时又费力。然而,这种方法有两个主要问题:

  1. 成本高昂:获取高质量的人工标注数据需要大量的时间和金钱。
  2. 数据过时:随着模型的不断改进,旧的数据很快就会变得过时。

创新方法:合成数据和迭代自改进

为了解决这些问题,研究人员提出了一种新的方法,该方法使用合成数据和迭代自改进技术来训练 LLM 评估器。具体来说,这个方法包括以下几个步骤:

  1. 生成对比模型输出:首先,研究人员使用未标注的指令来生成两种不同的模型输出,一种被认为是好的,另一种被认为是差的。
  2. 训练 LLM 作为法官:然后,他们训练 LLM 来扮演法官的角色,对这两组输出进行评估,并给出判断。
  3. 迭代自改进:这个过程会不断重复,每次都使用上一次训练得到的更好的模型来进行评估,从而实现自我改进。

优势:无需人工标注,性能提升

这种方法的优势在于,它不需要任何人工标注的数据,同时还能显著提升 LLM 评估器的性能。实验结果表明,这种方法可以将 LLM 在RewardBench 上的准确率从 75.4 提高到 88.3,甚至在使用多数投票的情况下可以达到 88.7 。这比 GPT-4 的84.3 还要高,并且与使用人工标注数据训练的顶级奖励模型相媲美。

实验结果:性能显著提升

研究人员在多个数据集上进行了实验,包括 RewardBench 和MT-Bench 。结果表明,他们的方法在这些数据集上都取得了显著的性能提升。

  • RewardBench:将 LLM 的准确率从 75.4 提高到 88.3,在使用多数投票的情况下可以达到 88.7 。
  • MT-Bench:与人类判断的一致性达到 79.5%,而 GPT-4 的一致性为 79.1%。

总结:LLM 评估器的未来

这项研究表明,合成数据和迭代自改进技术为 LLM 评估器的训练提供了一种新的途径。这种方法不仅节省了成本,而且提高了评估器的性能。未来,这种方法可能会被广泛应用于 LLM 的训练和评估中。

想了解更多,可以阅读他们的论文:Self-Taught Evaluators[1]

参考资料

[1]

Self-Taught Evaluators: https://arxiv.org/pdf/2408.02666

近期原创文章:

后台回复“进群”入群讨论

橱窗有更多精选好书,欢迎光临!

AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
 最新文章