社区供稿|还在 GPT-4o 进行评测么?快来试试开源评价大模型 CompassJudger

文摘   2024-10-24 10:30   广东  

近日,司南 OpenCompass 研究团队发布了一个 开源All-in-one Judge Model——CompassJudger 系列,包含 1.5B7B14B 32B 共四个量级的模型,其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力,支持 pair-wise/point-wise 多种评价方式,更能输出详细的评价理由。


技术报告地址

https://arxiv.org/abs/2410.16256

HuggingFace 模型权重地址

https://huggingface.co/opencompass

GitHub 地址

https://github.com/open-compass/CompassJudger

JudgerBench 榜单地址

https://huggingface.co/spaces/opencompass/judgerbench_leaderboard





什么是 All-in-one Judge Model?





在进行主观评测的过程中,通常需要一个 Judge Model 来对待测模型的回复进行评分或比较,从而代替人类来进行这一评价工作,得到待测模型在各类主观题上的得分。过去,这往往是由能力较强的闭源模型如 GPT4 来进行的,GPT4 也因此成为了在 AlignBench,AlpacaEval,ArenaHard 等数据集上的标准评测模型。然而,在科学研究和模型迭代的过程中,往往需要进行大规模的评测,而使用闭源模型的成本非常高昂。


All-in-one 评价模型目标是能够完成并胜任多种不同的评价任务,在包括多回复选择单回复打分复杂指令跟随回复内容评价修改等多种任务上实现良好表现。目前社区已经研发了一些 Judge Model 如 CritiqueLLM,Auto-J 等,但这些评价模型只专注在某个数据集上使用。此外,评价模型也受到了国内外大型科技公司的广泛关注,如 Google 发布了其评价模型 FLAMe,但该模型和数据尚未公开。Meta 也发布了Self-taught Model,但目前也主要集中在 Pair-wise 的评价。


司南研究团队凭借在模型评测和数据分析领域的深厚积累,研发了 CompassJudger。为了推动相关领域的探索和研究,开源多个不同尺寸的模型来助力相关方向的探索和研究,也使得用户可以更便捷地进行模型训练、测试和优化。






数据收集过程




在模型训练的过程中最重要的流程是数据的收集与处理。于是在训练 CompassJudger的过程中,我们针对三种来源的数据,进行了以下处理:




开源评价数据:对于收集到的开源 judge 数据,我们首先按照数据集的时间筛选出一批较老的数据,这些数据由例如较早版本的 ChatGPT 进行 judge,评价质量亟待改善。因此我们使用当前的较强开源模型 (Qwen2.5-72B-Instruct) 作为 processor 进行了重新 judge。我们同时利用 processor 给每条数据打上类别标签,按照类别和数据集的数量进行了重新采样以保证最终的数据平衡。


Reward数据社区已经开源了大量用于训练 Reward Model 的训练数据,我们在实验中也发现大量的 Reward 数据能给模型带来 judge 能力的提升,但同时也会因输出格式过于单一导致模型坍塌,变为只能输出固定格式,失去了作为通用 judge model 的价值。因此我们采样部分 Reward 数据用于模型训练,并针对数学等题目类型添加了评价理由。


通用SFT数据:此外,为了更加保持模型的泛化能力,我们依然加入了通用 SFT 数据进行训练,经过我们的实验,平衡了最终的数据比例为 judge 数据:reward 数据:sft 数据=1:3:1,并选用了目前开源 Qwen2.5 系列模型进行 CompassJudger 的训练。




JudgerBench




在模型研发中,我们为了跟踪 CompassJudger 的性能表现,研发了 JudgerBench 来进行模型能力的分析。



JudgerBench 旨在衡量模型的评价能力的优劣,主要由 Arena PartBenchmark Part 两个部分组成。Arena Part 与 RewardBench 类似,考察模型的直接 Judge 的能力,只要求模型输出[[A]]或[[B]]的 judge 结果即可,共有中英文两个部分,并经过严格的人工审核和类别平衡,包含多轮和单轮对话以及十个类别,是非常平衡完备的一个测试基准。Benchbark 则是采集了常用的主观数据集(AlignBench,ArenaHard,FoFo,WildBemch)收集了 10 个性能相近的模型在这些数据集上的回复,再利用 GPT-4o 进行 judge,将其评价结果作为比较基准,统计其他模型的评价结果与之的差异。在 Benchmark Part 中我们使用了准确率和皮尔森相关性作为两个衡量的指标,更加完备均衡的展现模型的评价性能。




CompassJudger 性能表现




我们在 RewardBench 和 JudgerBench 上对 CompassJudger 系列模型进行了分析和评价,从表中我们可以看出,CompassJudger 系列在通用评价性能方面表现出色,其最终评价得分在所有开源模型中位居前列,并达到了GPT-4o 95%以上的水准,是兼具多种任务能力的All-in-one Judge Model






展望




此外,一个好的 All-in-one 的 judge Model 需要具备多种任务能力,例如可以利用自己的 Critique 能力指出模型在主观问答上的缺点,从而进行有针对性的改善,引导模型做出更优质的回复,促进模型进行迭代。目前,JudgerBench 和 CompassJudger 均已开源,欢迎社区用户尝试和探索。




本文由 Hugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号: 

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

Hugging Face
The AI community building the future.
 最新文章