社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

文摘 2024-10-24 10:30 广东

近日，司南 OpenCompass 研究团队发布了一个开源的 All-in-one Judge Model——CompassJudger 系列，包含 1.5B、7B、14B 和 32B 共四个量级的模型，其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力，支持 pair-wise/point-wise 多种评价方式，更能输出详细的评价理由。

技术报告地址

https://arxiv.org/abs/2410.16256

HuggingFace 模型权重地址

https://huggingface.co/opencompass

GitHub 地址

https://github.com/open-compass/CompassJudger

JudgerBench 榜单地址

https://huggingface.co/spaces/opencompass/judgerbench_leaderboard

什么是 All-in-one Judge Model?

在进行主观评测的过程中，通常需要一个 Judge Model 来对待测模型的回复进行评分或比较，从而代替人类来进行这一评价工作，得到待测模型在各类主观题上的得分。过去，这往往是由能力较强的闭源模型如 GPT4 来进行的，GPT4 也因此成为了在 AlignBench，AlpacaEval，ArenaHard 等数据集上的标准评测模型。然而，在科学研究和模型迭代的过程中，往往需要进行大规模的评测，而使用闭源模型的成本非常高昂。

All-in-one 评价模型目标是能够完成并胜任多种不同的评价任务，在包括多回复选择、单回复打分、复杂指令跟随、回复内容评价修改等多种任务上实现良好表现。目前社区已经研发了一些 Judge Model 如 CritiqueLLM，Auto-J 等，但这些评价模型只专注在某个数据集上使用。此外，评价模型也受到了国内外大型科技公司的广泛关注，如 Google 发布了其评价模型 FLAMe，但该模型和数据尚未公开。Meta 也发布了Self-taught Model，但目前也主要集中在 Pair-wise 的评价。

司南研究团队凭借在模型评测和数据分析领域的深厚积累，研发了 CompassJudger。为了推动相关领域的探索和研究，开源多个不同尺寸的模型来助力相关方向的探索和研究，也使得用户可以更便捷地进行模型训练、测试和优化。

数据收集过程

在模型训练的过程中最重要的流程是数据的收集与处理。于是在训练 CompassJudger的过程中，我们针对三种来源的数据，进行了以下处理：

开源评价数据：对于收集到的开源 judge 数据，我们首先按照数据集的时间筛选出一批较老的数据，这些数据由例如较早版本的 ChatGPT 进行 judge，评价质量亟待改善。因此我们使用当前的较强开源模型 (Qwen2.5-72B-Instruct) 作为 processor 进行了重新 judge。我们同时利用 processor 给每条数据打上类别标签，按照类别和数据集的数量进行了重新采样以保证最终的数据平衡。

Reward数据：社区已经开源了大量用于训练 Reward Model 的训练数据，我们在实验中也发现大量的 Reward 数据能给模型带来 judge 能力的提升，但同时也会因输出格式过于单一导致模型坍塌，变为只能输出固定格式，失去了作为通用 judge model 的价值。因此我们采样部分 Reward 数据用于模型训练，并针对数学等题目类型添加了评价理由。

通用SFT数据：此外，为了更加保持模型的泛化能力，我们依然加入了通用 SFT 数据进行训练，经过我们的实验，平衡了最终的数据比例为 judge 数据：reward 数据：sft 数据=1:3:1，并选用了目前开源 Qwen2.5 系列模型进行 CompassJudger 的训练。

JudgerBench

在模型研发中，我们为了跟踪 CompassJudger 的性能表现，研发了 JudgerBench 来进行模型能力的分析。

JudgerBench 旨在衡量模型的评价能力的优劣，主要由 Arena Part 和Benchmark Part 两个部分组成。Arena Part 与 RewardBench 类似，考察模型的直接 Judge 的能力，只要求模型输出[[A]]或[[B]]的 judge 结果即可，共有中英文两个部分，并经过严格的人工审核和类别平衡，包含多轮和单轮对话以及十个类别，是非常平衡完备的一个测试基准。Benchbark 则是采集了常用的主观数据集（AlignBench，ArenaHard，FoFo，WildBemch）收集了 10 个性能相近的模型在这些数据集上的回复，再利用 GPT-4o 进行 judge，将其评价结果作为比较基准，统计其他模型的评价结果与之的差异。在 Benchmark Part 中我们使用了准确率和皮尔森相关性作为两个衡量的指标，更加完备均衡的展现模型的评价性能。

CompassJudger 性能表现

我们在 RewardBench 和 JudgerBench 上对 CompassJudger 系列模型进行了分析和评价，从表中我们可以看出，CompassJudger 系列在通用评价性能方面表现出色，其最终评价得分在所有开源模型中位居前列，并达到了GPT-4o 95%以上的水准，是兼具多种任务能力的All-in-one Judge Model。

展望

此外，一个好的 All-in-one 的 judge Model 需要具备多种任务能力，例如可以利用自己的 Critique 能力指出模型在主观问答上的缺点，从而进行有针对性的改善，引导模型做出更优质的回复，促进模型进行迭代。目前，JudgerBench 和 CompassJudger 均已开源，欢迎社区用户尝试和探索。

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:
https://hf.link/tougao

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247493211&idx=1&sn=6677e9dfedd91172ec7cf5b1e4ce9b55

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉