前沿科技速递🚀
近期,司南OpenCompass团队发布了一款开源的全能评价模型——CompassJudger。这是全球首个全能开源的 All-in-one Judge Model,不仅支持主流的双向对比(pair-wise)和单向评分(point-wise)评价方式,还具备详细的评价理由输出能力。尤其是 32B 版本,在评测准确率上已经达到了 GPT-4o 的 95% 以上。
司南 OpenCompass 研究团队近日发布了全球首款开源的 All-in-one Judge Model —— CompassJudger。这款模型由多个不同尺寸的版本组成,包括 1.5B、7B、14B 和 32B,能够替代闭源模型,在模型评测方面表现出色。32B 版本甚至达到了 GPT-4o 95% 以上的主观评测能力。CompassJudger 是专为评估大语言模型(LLM)性能的多任务开源评测工具,具备独特的多任务和泛化能力,既能节省评测成本,也能在研究中广泛应用。
1. 全面支持多种评测任务,涵盖从简单评分到复杂分析
CompassJudger 不只是简单的评分工具,它可以执行从多回复选择到单条回复评分、复杂指令跟随、内容评价及多轮对话的多样化任务。这意味着它可以替代传统闭源模型,如 GPT-4o,不仅降低了评测成本,也提升了评测的透明性和复现性。在复杂的主观评价任务中,如帮助人类评估对话质量、推理准确性和指令完成度,CompassJudger 均表现出色。
2. JudgerBench 测试基准,确保评测准确性和一致性
为保证 CompassJudger 的性能和精准性,研究团队还构建了 JudgerBench,这是一个专门用于评价评测模型的多维度基准。JudgerBench 分为两部分:Arena 部分考察模型的基本判断能力,而 Benchmark 部分则衡量模型在特定任务上的评价一致性。JudgerBench 的中英文数据集涵盖了单轮与多轮对话、推理和指令跟随等类别,通过人工审核确保类别平衡,最大限度地模拟真实的评测场景。
3. 数据来源多样,优化的训练策略
CompassJudger 使用了多种数据源训练,包括开源评价数据、自收集数据和奖励数据,为模型提供了全面的数据支持。其数据集经过精心的筛选和分类,优化了平衡采样策略以避免数据偏差。研究团队平衡了评价数据、奖励数据和通用 SFT 数据的比例,确保模型既能保持在特定任务的高性能表现,又具有较强的泛化能力。此外,团队还使用了 Qwen2.5-72B 等强力模型进行数据重新标注和预处理,进一步提升了数据质量。
4. 超越多个主流开源模型,达成 GPT-4o 水准
CompassJudger 系列在多项评测任务中均达到了顶尖水平。其在 JudgerBench 和 RewardBench 的测试结果表明,CompassJudger 能有效评估中英文对话、数学推理、代码逻辑等多种类型的主观数据,特别是 32B 版本的评价性能已接近 GPT-4o,成为现有开源模型中的佼佼者。它在中英文领域的对话推理、指令准确性和复杂指令任务中表现尤为突出,满足科研和产品开发中的主观评测需求。
03 使用 CompassJudger 的三大好处
1. 节省成本,透明评测
2. 提高评测效率,减少主观误差
3. 推动社区研究,支持模型迭代
04 模型下载
欢迎加入传神社区
•贡献代码,与我们一同共建更好的OpenCSG
•Github主页
欢迎🌟:https://github.com/OpenCSGs
•Huggingface主页
欢迎下载:https://huggingface.co/opencsg
•加入我们的用户交流群,分享经验
扫描上方二维码添加传神小助手
“ 关于OpenCSG
关注OpenCSG
加入传神社区