司南 OpenCompass 11月大语言模型评测即将启动,欢迎新合作厂商申请评测!

2024-11-21 17:08   上海  



主要概览




司南 OpenCompass 大语言模型官方自建榜单(11月榜)评测拟定于12月上旬发布,现诚挚邀请新合作方参与评测。随着近期大语言模型技术能力的高速发展,全面合理地评估其能力变得尤为关键。司南在本次评测中设计了六大评测维度:语言、推理、知识、代码、数学和指令跟随,旨在全面评估大语言模型的综合能力。本次评测不仅覆盖了这些维度,还在细分能力上进行了更新与扩展,以确保对模型能力的精确衡量,并提供客观、全面的评测结果。诚挚欢迎新加入的模型厂商、组织机构申请参与评测,共同推动大模型技术的发展与创新。



评测维度




司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在语言、推理、知识、代码、数学、指令跟随六大能力维度,这六个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。

随着社区模型能力的不断增强,本次榜单将有以下更新
  1. 在推理、数学、代码等能力上进行了更新拓展,增加了包括数学竞赛、复杂推理、代码生成执行等任务。

  2. 在主观评测上,使用 CompassJudger 作为辅助评价模型对开放式问题进行评分,同时引入多次采样和位置互换等手段提升评测结果的准确性。

CompassJudger 是司南 OpenCompass 团队研发的评价大模型,能够完成单条回复评分、复杂指令跟随、内容评价及多轮对话等多样化的评测任务,欢迎下载试用。

https://huggingface.co/opencompass/CompassJudger-1-32B-Instruct 

能力

任务介绍

语言

评测模型在信息抽取、信息抽取、内容总结、对话、创作等多种任务上的能力

推理

评测模型在逻辑推理、常识推理、表格推理、形式化推理等多种日常推理任务上的能力

知识

评测模型在理科、工科、人文社科等多个领域的知识水平

数学

评测模型在数值计算、高中、大学和竞赛级别难度的数学问题上的能力

代码

评测模型在代码生成、代码补全、代码重构、代码执行、计算机知识综合问答上的能力

指令跟随


评测模型在基于各类语言、推理、知识等任务中,能否准确遵循复杂指令的能力





评测模型类型




开源模型

开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 公开模型权重仓库链接


已提供商业化服务,可访问的 API 模型


  • API 模型参与评测,提供 API 网址链接,并写明模型版本


  • 若为 API 模型,请务必提前向 OpenCompass 提交 PullRequest,加入贵司 API 的实现,可以参考类似实现 https://github.com/open-compass/opencompass/tree/main/configs/api_examples



申请方法




新加入的模型厂商、组织机构可在 11 月 25 日前 写邮件至 opencompass@pjlab.org.cn 申请评测。请在邮件内附上下述信息,以便我们尽快与您对接。邮件内容需包括:
  • 申请单位信息

  • 模型简介

  • 联系人和所属部门

  • 联系方式

  • 模型类型

  • 该模型类型对应需要提供的信息

    (详见:评测模型类型)

*已经提供对外服务且参与过司南评测的模型,司南后续更新榜单时默认对最新版本模型进行评测。




注意事项




  1. 大语言模型官方自建榜评测榜单将于 2024 年 12 月上旬发布 2024 年 11 月榜单

  2. 新模型厂商若想参与该月榜单评测,可在当月25日前申请加入司南 OpenCompass 月度评测榜单

  3. 加入司南 OpenCompass 评测的结果默认公开;已经提供对外服务且参与过评测的模型,后续更新榜单时默认进行评测
  4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测)




联系我们




更多信息可参考


司南 OpenCompass 榜单建设及发布规则(https://opencompass.org.cn/rule)


申请本次评测参与或有任何疑问,请联系:opencompass@pjlab.org.cn




点击下方卡片,关注我们,获取大模型评测相关最新信息。


传神社区
该账号是开放传神(OpenCSG)分享大模型的技术、见解、传神开放社区等方面的内容!
 最新文章