司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

2024-11-21 17:08 上海

主要概览

司南 OpenCompass 大语言模型官方自建榜单（11月榜）评测拟定于12月上旬发布，现诚挚邀请新合作方参与评测。随着近期大语言模型技术能力的高速发展，全面合理地评估其能力变得尤为关键。司南在本次评测中设计了六大评测维度：语言、推理、知识、代码、数学和指令跟随，旨在全面评估大语言模型的综合能力。本次评测不仅覆盖了这些维度，还在细分能力上进行了更新与扩展，以确保对模型能力的精确衡量，并提供客观、全面的评测结果。诚挚欢迎新加入的模型厂商、组织机构申请参与评测，共同推动大模型技术的发展与创新。

评测维度

司南 OpenCompass 大语言模型官方自建评测榜单，综合评估商业 API 模型和开源模型在语言、推理、知识、代码、数学、指令跟随六大能力维度，这六个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试等十余项细分任务，力图对行业开源模型和商业 API 模型进行全面评测分析。

随着社区模型能力的不断增强，本次榜单将有以下更新：

在推理、数学、代码等能力上进行了更新拓展，增加了包括数学竞赛、复杂推理、代码生成和执行等任务。
在主观评测上，使用 CompassJudger 作为辅助评价模型对开放式问题进行评分，同时引入多次采样和位置互换等手段提升评测结果的准确性。

CompassJudger 是司南 OpenCompass 团队研发的评价大模型，能够完成单条回复评分、复杂指令跟随、内容评价及多轮对话等多样化的评测任务，欢迎下载试用。
https://huggingface.co/opencompass/CompassJudger-1-32B-Instruct

能力	任务介绍
语言	评测模型在信息抽取、信息抽取、内容总结、对话、创作等多种任务上的能力
推理	评测模型在逻辑推理、常识推理、表格推理、形式化推理等多种日常推理任务上的能力
知识	评测模型在理科、工科、人文社科等多个领域的知识水平
数学	评测模型在数值计算、高中、大学和竞赛级别难度的数学问题上的能力
代码	评测模型在代码生成、代码补全、代码重构、代码执行、计算机知识综合问答上的能力
指令跟随	评测模型在基于各类语言、推理、知识等任务中，能否准确遵循复杂指令的能力

评测模型类型

开源模型

开源模型参与榜单评测，请提供 Hugging Face 或 ModelScope 公开模型权重仓库链接

已提供商业化服务，可访问的 API 模型

API 模型参与评测，提供 API 网址链接，并写明模型版本
若为 API 模型，请务必提前向 OpenCompass 提交 PullRequest，加入贵司 API 的实现，可以参考类似实现 https://github.com/open-compass/opencompass/tree/main/configs/api_examples

申请方法

新加入的模型厂商、组织机构可在 11 月 25 日前写邮件至 opencompass@pjlab.org.cn 申请评测。请在邮件内附上下述信息，以便我们尽快与您对接。邮件内容需包括：

申请单位信息
模型简介
联系人和所属部门
联系方式
模型类型
该模型类型对应需要提供的信息
（详见：评测模型类型）

*已经提供对外服务且参与过司南评测的模型，司南后续更新榜单时默认对最新版本模型进行评测。

注意事项

大语言模型官方自建榜评测榜单将于 2024 年 12 月上旬发布 2024 年 11 月榜单
新模型厂商若想参与该月榜单评测，可在当月25日前申请加入司南 OpenCompass 月度评测榜单
加入司南 OpenCompass 评测的结果默认公开；已经提供对外服务且参与过评测的模型，后续更新榜单时默认进行评测
仅支持开源或对外提供 API 服务商业化模型（内部迭代研发模型暂不支持评测）

联系我们

更多信息可参考：

司南 OpenCompass 榜单建设及发布规则（https://opencompass.org.cn/rule）

申请本次评测参与或有任何疑问，请联系：opencompass@pjlab.org.cn

点击下方卡片，关注我们，获取大模型评测相关最新信息。

http://mp.weixin.qq.com/s?__biz=MzkxNTYxMjU1Mw==&mid=2247487373&idx=1&sn=d61652c4f6535d8d9f8852f4ebb28b28

传神社区

该账号是开放传神（OpenCSG）分享大模型的技术、见解、传神开放社区等方面的内容！

最新文章

Meetup回顾 | 大模型全生命周期管理与AI应用的全栈可观测性

司南 OpenCompass 11月大语言模型评测即将启动，欢迎新合作厂商申请评测！

论文中心｜第31期人工智能领域论文推荐

超越GPT-4o的开源巅峰！Pixtral Large多模态模型重磅登场

RMBG 2.0 ：让图片抠图更简单，史上最强开源背景移除模型

OpenCoder：开源代码大模型，推动编程AI的未来

CodeSouler v1.11.0 版本更新

倒计时2天！大模型全生命周期管理与AI应用的全栈可观测性圆桌议题公布

CSGHub All-in-One Docker 快速部署

重磅揭秘！Auto CSGHub内测视频曝光 | 国产版 HuggingFace+ 引领智能化升级

算力补贴累计超亿元！模速空间“浓缩”上海大模型产业链

报名开始｜《大模型全生命周期管理与AI应用的全栈可观测性》上海站

微软OmniParser：一切皆文档，OCR驱动智能操作

从文本到动态视频：Allegro模型让创意更轻松

传神论文中心｜第30期人工智能领域论文推荐

超快速，高性能！Meta发布移动端MobileLLM

DataFlow v202410 版本更新一站式数据处理平台

OpenCSG与传神社区的创新瞬间

OpenCSG传神社区月度功能更新

突破语言壁垒：Cohere 发布多语言大模型 Aya Expanse

Stable Diffusion 3.5震撼发布：三大版本满足多层次AI图像生成需求

OpenCSG携手书生·浦语：InternLM2.5-20B-Chat 正式上线，共建AI未来新生态

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

无需依赖闭源模型！司南CompassJudger为AI评测带来新选择

CSGHub SaaS快速入门指南

Mochi 1视频生成模型亮相：动作流畅，开放源代码

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

传神论文中心｜第29期人工智能领域论文推荐

重磅升级 | OpenCSG开源中文版fineweb edu v2数据集

英伟达推出Nemotron-70B：强大开源语言模型，基准测试中全面领先！

直播预告｜未来视界：多模态AI的创新与挑战

苹果开源Depth Pro：0.3秒实现从2D图像到3D深度图的革命性突破

传神论文中心｜第28期人工智能领域论文推荐

2B参数搞定高质量视频！北大&快手携手打造Pyramid Flow

直播预告｜当A股疯涨挑战经典金额理论，大模型能否作为一个“理性投资人”？

CodeSouler v1.0.8 版本更新

传神论文中心｜第27期人工智能领域论文推荐

OpenCSG传神社区月度功能更新

OpenCSG开源数据集再次登顶HF数据榜

OpenCSG DataFlow：锻造大模型智慧的炼金术，开启数据集Agentic新范式

微软推出GRIN-MoE：开创专家路由新范式

Llama 3.2：轻量级设计与多模态能力

英伟达发布NVLM 1.0：屠榜多模态任务，纯文本性能逆势提升

高效、精准、智能：GOT-OCR2.0引领OCR 2.0时代

传神论文中心｜第26期人工智能领域论文推荐

超越极限！Qwen2.5 助力多领域智能应用

年度巨献 | OpenCSG开源最大中文合成数据集Chinese Cosmopedia

CSGHub开源版本v0.9.0更新

传神论文中心｜第25期人工智能领域论文推荐

Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉