司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

科技 2024-10-21 11:34 北京

9月大语言模型评测榜单

司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测，现公布 2024 年 9 月大语言模型评测榜单！

本次榜单囊括了国内外共 30 个大语言模型，包含国内外主流闭源模型和社区开源模型。

相较于 7 月榜单，本次榜单的主要更新包括：

新增 GPT-4o-20240806, Step-2-16k 万亿参数大模型, Doubao-pro-32k-240828等闭源模型，Qwen2.5系列，Mistral-Small-Instruct-2409，Llama-3.2系列等开源模型。
对测试数据集进行了迭代优化，整合了来自 CompassArena 的真实用户提问、最新的维基百科知识，以及涵盖国内外各类数学考试的真实试题等高质量数据来源。

月度榜单评测基准

司南 OpenCompass 自建的评测榜单，综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体 七大能力维度，这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务，力图对近期的主流开源模型和商业 API 模型进行全面评测分析。

*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言（10%）、推理（20%）、知识（10%）、代码（20%）、数学（20%）、指令跟随（10%）、智能体（10%）

9月榜单概览

9月榜单解读

开源模型荣登榜首

Qwen2.5-72B-Instruct 以其优异的综合表现，问鼎 9 月榜单榜首位置。这是开源模型首次占据榜首，标志着开源社区在模型领域取得快速进展。

国内外模型差距显著缩小

以 Qwen 2.5、Step-2-16k、豆包为代表的国产主流厂商模型，在经历最新一轮技术迭代后，其性能有了显著提升，与国际顶尖模型之间的差距正在快速缩小，展现了国产模型的强大竞争力。

大参数模型持续引领潮流

DeepSeek-V2.5（236B）、阶跃星辰 Step-2-16（万亿参数）等大参数模型占据着榜单的前列位置。

评测题目示例

以下提供部分测试样例的问题和模型回复

代码类

Question

用一行 Python 代码和 lambda 函数以及列表推导式来获取从 1 到 200 的质数列表

QWen2.5-72B-Instruct Response

可以使用一行 Python 代码结合 lambda 函数和列表推导式来生成从 1 到 200 的质数列表，如下所示：

```pythonprimes = [n for n in range(2, 201) if all(map(lambda x: n % x != 0, range(2, int(n**0.5) + 1)))]```

这段代码首先定义了一个范围从 2 到 200 的数字列表，然后使用列表推导式和`all`函数结合`map`和lambda函数来检查每个数字是否为质数。`all`函数确保了如果`n`不能被 2 到`sqrt(n)`之间的任何数整除，则`n`是质数。这里使用`int(n**0.5) + 1`来优化性能，因为如果`n`不是质数，它必定有一个因子小于或等于其平方根。

GPT-4o-0806 Response

你可以使用以下一行 Python 代码来获取从 1 到 200 的质数列表：

```pythonprimes = list(filter(lambda x: all(x % i != 0 for i in range(2, int(x**0.5) + 1)), range(2, 201)))```

这个代码使用 `filter` 和 `lambda` 函数来筛选出质数，并使用列表推导式来检查每个数字是否为质数。

本题目考察了模型的代码能力，要求模型不仅能够理解代码需求，还能够按照指定格式输出相关代码。
示例中提及的模型在这一任务中表现出色，不仅能准确完成代码编写，还能详细解释代码的功能和逻辑。

知识类

Question

以下是一道单项选择题，请你根据你了解的知识给出正确的答案选项。请你一步步推理并在最后用“答案选项为X”来回答，其中 X 是 ABCD 中你认为正确的选项序号

下面是你要回答的题目：

NGC 138首次被发现的时间和发现者是谁？

A. 1881年5月12日，发现者是爱德华·皮克林

B. 1873年3月20日，发现者是约翰·赫歇尔

C. 1864年8月29日，发现者是阿尔伯特·马尔夫

D. 1860年8月15日，发现者是威廉·赫歇尔

让我们一步步解决这个问题：

Qwen2.5-72B-Instruct Response

首先，我们需要了解 NGC 138的基本信息。NGC 138是一个天体的编号，属于 NGC（New General Catalogue）目录中的一个条目。NGC 目录是由约翰·路易斯·埃米尔·德雷尔在 19 世纪末编制的，包含了 7840 个深空天体，如星系、星团和星云等。

接下来，我们分析每个选项：

A. 1881年5月12日，发现者是爱德华·皮克林

- 爱德华·皮克林是哈佛天文台的主任，他在19世纪末和20世纪初对天文学做出了重要贡献，但1881年的时间点较晚，且皮克林的主要贡献在于光谱分析和女性天文学家的培养，而非直接的天体发现。

B. 1873年3月20日，发现者是约翰·赫歇尔

- 约翰·赫歇尔是19世纪著名的天文学家，他确实发现了很多天体，但他的主要工作集中在南半球的天体观测，且1873年他已去世，因此这个选项不太可能。

C. 1864年8月29日，发现者是阿尔伯特·马尔夫

- 阿尔伯特·马尔夫并不是一个广为人知的天文学家，且1864年的发现时间也较为可疑，因为NGC目录的编制工作主要在1880年代进行。

D. 1860年8月15日，发现者是威廉·赫歇尔

- 威廉·赫歇尔是18世纪末至19世纪初的著名天文学家，他发现了许多星系和星云，并且他的发现记录对后来的天文学家编制目录（如NGC目录）提供了重要资料。然而，1860年威廉·赫歇尔已经去世，因此这个时间点也不正确。

从上述分析来看，没有一个选项完全符合已知的历史事实。但是，考虑到威廉·赫歇尔对天文学的巨大贡献，以及他发现的大量天体，如果必须选择一个最接近正确的答案，D选项可能是最合理的，尽管时间上不准确。

然而，基于严格的事实，这些选项中没有一个是完全正确的。但根据题目要求，我将选择最接近正确的答案。

答案选项为D。

Doubao-Pro-32k-240828 Response

首先，关于 NGC 138这个天体，并没有足够的大众熟知的信息表明它是由威廉·赫歇尔（1738 - 1822）在 1860 年 8 月 15 日发现的。虽然威廉·赫歇尔是一位著名的天文学家，发现了众多天体，但没有资料表明他发现了 NGC 138在这个时间。同样，没有资料表明阿尔伯特·马尔夫在 1864 年 8 月 29 日发现了 NGC 138。对于约翰·赫歇尔（1792 - 1871），也没有确切的记录表明他在 1873 年 3 月 20 日发现了 NGC 138。经过查询相关的天文学数据库和资料，发现也没有证据表明爱德华·皮克林在 1881 年 5 月 12 日发现了 NGC 138。

由于缺乏确切的资料表明以上任何一个选项是正确的，无法准确回答这一问题。

该类题型考察了模型的理科知识，在互联网上已有相关公开资料可作为参考，本题正确答案为 C。
示例中提及的模型，存在不能稳定正确回答的情况，这表明大模型在知识掌握方面仍有进步的空间。

推理类

Question

张三、李四和王五参加跑步比赛，王五比李四排名靠前，李四比张三排名靠后，张三比王五排名靠前，他们三个的名次顺序是什么？

Checklist:

-回答是否清晰地阐述了每个人之间的相对名次关系？

-是否能够避免任何逻辑上的矛盾？

-回答是否正确地排列了张三、李四和王五的名次顺序？

-最终排序是否符合题目中的所有条件？

-回答是否展示了解题的过程和推理步骤？

-是否清晰地解释了为什么得到该结果？

-回答使用的语言是否简洁且易于理解？

-是否避免了复杂或模糊的表达？

-回答是否在不同部分保持了一致性，全面覆盖了题目的所有要求？

-是否在答案中避免了任何前后矛盾的结论？

QWen2.5-72B-Instruct Response

根据题目中的信息，我们可以整理出以下关系：

1. 王五比李四排名靠前。

2. 李四比张三排名靠后，这实际上与第一条信息一致，即张三比李四排名靠前。

3. 张三比王五排名靠前。

综合以上信息，可以得出：

- 张三的排名最靠前。

- 王五的排名在张三之后，但比李四靠前。

- 李四的排名最靠后。

因此，他们的名次顺序是：张三、王五、李四。

Llama 3.1-8b-Instruct Response

这个问题是一个逻辑谜题。根据题目中的描述，我们可以得出以下信息：

1. 王五比李四排名靠前。

2. 李四比张三排名靠后。

3. 张三比王五排名靠前。

这三个条件看似矛盾，因为第一个条件和第三个条件相互冲突。但是，如果我们仔细分析，可以发现这个问题实际上是没有解的。因为如果王五比李四排名靠前，而张三又比王五排名靠前，那么张三就应该是第一名。但是第二个条件又说李四比张三排名靠后，这意味着张三不可能是第一名。所以，这三个条件是相互矛盾的，无法得出一个合理的名次顺序。

因此，根据题目给出的信息，无法确定张三、李四和王五的确切名次顺序。可能是题目本身有误，或者是一个设计来迷惑人的逻辑陷阱。

本题目考察了模型的问题理解和推理能力，要求模型能够进行正确的逻辑推理。
示例中提及的模型在这一方面表现较为稳定，能够准确进行推理，但也有部分模型存在逻辑错误，这反映出它们在通用推理上的泛化能力仍有待提高。

大语言模型评测榜单注意事项：

评测榜单规则链接：

https://opencompass.org.cn/rule

1. 大语言模型官方自建榜评测榜单每两月更新一次，发布时间为下一个双月月初（下一次将于2024年12月初发布2024年11月榜单）。

2. 新模型厂商若想参与该月榜单评测，可在当月 25 日前发送邮件至 opencompass@pjlab.org.cn 申请评测申请加入司南 OpenCompass 月度评测榜单。

3. 加入司南 OpenCompass 评测的结果默认公开；已经提供对外服务且参与过评测的模型，后续更新榜单时默认进行评测。

4. 仅支持开源或对外提供 API 服务商业化模型（内部迭代研发模型暂不支持评测）。

5. 为了确保公平性，司南团队通过公开采购的方式获取了商业 API 服务，其中包括使用硅基流动平台的 DianXin-V1-Chat API。然而，由于部分 API 的稳定性问题或敏感词过滤机制，可能会导致某些问题无法获得答案，特此进行说明。

了解更多：

9 月大语言模型评测榜单已同步上线至 OpenCompass 官网，欢迎大家访问查看更详细的评测数据！

同时，司南 OpenCompass 评测过程中所用到的工具链均已在 Github 开源，诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/
https://rank.opencompass.org.cn/

版块介绍 — 产业之声

紧跟产业发展脉搏，我们汇集行业领袖与企业的真实声音，在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面，剖析成功案例背后的逻辑与挑战，并提供基于产业深度洞察的策略建议。同时，我们依托于阿里巴巴集团在人工智能领域的全面布局，分享阿里的AI产业生态和应用的实践落地，探讨技术如何重塑产业格局并推动社会经济的转型升级。

推荐阅读

Reading

1、被“套壳”割韭菜，是谁在制造AI焦虑？

2、观察｜“兼济天下”与“产业繁荣”：从中法联合声明看中国的“AI力”

3、智能背后的电能保障：GPU算力集群能源挑战的全球视角与中国应对

4、产业之声 | 阿里调研：生成式AI在电商场景的应用、前景与挑战

5、产业之声 | 生成式AI驱动的数据要素价值创造新模式

6、阿里云内部全面推行AI写代码，未来20%代码由通义灵码编写

7、安筱鹏：中国没有“百模大战”，也没有“十模大战”

8、达摩院AI助力农业育种，遗传学分析加速1000倍

9、安全治理与能力发展兼顾并重，Claude 3对中国大模型发展有哪些启示

10、【“人工智能+”深度案例】从智能工厂到ChatBI，雅戈尔的“智能+”实践

11、夸克：大模型时代，创造革新性搜索产品的探索之路

12、数字技术助力国产猕猴桃产业破解“即食”难题

13、AI驱动电商，淘天集团用科技定义商业

14、《自然·医学》刊登中国科学家关键突破：癌症筛查的黄金时代准备就绪

15、安筱鹏：制造业是AI大模型应用的主战场

16、【观点】阿里妈妈万相实验室首发上线电商进入AI上新新时代

17、数字时代组织管理工具“钉钉HCM”重磅发布

18、产业之声 | 生成式AI驱动的数据要素价值创造新模式

19、产业之声 | 生成式AI在电商场景的应用、前景与挑战

20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

21、产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

22、产业之声 | 安筱鹏：智算集群的“三个不等式”

23、“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

24、具身智能系列 | 人形机器人会替代机械臂吗？- 人形机器人在制造业中的定位与价值分析

25、产业之声｜大模型问月：首个月球科学多模态专业大模型发布

26、OpenAI o1大模型的技术、安全与应用简析 | 积跬步，虽未至千里，仍指引前行

27、产业之声 | 安筱鹏：超越AI大模型的“加拉帕戈斯”效应

http://mp.weixin.qq.com/s?__biz=MjM5NTg0NDE1Mw==&mid=2652625506&idx=1&sn=d9e4c5c8c02f4e566c7d5b4011a6ffb5

阿里研究院

依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态，总结提炼科技发展的案例实践和治理经验，为产业政策制定实施提供科技企业的智识建议。

最新文章

价值之探 | 2024世界互联网大会乌镇峰会聚焦“以人为本，智能向善”

治理之智 | 梅夏英《复杂系统与智能涌现：未来数字法研究的范式图景》| 专论

产业之声 | 1个月砸入上亿元，智能驾驶进入算力游戏

治理之智 | 合成数据在生成式人工智能时代的价值与风险

陶哲轩神预言！Transformer破解百年三体难题，凭数学直觉找到李雅普诺夫函数

治理之智 | 周汉华：论我国人工智能立法的定位

招募 1024 个人来过节，不懂代码的优先！

具身智能系列 | 摆脱“地心引力束缚”-人形机器人进厂实习背后的产业发展逻辑

司南 OpenCompass 9 月榜单揭晓！开源模型首次占据榜首！

刚刚，我们一起登上国际顶级学术期刊《Cell》

域外之见 | 加州法案：起源、演进、否决与启示

域外之见 | 北美跨境电商“低值豁免”制度改革方案研判

阿里巴巴入选2024年《财富》“改变世界”榜单

治理之智 | 检索增强：解决企业“上云用模”的数据安全隐忧

重新定义开源AI的背后：解析模型开放框架的理论

具身智能系列 | “百人大战”来临，人形机器人产业发展需要“软硬并重”

多数据中心训练：OpenAI 击败谷歌 Infra 的大计（两万字精校）

产业之声 | 安筱鹏：超越AI大模型的“加拉帕戈斯”效应

《阿里云安全白皮书2024版》发布：国内首推“安全共同体”理念

云栖十问人形机器人：具身智能如何创造“图灵时刻”？

云栖Day1重磅合集！ Qwen2.5-72B成为全球最强开源模型

吴泳铭：AI最大的想象力不在手机屏幕，而是改变物理世界

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（下篇）

OpenAI o1大模型的技术、安全与应用简析 | 积跬步，虽未至千里，仍指引前行

治理之智 | 算法影响评估的三个基本问题：制度定位、机制模式与改革启示（上篇）

治理之智｜对“数据入表”的若干思考：重视数据意识能力，回归要素价值本源

大语言模型的“智能飞轮”！阿里最新综述全面解析大模型的自进化之路

LLM的范式转移：RL带来新的 Scaling Law

产业之声｜大模型问月：首个月球科学多模态专业大模型发布

具身智能系列 | 人形机器人会替代机械臂吗？- 人形机器人在制造业中的定位与价值分析

“形”“型”合璧，恰逢其会-人形机器人是大模型技术的高级呈现形态

逐际动力发布新一代通用人形机器人CL-2，在2024世界机器人大会展示其潜力

谷歌前CEO埃里克·施密特最新论AI崛起, 全球竞争与科技演变· 万字全文

产业之声 | 安筱鹏：智算集群的“三个不等式”

治理之智 | 合成数据：模型能力跃迁的必经之路

产业之声 | “软硬兼施，以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略

模型开源不是智商税开闭源并非二选一

产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展

产业之声 | 生成式AI在电商场景的应用、前景与挑战

产业之声 | 生成式AI驱动的数据要素价值创造新模式

模型上云的数据安全保护——以Apple PCC为借鉴

大模型时代：消失的飞轮

如何应对“模型抄袭”？对“斯坦福抄袭中国大模型”事件的三重思考

价值之探 | 在生成式AI时代，我们还需要团队吗？

2024全球梦想家招募开启

价值之探 | 达摩院大模型入选AI for Good创新案例集

价值之探 | 全球首位AI胰腺癌早筛技术的受益者

治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布：大模型是数据要素价值释放的最短路径

治理之智 | 《国际论坛》贾开、俞晗之、薛澜：人工智能全球治理新阶段的特征、赤字与改革方向

域外之见 | AI 在非洲：中国社会科学院-南非金山大学走进阿里巴巴

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉