国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

文摘 2024-11-18 16:32 浙江

测评团队｜SuperCLUE

近期，SuperCLUE发布了《中文大模型基准测评2024年10月报告》，重点评估了国内外43个大模型，在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析开源模型在不同维度下的详细表现。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址：

www.superclueai.com

#全球闭源模型TOP和开源模型对比

分析1：中文场景下，头部开源模型具备较强竞争力，接近头部闭源模型

10月SuperCLUE基准测评涵盖了21个代表性开源大模型。全球闭源模型Top5的平均线为10月测评中取得前5名（包括海外模型）的大模型的平均值。

通过测评结果可以发现，Qwen2.5-72B-Instruct在中文环境下领跑全球开源模型。Qwen2.5-72B-Instruct取得总分68.90分，和全球闭源模型Top5平均线相差2.34分，这表明国内开源模型的顶尖水平和全球闭源模型Top5的平均水平接近。

#海外开源和国内开源的对比

分析2：中文场景上国内开源模型表现优于国外开源模型

10月SuperCLUE基准测评涵盖了9个海外开源大模型和12个国内开源大模型。

由图可知，Qwen2.5-72B-Instruct和DeepSeek-V2.5，较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名，有超过Llama-3.1-70B-Instruct的表现。MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。

#开源模型在三大维度上的表现情况和特性

分析3：中文高难度Hard任务上，开源大模型整体能力有待加强。

在中文高难度Hard任务（高阶推理和精确指令遵循）上，Qwen2.5-72B-Instruct、Llama-3.1-405B-Instruct和DeepSeek-V2.5得分均低于50分，和顶尖模型（o1-preview）相差近20分。

在Hard的二级维度中，Qwen系列模型的Qwen2.5-72B-Instruct在指令遵循上超过20分，其余最高10.42分；在高阶推理上，接近70分，其余均在20分以上。

在Hard的二级维度中，Llama系列模型的Llama-3.1-405B-Instruct在指令遵循上超过30分，高于Qwen系列，其余最高10；在高阶推理上，接近60分。Llama-3.1-70B-Instruct的表现优于Llama-3.1-90B-Instruct，和Llama-3.1-405B-Instruct在高阶推理上得分接近。

分析4：中文理科任务上，开源大模型实力强劲。

在中文理科任务上，开源模型表现强劲。代表模型Qwen2.5-72B-Instruct获得83.12分，表现突出。紧随其后的还有DeepSeek-V2.5和Llama-3.1-405B-Instruct。其余均分在60分左右。

分析5：文科任务上，开源大模型总体水平接近。

在文科任务上，国内外头部开源大模型均处于70-80分之间，总体上无明显差异。

报告完整详细内容，可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

更多10月SuperCLUE基准报告详情，可加入交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 报告地址：www.cluebenchmarks.com/superclue_2410

点击阅读原文，查看完整报告

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247555276&idx=1&sn=623968f0150731627606a1ce1bc9d168

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

语音合成大模型测评基准（方案）发布

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉