o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

文摘 2024-11-11 15:50 浙江

测评团队｜SuperCLUE

近期，SuperCLUE发布了《中文大模型基准测评2024年10月报告》，重点评估了国内外43个大模型，在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析国外模型在不同维度下的详细表现。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址：

www.superclueai.com

#国外大模型总体表现

分析1：OpenAI和Anthropic的系列模型在中文环境下是全球最好的两个系列模型。

10月SuperCLUE基准测评涵盖了16个代表性国外大模型。国内大模型金牌平均线为10月测评中取得金牌的4个国内大模型的平均值。

通过测评结果可以发现，OpenAI和Anthropic的模型在中文环境仍然是全球最好的大模型。其中，o1-preview取得总分75.85分，有较大领先优势。Claude 3.5 Sonnet(20241022)和ChatGPT-4o-latest表现相当，均有超过70分的表现。国内大模型金牌平均线稍落后于ChatGPT-4o-latest。与此相比，Gemini系列和Llama系列模型则在中文场景下表现相对较弱。

我们将国内外头部大模型的12项基础能力表现绘制了雷达分布图。

可以发现，在指令遵循、高阶推理、计算、逻辑推理、代码能力上，海外模型有较大领先性。在文科属性较强的任务上，国内外模型表现相当。

#国外大模型Hard任务表现

分析2：中文高难度Hard任务上，o1-preview大幅领先。

在中文高难度Hard任务（高阶推理和精确指令遵循）上，o1-preview大幅领先。排名第二档的Claude 3.5 Sonnet(20241022)和ChatGPT-4o-latest有超过50分的表现，其余国内外模型均低于50分。

分析3：中文理科任务上，国外头部大模型相对领先，但区分度不大。

在中文理科任务上，o1-preview小幅领先。ChatGPT-4o-latest、Claude 3.5 Sonnet(1022)和国内大模型金牌平均线表现紧随其后。目前全球头部大模型在基础理科能力上，如计算、代码等能力上区分不明显。

分析4：文科任务上，国内外头部大模型总体无明显差异。

在文科任务上，国内外头部大模型均处于70-80分之间，总体上无明显差异。

报告完整详细内容，可点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

更多10月SuperCLUE基准报告详情，可加入交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 报告地址：www.cluebenchmarks.com/superclue_2410

点击阅读原文，查看完整报告

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247553264&idx=1&sn=275c1985bf8c32f0ca229bcb835d5510

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

语音合成大模型测评基准（方案）发布

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉