「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

文摘科技 2024-11-04 12:59 浙江

中文大模型小学奥数（SC-Math6o）测评基准发布，旨在深入评估模型的小学奥数解题能力。关注模型回答的结果正确性外，还重点考察其逻辑清晰性以及思维创造性等。涵盖了小学奥数中常见的应用题、行程题、数论、计数、几何、计算以及杂项等问题。

测评方案见：奥林匹克数学竞赛-Math6o基准测评方案发布。本次我们测评了国内外31个代表性大模型的数学能力，以下为详细测评报告。

小奥数测评摘要

测评要点1：o1-preview在小学奥数任务的表现上大幅领先

在本次测评中，o1-preview以优异成绩获得73.50分，领先所有参评模型（20分+）。在应用题、行程、数论、计数、几何、计算以及杂项等小学奥数题目中表现出色，展现了出色的推理解题能力，在多个维度上展现出卓越的综合性能。

测评要点2：国内大模型在小学奥数任务中综合表现相近，不同模型各有所长

从测评结果来看，Doubao-pro-32k-240828、Qwen2.5-72b-instruct 和Baichuan4-Turbo等国内模型综合表现相近，分数相差不大。在此次的测评中，Doubao-pro-32k-240828更擅长处理几何类题目，Qwen2.5-72b-instruct更擅长解决计数类题目，Baichuan4-Turbo更擅长应用类题目。

测评要点3：期待国内大模型的小学奥数解题综合能力加强，有追赶海外模型的势头

总体而言，相较于模型o1-preview，此次所测评国内大模型的表现尚存在一定的差距。但此次排名第一的国内模型Doubao-pro-32k-240828与海外模型Gemini-1.5-Pro-002相差2.39分，更是与chatgpt-4o-latest仅相差2.1分！国内模型综合能力有待继续加强，有望超过一些海外模型。

# 榜单概览

榜单地址：www.superclueai.com

详情请查看下方#正文。

#SuperCLUE-Math6o介绍

SuperCLUE-Math6o是中文大模型小学奥数综合性测评基准，旨在深入评估模型的数学推理能力。该测评不仅重点关注模型的结果正确性与逻辑清晰度，还考察其知识灵活性、表达清晰度等维度。测评内容涵盖了应用题、行程、数论、计数等小学奥数领域的问题，全面检验模型在数学推理任务中的表现。

测评方法

参考SuperCLUE细粒度评估方式，构建专用测评集，每个维度进行细粒度的评估并可以提供详细的反馈信息。

1）测评集构建

中文prompt构建流程：1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt；针对每一个维度构建专用的测评集。

2）评分方法

评估流程开始于模型与数据集的交互，模型需要基于提供的问题进行理解和回答。

评估标准涵盖了结果正确性、逻辑清晰度、思维创造等维度。

打分规则结合了自动化定量评分与专家复核，高效评分的同时，确保评估的科学性和公正性。

3）评分标准

SuperCLUE-Math6o 根据模型在不同标准上的表现情况，超级模型打分，综合各个标准的得分得到平均分。

我们制定的综合评分标准满分为 5 分，我们将从结果正确性、逻辑清晰度、思维创造性、表达清晰性和知识灵活性五个维度来综合评分。每个维度的满分都是5分，然后按照对应的权值进行加权平均得到最终的分数。其中结果正确性占45%，逻辑清晰度占40%，思维创造性占5%，表达清晰度占5%，知识灵活性占5%。

测评示例

问题：

三个施工队A、B、C各以一定的工作效率对一块工地进行施工。A施工队比C施工队早10天开始施工，C施工队比B施工队早5天开始施工，B施工队开始施工10天后，B、C两队的施工量是一样的。C施工队开始施工30天后，A、C两队的施工量是一样的。B施工队开始施工多少天后能与A施工队的施工量一样。

模型回答：

超级模型（GPT-4o）裁判：

对这个答案进行评估如下：

1.结果正确性（5分，权重45%）：

AI助手的回答是正确的，解答正确且合理，包含了所有必要步骤，结果得出"B施工队工作15天后与A施工队的工作量相同"。基于标准1的得分为 5 分。

得分：5/5

2.逻辑清晰度（5分，权重40%）：

AI助手的解答过程逻辑严密，解答步骤完整清晰，从开始定义变量，到建立方程，再到最终求解，层层推进，逻辑通顺。基于标准2的得分为 5 分。

得分：5/5

3.思维创造性（5分，权重5%）：

AI助手的计算步骤规范且使用了一些标准的方法，但这些方法只是常规的解题步骤，并无特别创新。基于标准3的得分为 3 分。

得分：3/5

4.表达清晰度（5分，权重5%）：

AI助手的表达大体上是清晰的，但在一些步骤和变量的表述上可以更加明确一些，特别是在定义时间和条件的地方可以有更精确的描述。基于标准4的得分为 4 分。

得分：4/5

5.知识灵活性（5分，权重5%）：

AI助手在解答过程中灵活地运用了工作量和时间的关系建立方程，并顺利求解，体现出了一定的知识灵活性。基于标准5的得分为 4 分。

得分：4/5

综合得分 = (5 * 45%) + (5 * 40%) + (3 * 5%) + (4 * 5%) + (4 * 5%) = 4.8

综合以上，AI助手的回答的综合得分为 4.8 分。（满分5分）

# 参评模型

为综合衡量当前国内外大模型在小学奥能力的发展水平，本次测评选取了13个海外模型和18个国内代表性模型。其中为进一步评估开源和闭源的不同进展，本次参评模型包括16个开源模型、15个闭源模型。

# 测评结果

总榜单

开源榜单

七大任得分

# 模型对比示例

#示例1 应用题

提示词Prompt：

模型回答比较（满分5分）：

o1-preview-2024-09-12（得分：4.85分）：

Doubao-pro-32k-240828（得分：4.35分）：

Llama3.1-8B-Instruct（得分：1.15分）：

#示例2 行程

提示词Prompt：

模型回答比较（满分5分）：

Claude-3.5-Sonnet(1022)（得分：4.4分）：

step-2-16k（得分：4.4分）：

phi-3-mini-4k（得分：1.1分）：

#示例3 数论

提示词Prompt：

模型回答比较（满分5分）：

Gemini-1.5-Pro-002（得分：4.85分）：

Baichuan4-Turbo（得分：3.9分）：

gemma-2-2b-it（得分：1.1分）：

#示例4 计数

提示词Prompt：

模型回答比较（满分5分）：

GLM-4-Plus（得分：4.35分）：

DeepSeek V2.5（得分：1.65）：

Yi-1.5-6b-chat（得分：1.15分）：

#示例5 几何

提示词Prompt：

模型回答比较（满分5分）：

Qwen2.5-72b-instruct（得分：4.4分）：

o1-mini-2024-09-12（得分：4.4分）：

Qwen2.5-0.5b-instruct（得分：0.6分）：

#示例6 计算

提示词Prompt：

模型回答比较（满分5分）：

Qwen-max-0919（得分：4.35分）：

gpt-4-turbo-2024-04-09（得分：1.6分）：

mistral-7b-v0.3（得分：0.55分）：

#示例7 奥数杂项

提示词Prompt：

模型回答比较（满分5分）：

chatgpt-4o-latest（得分：4.35分）：

Spark-4-Ultra（得分：4.35分）：

RWKV-6-World-7b（得分：0.55分）：

# 人类一致性评估

为确保大模型自动化测评的科学性，我们对 o1-preview在小学奥数评价任务中的人类一致性进行了评估。

具体操作方法为：选取5个模型，每个模型一个人进行独立打分，分别针对结果正确性、逻辑清晰度、思维创造性、表达清晰性和知识灵活性五个维度进行评分，然后按照评分标准加权求平均。我们计算每道题目人类评分与模型评分的差值，求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。

最终得到的平均结果如下：

平均差异结果为（百分制）：4.43 分

因为本次自动化评价有较高可靠性。

# 测评分析及结论

1.小学奥数综合能力，o1-preview 保持领先。

由测评结果可知，o1-preview（73.50分）综合能力表现出色，领跑 SuperCLUE-Math6o 基准。较 Gemini-1.5-Pro-002 高 18.93 分，较国内最好模型 Doubao-pro-32k-240828 高 21.32 分。

2.除 o1-preview 以外，国内大模型在小学奥数的综合表现与国外大模型难分上下。

通过细致地分析测评数据，我们发现 Doubao-pro-32k-240828、Qwen2.5-72b-instruct 以及Baichuan4-Turbo的综合得分在国内大模型中名列前茅，表现卓越。特别值得一提的是，国内综合表现最为突出的 Doubao-pro-32k-240828 与国外排名第二的 Gemini-1.5-Pro-002 之间的得分差距仅为2.4分，这一微小差距显示出国内大模型在国际舞台上的竞争力。

此外，阿里云旗下的 Qwen2.5-72b-instruct 和 Qwen-max-0919 紧随其后，它们的表现可圈可点。尽管国内大模型在小学奥数测评中的整体表现令人鼓舞，但放眼整个榜单，除了 o1-preview 以外，无论是国外还是国内的大模型，其综合得分均未突破 60 分大关，与排名第一的国外大模型 o1-preview-2024-09-12 相比，差距依然显著。这表明所有大模型在小学奥数领域都还有较大的提升空间，需要进一步的优化和改进。

3.期待国内大模型的小学奥数解题综合能力加强，有追赶海外模型的势头

# 测评邀请

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题：小学奥数测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、小学奥数模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247551433&idx=1&sn=f893608afe680ffac9108dc0ce793ad9

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉