奥林匹克数学竞赛-Math6o基准测评方案发布

文摘科技 2024-10-10 18:46 浙江

随着人工智能技术的飞速发展，大语言模型在竞赛水平的数学推理能力已经成为了研究的热门话题。以 OpenAI 为例，其在秋季发布的 o1-preview 大模型展现了强大的数学推理能力，它不仅能够处理常规的数学问题，还具备了解决竞赛级别难题的能力。

为了更有效地评估大模型在这方面的表现，尤其是考虑到未来国内可能会涌现出大量具备卓越推理能力的大模型，我们基于 SuperCLUE 中文综合性基准的积累，推出了 SuperCLUE-Math6o（O是指 Olympiad，奥林匹克竞赛）。这一基准主要专注于评估中文大模型在小学水平数学竞赛中的表现，旨在为未来的模型开发提供更有针对性的参考。

我们计划在不久的将来陆续推出专门用于评估中文大模型在初中、高中及大学数学竞赛中表现的基准。大模型数学竞赛测评路线图：

Math6o奥数（小学）-->Math9o奥数（初中）--->Math12o奥数（高中）-->Math16o奥数（大学）

排行榜地址：www.SuperCLUEai.com

#SuperCLUE-Math6o

注：具体的测评任务以正式发布的测评报告为准。

1. 特点

（1）全面性

评分标准全面覆盖解题的关键方面，确保对大模型数学推理能力的全面评估。不仅关注结果正确性，还重视逻辑清晰度、知识灵活性和表达清晰度，以深入了解模型在各维度的表现。

（2）客观性与主观性结合

评分标准不仅评估结果的正确性，还关注解题过程中的逻辑清晰度和思维创造性。这种多维度评估方法旨在全面反映大模型的数学推理能力，鼓励展现独特的思维方式和创新精神。

（3）鼓励创新

为了激励大模型探索新方法，我们设置了创新性评分机制，鼓励采用独特思维，而非依赖传统解法。该机制促进模型在复杂问题上的灵活性和创造力，推动技术进步与突破。

2. 测评任务

为了更有效地评估大模型在小学竞赛水平的数学推理能力，我们选取了国内多个小学数学竞赛的题目进行测评，并将这些题目划分为六个主要类别：应用题、行程、数论、计数、几何、计算以及杂项。每个主要类别下又细分为多个小类，以确保全面覆盖不同的数学领域。

2.1 应用题

应用题是小学数学竞赛中的重要领域，考察运用数学知识解决实际问题的能力。其内容包括分数应用题、列方程解题、工程问题和鸡兔同笼等，要求在具体情境中灵活运用数理逻辑与推理。应用题不仅强化计算与分析能力，还培养综合思维与解决复杂问题的能力，是竞赛中不可或缺的一部分。

示例：

2.2 行程

行程问题是小学数学竞赛中的常见考点，研究物体运动中的速度、时间与距离的关系。竞赛中的行程问题包括多人行程、环形跑道、钟面行程和平均速度等，要求灵活运用速度公式、推理相遇与追及等情况。行程问题培养逻辑思维与分析能力，帮助理解动态变化下的数学关系，是竞赛中综合应用的重要内容。

示例：

2.3 数论

数论是小学数学竞赛中的基础领域，主要研究整数的性质及其关系。竞赛中的数论内容包括数的整除、约数问题、余数问题、质数与合数等。数论问题考察对数的结构和运算规律的理解，培养推理和分析能力，是竞赛中挑战思维深度和逻辑性的核心部分。

示例：

2.4 计数

计数是小学数学竞赛中的重要领域，研究如何有效地计算对象的数量。竞赛中的计数内容包括加乘原理、排列组合、抽屉原理和最值问题等。计数问题考察在复杂情境下合理运用不同方法进行分析和归纳，培养逻辑思维和解决问题的能力，是数学竞赛中富有挑战性的部分。

示例：

2.5 几何

几何是小学数学竞赛中的核心领域，研究形状、空间及其度量。竞赛中的几何内容包括周长与面积、表面积与体积、勾股定理以及五大模型（等积模型、鸟头模型、蝴蝶模型、相似模型、燕尾模型）等。几何问题要求在图形和空间中进行推理与计算，培养空间想象力与逻辑分析能力，是竞赛中培养综合思维的重要部分。

示例：

2.6 计算

计算是小学数学竞赛中的基础领域，涉及多种复杂的计算技巧。竞赛中的计算内容包括计算公式、分数与整数裂项、换元法以及比较与估算等。计算问题不仅考察准确性和速度，还要求灵活运用公式和方法，培养快速推导和解决复杂问题的能力，是竞赛中的重要组成部分。

示例：

2.7 杂项

杂项是小学数学竞赛中涵盖多种综合性题目的领域，考察广泛数学思维能力。竞赛中的杂项内容包括逻辑推理、数阵图与数字谜、操作与策略、不定方程等。杂项问题要求灵活运用多种数学工具，结合推理与策略，培养创新思维和多角度解决问题的能力，是竞赛中的挑战性部分。

示例：

3.评分标准和评估示例

评分标准

针对各个大模型在测评任务上的回答质量评估，我们采用了五个统一的评估标准进行评估。这些标准在评估中被赋予不同的权重，以全面反映大模型在小学数学竞赛上的表现。

注：具体的评估标准及权重以正式发布的测评报告为准。

评估示例

案例1：应用题

问题：

模型（国产大模型 1）回答：

超级模型评分：

对这个答案进行评估如下：

模型的回答尽管尝试详细解释每一步，但存在严重的错误。特别是在计算步骤和逻辑过程中，存在多个错误逻辑连接和计算错误。例如，模型将40人工作效率与剩余工作时间的计算错误引导到错误结论，并且没有更正这些错误。打分与评价开始：

结果正确性（5分）：模型解答错误且与参考答案不符。在标准1下得分为0分。

得分：0/5

逻辑清晰度（5分）：尽管描述详尽，但逻辑链和解题步骤存在严重错误，使得逻辑清晰度受损。给2分。

得分：2/5

思维创造性（5分）：模型回答没有展示出特别的创造性，方法和技巧运用也不具备独特的见解。给2分。

得分：2/5

表达清晰度（5分）：模型表达详细，但由于逻辑链的问题导致一些部分难以理解。给3分。

得分：3/5

知识灵活性（5分）：模型能够调用一些基础的定理和概念，但在运用这些知识上表现不够灵活，导致解答错误。给2分。

得分：2/5

综合得分 = ( 45 * 0 + 40 * 2 + 5 * 2 + 5 * 3 + 5 * 2 ) / 100 = 1.15

综合以上，AI助手的回答的综合得分为 1.15 分。

案例2：数论

问题：

模型（国产大模型 2）回答：

超级模型评分：

对这个答案进行评估如下：

AI助手的解答在关键步骤上的理解是正确的，但答案表述过程中没有清晰说明所有同余方程的解答过程，仅表述了结果。此外，解题过程中使用的符号和步骤可以进一步详细解释。打分与评价开始：

结果正确性（5分）：结果正确，必要步骤包含且计算结果也正确。基于标准1的得分为5分。

得分：5/5

逻辑清晰度（5分）：逻辑严密，解题思路清晰，但未明确每个条件的转化过程，细节不足。基于标准2的得分为4分。

得分：4/5

思维创造性（5分）：使用的方法是常见的同余式求解，具有基本的创造性，但未有更深入的解法。基于标准3的得分为3分。

得分：3/5

表达清晰度（5分）：表达清晰，步骤粗略，但过程和符号使用准确。基于标准4的得分为4分。

得分：4/5

知识灵活性（5分）：计算较灵活，但欠缺详细分解，较为局限。基于标准5的得分为3分。

得分：3/5

综合得分 = ( 45 * 5 + 40 * 4 + 5 * 3 + 5 * 4 + 5 * 3 ) / 100 = 4.35

综合以上，AI助手的回答的综合得分为 4.35 分。

测评集构建

小学数学竞赛中文题库构建流程：

1. 参考国内外现有的小学数学竞赛题库的标准（如国内的华杯赛，国外的AMC8等）

2. 中文数学竞赛题撰写

3. 小批量测试

4. 修改并确定小学数学竞赛中文任务体系，参考国内外的标准，针对每一个维度构建专用的测评集。

评分方法

评估流程：1.获得问题、模型答案和参考答案-->2.依据评估标准-->3.使用评分规则-->4.进行细粒度打分

结合超级模型，在定义的指标体系里明确每一个维度的评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得每一个维度的评估结果。

# 测评邀请

时间规划

1.报名时间开始：10月10日

2.参测评模型确认：10月16日

3.测评执行：10月16日-21日

4.结果统计：10月22日-23日

5.测评结果发布：10月24日

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：

SuperCLUE-Math6o奥数测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247544244&idx=1&sn=1108187ed5b5cc8cbf865f76b5655ffd

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉