OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

文摘科技 2024-09-13 16:52 浙江

本测评结果仅用于学术研究。

9月13日凌晨，OpenAI正式发布新一代大模型o1-preview。

据OpenAI官方介绍，o1在推理能力上取得重大进展，可进行复杂的任务推理，尤其是复杂的科学、数学和编程任务。与历史版本不同的是，o1模型处理问题时会像人类一样“思考”，用时约几秒至数十秒不等，内部会产生较长的思维链。

在国际数学奥林匹克的资格考试（AIME）中，o1的正确率为83.3%，o1-preview的正确率为56.7%，而GPT-4o仅有13.4%的准确率。

针对公众关注的o1中文性能和推理能力的问题，专业第三方测评机构SuperCLUE选取了中文复杂任务高阶推理测评集，对o1-preview的中文推理能力进行了全面评估。

测评环境

参考标准：SuperCLUE-Reasoning中文高阶推理测评基准

评测模型：o1-preview（API）

评测集：SuperCLUE-Reasoning中文复杂任务高阶推理评测集。共302道题，包括多步推理、数字推理、推理计算、市场分析和最优化问题五个高难度推理任务。

模型GenerationConfig配置：

参考OpenAI o1详细说明文档：
https://openai.com/o1/

测评方法：

针对每一道推理题目，我们提供人工校验和核对后的参考答案和推理过程；然后根据设定的评估流程、评价标准和打分规则（1-5分），裁判模型对候选模型的答案进行评估。设定的评价标准包括：符合基本要求、推理准确性、结论合理性。

先说结论

结论1：o1-preview在中文复杂任务的高阶推理（SC-Reasoning）上表现惊艳，总分达到85.27分，比全球其他厂商的通用大模型高出15分以上，当前遥遥领先。

结论2：o1-preview相比上一代版本ChatGPT-4o-latest，在推理任务中提升了8.53分，并在多步推理、数值推理、计算推理和优化问题等二级任务中均有显著进步。

测评结果

o1-preview对比GPT-4系列

测评示例

示例1：最优化问题

问

某物流公司需要优化其日常配送线路，客户分布在城市的不同区域。已知：

1. 每天需为10个不同的客户配送。

2. 有三个配送中心，每个配送中心负责一定区域的客户,且一个配送中心最多配送四次。

3. 列表给出三个配送中心到不同用户的距离，如果为0说明无法配送。

例如[6,7, 0, 8, 5, 0, 4, 3, 2, 0]表示配送中心1到客户0，1，2，3，4，5，6，7，8，9的距离。

列表如下：

[[6,7, 0, 8, 5, 0, 4, 3, 2, 0], [0,3, 4,0,5,7,6,0,0, 2], [4, 2, 0, 0, 4, 5, 6, 7, 6, 0] 。

4. 每个客户只需要配送一次。

5. 每个货车的油耗为每公里0.5升，每升油的价格为1美元。

6. 货车配送一个客户需要回到配送中心。

请问如何安排配送路线，以确保油耗成本最小化？

（...思考53秒...）

OpenAI o1-preview回答：

为了使油耗成本最小化，我们需要安排配送路线，使得总行驶距离最短。每个车辆从配送中心到客户再返回，相当于往返距离，因此每个客户的配送成本与配送中心到客户的单程距离成正比。

首先，我们列出每个配送中心可以服务的客户及对应的距离（如果可以到达）：

**配送中心1（Center 0）：**

- 可服务客户：0（6公里），1（7公里），3（8公里），4（5公里），6（4公里），7（3公里），8（2公里）

**配送中心2（Center 1）：**

- 可服务客户：1（3公里），2（4公里），4（5公里），5（7公里），6（6公里），9（2公里）

**配送中心3（Center 2）：**

- 可服务客户：0（4公里），1（2公里），4（4公里），5（5公里），6（6公里），7（7公里），8（6公里）

接下来，我们识别只能由一个配送中心服务的客户，并优先为他们分配：

- 客户2只能由配送中心2服务。

- 客户3只能由配送中心1服务。

- 客户9只能由配送中心2服务。

因此，我们分配：

- **客户2**给**配送中心2**

- **客户3**给**配送中心1**

- **客户9**给**配送中心2**

现在考虑剩余的客户，优先分配距离最短的组合，同时不超过每个配送中心的最大配送次数（4次）：

1. **客户8**有两个选择，选择距离较短的配送中心1（2公里）。

2. **客户1**有三个选择，选择距离最短的配送中心3（2公里）。

3. **客户0**有两个选择，选择距离较短的配送中心3（4公里）。

4. **客户4**有三个选择，选择距离较短的配送中心3（4公里）。

5. **客户5**有两个选择，选择距离较短的配送中心3（5公里）。

6. **客户7**只能由配送中心1或3服务，选择距离较短的配送中心1（3公里）。

7. **客户6**有三个选择，选择距离较短的配送中心1（4公里）。

最终的分配如下：

- **配送中心1**（Center 0）：客户3（8公里），客户8（2公里），客户7（3公里），客户6（4公里）

- **配送中心2**（Center 1）：客户2（4公里），客户9（2公里）

- **配送中心3**（Center 2）：客户1（2公里），客户0（4公里），客户4（4公里），客户5（5公里）

计算总距离：

- **配送中心1**：8 + 2 + 3 + 4 = **17公里**

- **配送中心2**：4 + 2 = **6公里**

- **配送中心3**：2 + 4 + 4 + 5 = **15公里**

总距离：17 + 6 + 15 = **38公里**

因此，为了使油耗成本最小化，我们应按照上述方式进行配送路线安排，总油耗成本为38美元。

**最佳配送路线安排如下：**

- **配送中心1（Center 0）：**

- 服务客户3，往返距离8公里

- 服务客户8，往返距离2公里

- 服务客户7，往返距离3公里

- 服务客户6，往返距离4公里

- **配送中心2（Center 1）：**

- 服务客户2，往返距离4公里

- 服务客户9，往返距离2公里

- **配送中心3（Center 2）：**

- 服务客户1，往返距离2公里

- 服务客户0，往返距离4公里

- 服务客户4，往返距离4公里

- 服务客户5，往返距离5公里

这样安排可以确保油耗成本最小化，总成本为38美元。

**答案：**

为了使油耗成本最小，总成本为38美元，具体安排如下：

- 配送中心1服务客户3、6、7、8；

- 配送中心2服务客户2、9；

- 配送中心3服务客户0、1、4、5。

示例2：多步推理

问

某文化节上有四位演员（A,B,C,D）分别在时段1~4进行表演。提供以下条件：

1. 第4时段的表演人数多于其他任何时段。

2. 第1时段不能是单人表演。

3. 不能连续两场单人表演。

4. 每名演员至少表演一次，但不能连续两场表演。

5. B和C必定同时登场。

6. D参加了第1时段的表演，A没有参加第4时段的表演。

请问各位演员的具体表演时段如何安排？

（...思考45秒...）

OpenAI o1-preview回答：

经过分析，我们得到以下安排：

**时段1**：演员 **A** 和 **D**（D必须在第一时段，且第一时段不能是单人表演）

**时段2**：演员 **B** 和 **C**（B和C必须同时登场，A和D刚表演过需要休息）

**时段3**：演员 **A** 单独表演（A在时段2休息后可以再次表演）

**时段4**：演员 **B**、**C** 和 **D**（D在时段3休息过可以再次表演，A在时段3刚表演过不能连续）

这满足所有条件：

1. 第4时段有3名演员，是人数最多的场次。

2. 第1时段有2名演员，不是单人表演。

3. 没有连续两场单人表演。

4. 每位演员至少表演一次，且没有连续两场表演。

5. B和C始终一起表演。

6. D在第1时段表演，A没有参加第4时段的表演。

所以，各时段演员安排如下：

- **时段1**：A、D

- **时段2**：B、C

- **时段3**：A

- **时段4**：B、C、D

Answer:

- Time 1: A and D

- Time 2: B and C

- Time 3: A alone

- Time 4: B, C, and D

更多详细o1大模型测评结果和测评示例，可加入SuperCLUE-o1交流群获取。

# 加入社群

# 联系我们

高阶推理测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE高阶推理测评申请

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247535965&idx=1&sn=b0c005aca75262ee0ab4430e6eafc187

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉