一题未对?o1 pro 人工智能挑战美国本科生最难数学竞赛失败!

教育   2024-12-12 18:49   天津  

美国本科生最难数学竞赛,参赛学生的正常答题时长是6小时,o1 pro竟然只用半小时就全部做出来了?不过网友们仔细看它的解题过程后发现,错误率似乎高达100%,12道题没有一道完全正确?

01
普特南数学竞赛

一年一次的北美最难本科数学竞赛,刚在MIT沃克纪念堂(Walker Memorial)落幕。

普特南数学竞赛(Putnam Exam),每年汇聚了来自北美数百所高校的3500多名学生前来参赛。

既有个体,也有团体,他们需要在总时长为6小时的时间内完成作答。

在这场比赛还未开始之前,来自IBM研究员曾暗示,在公开题目发布后,会有人对大模型(AlphaProof、o1、Gemini)进行题目测试。


02
o1 Pro半小时做出全部赛题

令人吃惊的是,有网友把此次普特南考试的考题给了OpenAI o1 pro。6个小时的赛题,它居然半小时就做出来了!



详细看了答案的网友们表示松了一口气:o1 pro还远未达到普特南考试的水平。

比如对于A1这道题,虽然它只用了1分钟58秒就做了出来,总体思路也是正确的,但仍有很多错误。

A3的答案,是错误的。网友直接给出了正确的解题思路:可以利用鸽巢原理(抽屉原理)来证明在给定约束条件下,只存在唯一一个有效双射函数,并由此可以推导出不存在满足题目要求的a、b、c、d值。

总之,o1 pro似乎没有一道题是正确的。这个结果属实有点惊人,因为其中一些问题难度没有那么高,比一些AIME竞赛题容易。

当然,如果从做出题目的数量来说,o1 pro的表现还是可圈可点。目前来说,o1 pro做出的题目都是错误且不完整的。如果我们不以数学家的角度评判,可以认为它们很聪明。


03
o1 pro的其他测试

CodeSignal创始人Tigran Sloyan开启了两轮大测试,让o1 pro分别去解决普特南数学竞赛A1题,以及IMO试题。显然,在普特南数学竞赛测试中,o1 pro成功做对了第一题。得分+10,就已经超越了30%的参赛者。

在IMO测试中,o1 pro完美解决了2006年测试集中最难的Q3题,仅仅用了6分48秒。相较之下,在2006年全球大约500名19岁以下顶尖数学天才中,只有28人能在4个半小时内完全解出这道题。而美国对的6名成员,却无一人做到。

o1 pro的分析过程,虽然很简洁,好像省略了很多证明步骤。Sloyan特别要求让其展示第4、5步的具体证明过程,o1 pro随后扩展出的思维过程同样令人印象深刻。而且,他还测试其他模型(包括o1),尝试做这道题目,却都失败了。

没想到,这个结果惊动了xAI科学家Hieu Pham。他表示,o1 pro的答案完全是胡说八道。如果在IMO竞赛中提交这样的解答,最多也只能给1分(满分7分)。如果遇到宽松的评判员,最多给2分,不会再多了。

他接着称,训练数据问题是一部分,这个答案 \frac{9}{16 \sqrt{2}}很可疑。IMO的题目和解答就像是数学CoT的黄金训练数据集,所以这些模型一会被反复训练无数遍。


MATH              
竞赛介绍


国家国防科技工业局指导、中国和平利用军工技术协会主办、《中国军转民》杂志社承办的“铸剑杯”国防素养大赛自 2020年起已成功举办了3届,共吸引了上千所院校的9万余名选手参赛。

在第四届“铸剑杯”国防素养大赛国防科技单元中设立算法与逻辑思维专项赛。此专赛项与其它国防科技类赛项为同一级别赛事,为加速我国数理行业人才发展,现“铸剑杯”数学赛道报名者可通过赛氪竞赛官网进行注册并报名,欢迎各院校参赛者自愿报名参加。



MATH              
报名方式


-扫描下方二维码进行报名-

或点击下方链接进行报名:

https://new.saikr.com/vse/GFMATH?ces=public



MATH     
主办单位


主办单位:中国和平利用军工技术协会

指导单位:国家国防科技工业局

承办单位:《中国军转民》杂志社



MATH     
竞赛规则


1、试卷满分及考试时间

试卷满分为100分,考试时间为180分钟.

2、答题方式

答题方式为闭卷、笔试.

3、试卷内容结构

数学A类:数学分析80% 高等代数(矩阵理论)20%

非数学B类:高等数学80% 线性代数(矩阵理论)20%

非数学C类:微积分相关知识

1)竞赛为个人赛,依据赛题难度分为数学A类、非数学B类、非数学C类,报名时可根据个人实际情况选择组别参赛。(报名时无须选择类别,A、B、C三类均不限制参赛选手学历,本科生、研究生、高职高专生考试时可直接选择想要参加类别的考场

2)竞赛全程线上进行,需要提交电子版作品(手写图片拍照上传即可)。

3)赛题将于竞赛开始时在竞赛考场内部公布,分为数学类和非数学类两个组别,不邮寄书面题目。



MATH     
大赛奖项


本次竞赛分组别、分考场进行评奖,设立一、二、三等奖及优秀奖,获奖比例(根据实际参赛人数计算):

一等奖:5%;二等奖:15%;三等奖:30%;优秀奖:若干



MATH     
时间安排


报名时间:即日起至2024年12月27日

竞赛时间:2024年12月28日9:00至12:00

补考时间:2024年12月29日9:00至12:00



MATH     
联系方式


QQ :1451942322(陈老师)

微信:19822023476(陈老师)

竞赛群聊:466407092 (点击链接加入群聊)

点击下方“阅读原文”进入竞赛官网



BONUS TIME


文末福利

更多

↓↓

数学建模资料、视频讲解、历年赛题

后台回复 校苑领取


#
推荐阅读(点击下方图片即可跳转)


校苑数模
Hi,这里是校苑数模,专注于数学及应用数学教育。旗下培训、竞赛、社区、人才对接形成了数学教育的闭环。依托中国优选法统筹法与经济数学研究会等优势资源,在领域内深耕10年。
 最新文章