AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

科技 2024-11-15 11:14 河北

Datawhale分享

关于：大模型+数学，来源：AI寒武纪

大语言模型（LLM）最近在各种数学 benchmark 上疯狂刷分，动辄 90% 以上的正确率，搞得好像要统治数学界一样。

然而，Epoch AI 看不下去了，联手 60 多位顶尖数学家，憋了个大招——FrontierMath，一个专治 LLM 各种不服的全新数学推理测试！

结果惨不忍睹，LLM 集体“翻车”，正确率竟然不到 2%！🤡

看看 Epoch AI 是怎么做的

FrontierMath 是一个用于评估人工智能高级数学推理能力的基准测试。

它是 Epoch AI 与 60 多位顶尖数学家合作，所创建的数百道原创的、极具挑战性的数学问题。

FrontierMath 涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题，目标是捕捉当代数学的概貌。

即使是经验丰富的数学专家，也得绞尽脑汁，花费数小时甚至数天才能解出来。

FrontierMath 具有三个关键的设计原则：

1）所有问题都是新的且未发表的，以防止数据污染；

2）解决方案是自动可验证的，从而实现高效的评估；

3）问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低

评估结果

评估了六个领先的模型，包括 o1 ,Claude 3.5 Sonnet、GPT-4o，Grok 和 Gemini 1.5 Pro。即使有延长的思考时间（10,000 个 token）、Python 访问权限以及运行实验的能力，成功率仍然低于 2%。

相比之下，在过往的传统基准测试中，成功率超过 90%！

Epoch AI 指出，现有的数学 benchmark，例如 GSM8K 和 MATH，早就被LLM 们刷烂了，高分的原因很大程度上是因为数据污染。

说白了，就是 LLM 通过记忆大量的“考古题”来提高分数，真正考试的时候，当然容易！

而 FrontierMath 则完全不同，所有题目都是全新的、未公开的，LLM 想作弊都没门！这下 LLM 们，自然就暴露了它们的真实水平。

连菲尔兹奖得主都服了

为了进一步验证 FrontierMath 的难度，Epoch AI 还特意采访了多位菲尔兹奖（数学界的最高荣誉）得主，包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998)，以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。

这些大佬们一致认为，FrontierMath 的题目非常具有挑战性，需要深厚的专业知识和强大的推理能力才能解决。

大佬对 FrontierMath 的看法：LLM 评估中的莫拉维克悖论

莫拉维克悖论（Moravec's paradox）是由人工智能和机器人学者所发现的一个和常识相佐的现象。和传统假设不同，人类所独有的高阶智慧能力只需要非常少的计算能力，例如推理，但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人于1980年代所阐释。如莫拉维克所写；“要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的

Andrej Karpathy对这个新的前沿数学基准测试（LLM仅解决了2%）的反应：

之所以引入这个基准，是因为大模型越来越多地碾压现有的数学基准。有趣的问题是，尽管从许多方面（/evals）来看，大模型正逐步跻身顶级专家行列（如数学和编码等），但你不会雇用他们而不是让他们从事最琐碎的工作。

如果你把问题描述整齐地放在盘子里，他们就能解决复杂的封闭式问题，但他们很难连贯地把长长的、自主的、解决问题的序列串联起来，而人却会觉得非常容易。

对人类来说容易/困难的事情，与对计算机来说容易/困难的事情，和常识可能大相径庭。

例如，人类对计算机下国际象棋印象深刻，但国际象棋对计算机来说却很容易，因为它是一个封闭的、确定性的系统，具有离散的行动空间、完全的可观测性等等。

反之亦然，人类可以系好鞋带或叠好衬衫，而且根本不需要考虑太多，但这是一项极其复杂的传感运动任务，对硬件和软件的技术水平都是挑战。

这就像不久前 OpenAI 发布的魔方一样，大多数人都把注意力集中在解魔方本身（这是微不足道的），而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。

因此，我非常喜欢这个 FrontierMath 基准，我们应该制作更多的基准。但我也认为，如何为所有 '容易 '但其实很难的东西创建评估是一个有趣的挑战。

结语

不管怎么说，数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和 extended chains of precise logic——通常涉及复杂的证明——这些证明必须经过精心计划和执行，但允许对结果进行客观验证

衡量人工智能在创造性问题解决和在多个步骤中保持精确推理方面的能力，可能有助于深入了解在系统性、创新性思维（科学研究所需）方面的进展

探索 FrontierMath：

https://epochai.org/frontiermath 发布了带有详细解答、专家评论和研究论文的示例问题

一起“点赞”三连↓

http://mp.weixin.qq.com/s?__biz=MzIyNDA1NjA1NQ==&mid=2651043904&idx=1&sn=c3b4e831e3317b7d49077bb3115a1874

组队学习

分享组队学习的点点滴滴，和学习者一起成长！

最新文章

一篇具身智能的最新全面综述！（上）

Openjudge1.8.10 矩阵转置

火了！一份AI领域的经典论文清单！

Openjudge1.11.07 和为给定数

2025 QS 亚洲大学排名公布！197所中国高校上榜！

Openjudge1.7.20 删除单词后缀

谷歌2024博士奖学金名单公布

Openjudge1.10.09 明明的随机数

微软 AI CEO 清华演讲全文（建议收藏）

Openjudge1.9.08 白细胞计数

导师：自己每天科研工作近10小时，都觉得不够。研究生们：每天工作不够5小时，拿什么去竞争？

Openjudge1.7.17 字符串判等

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

Openjudge1.11.10 河中跳房子

Openjudge1.8.07 矩阵归零消减序列和

线下百校联动，AI线下共学活动开放报名

组队学习首次开放许愿啦！下个月想学什么，听你的

Datawhale公益组，帮孩子找到兴趣和热爱

十一月组队学习来了！

《OPEN AI通识课》高校共学活动：开放报名！

《OPEN AI通识课》重磅发布！Datawhale 联合浙江大学智海 Mo 平台

又一外企巨头在中国裁员了

陶哲轩用AI证明方程理论，19天进度99.99%，论文将上线

Yann LeCun最新万字演讲：致力于下一代AI系统，我们基本上不做LLM了

2025泰晤士世界大学排名公布！

深度｜李飞飞：我不知道什么是AGI

十月组队学习来了！🥳

国网河北省电力有限公司2025年高校毕业生提前批招聘校园宣讲计划安排

2024年CCF 科技创业大赛（TEC 2024）邀请函

特变电工2025校园招聘来了！

国家能源集团2025校园招聘来了！

组队竞赛：九月实验室编程竞赛计划与反馈要求

开学第一场组队学习来了！

【第61期】组队学习课程：Tiny-universe：手搓大模型

【第61期】组队学习课程：吃瓜教程

LSGO软件技术团队编程竞赛（八月赛）成绩汇报

航天工程大学人工智能信息处理课题组招博士

八月实验室编程竞赛计划与反馈要求

南大第一，北邮领先，AI 夏令营第四期正式报名！

LSGO软件技术团队编程竞赛（七月赛）成绩汇报

AI大神李沐回归B站了！

Datawhale优秀助教团队

真滴优秀！！！

7月实验室编程竞赛计划与反馈要求

提供实习证明和奖学金！面向本科生、研究生的 AI 夏令营来了！

Datawhale出品：《GLM-4 大模型部署微调教程》发布！

实验室编程竞赛（六月赛）成绩汇报

李开复：零一万物坚决做to C，坚决不做赔钱的to B

实验室数据科学竞赛计划与反馈要求

首届学生“包就业”！深圳理工大学600分以上可报

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉