陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

学术 2024-11-13 00:00 加拿大

转自：新智元

如涉版权请加编辑微信iwish89联系

哲学园鸣谢

新智元报道

编辑：Hjh

【新智元导读】Epoch AI推出数学基准FrontierMath，目前前沿模型测试成功率均低于2%！OpenAI研究科学家Noam Brown说道：「我喜欢看到新评估的前沿模型通过率如此之低。这种感觉就像一觉醒来，外面是一片崭新的雪地，完全没有人迹。」或许，FrontierMath测试成功率突破的那一天，会是AI发展过程中一个全新的里程碑。

数学为评估复杂推理提供了一个独特而合适的测试平台。它需要一定的创造力和精确的逻辑链条——通常涉及复杂的证明，这些证明必须缜密地筹划和执行。同时，数学还允许对结果进行客观验证。

在铺天盖地的宣传中，LLM看起来已经攻破了数学大关。但果真如此吗？

不久前，来自苹果的研究院团队证明，就算是在数学这些基础科学方面最先进的o1模型，其卓越的表现也是来源于对特定数据集针对性的持续优化。

所以为了更好的检验模型对于数学问题的理解与解决能力，我们需要一个更加全面而行之有效的数学测试基准。

近日，Epoch AI联合六十余位全世界的数学家，其中包括教授、IMO命题人、菲尔兹奖获得者，共同推出了全新的数学基准FrontierMath。其包括数百个原创的、格外具有挑战性的数学问题，旨在评估AI系统中的高级推理能力。

研究团队基于这个测试基准评估了六个前沿的模型，它们的成功率竟然都低于2%！

论文地址：https://arxiv.org/abs/2411.04872

论文特意致谢了陶哲轩为FrontierMath基准贡献了一些问题

具体来说，这些数学问题从奥赛难度到当今的数学前沿，包含了目前数学研究的所有主要分支——从数论和实数分析中的计算密集型问题到代数几何和群论中的抽象问题，而它们也通常需要数小时或数天的时间才能被专业数学家解决。

FrontierMath涉及的数学领域

这一测试集的发布一下炸出了不少AI大佬。

OpenAI研究员Clive Chan

德扑之父，OpenAI研究科学家Noam Brown

Anthropic联创Jack Clark

知名AI大牛Andrej Karpathy还发了一篇长帖「Moravec悖论在大语言模型评估中的体现」：

我对这个新的前沿数学基准测试感到惊讶，因为大语言模型在其中仅能解决2%的问题。引入这个基准测试的原因是大语言模型在现有数学基准测试中表现得越来越出色。有趣的问题在于，尽管从许多评估来看，大语言模型在数学和编程等领域已经逐渐接近顶级专家的水平，但你还是不会选择它们来完成对人类本身来讲最容易的工作。它们可以解决复杂的封闭问题，只要你在提示词中恰当地呈现问题描述，但它们在自主且连贯地解决长问题序列方面却很艰难，而这对人类来说是非常容易的。

这就是Moravec悖论的隐性体现，他在30多年前观察到，人类认为简单或困难的事情，对于计算机来说可能却恰恰相反。例如，人类对计算机下棋感到非常惊讶，但下棋对计算机来说却很简单，因为这是一个封闭的、确定性的系统，具有离散的动作空间、完全可观测性等等。反过来，人类可以系鞋带或折叠衬衫，并不觉得这有什么了不起，但这实际上是一个极其复杂的传感运动任务，对硬件和软件的最先进技术也还是一个挑战。这就像OpenAI前段时间发布的魔方项目，大多数人关注的是解魔方本身（这很简单），却不是让机器人用手去扭合一面魔方这种其实极其困难的任务。

所以我非常喜欢这个FrontierMath基准测试，我们应该多做一些这样的测试。但我也认为这是一个有趣的挑战，我们如何为所有那些「简单」但实际上很难的事情创建评估。非常长的上下文窗口、连贯性、自主性、常识、有效的多模态输入输出……我们如何构建好的「简单工作」评估？这些是你期望团队中任何入门级实习生都能完成的事情。

除了AI大佬们在纷纷讨论，网友们也炸了锅——

网友「Chubby」表达了自己的兴奋与期待！

同时，Epoch AI也采访了菲尔兹奖得主陶哲轩（2006年）、蒂莫西·高尔斯（1998年）、理查德·博赫兹（1998年）以及国际数学奥赛教练陈谊廷。

他们一致认为，FrontierMath的研究问题极具挑战性，需要深厚的领域专长。

左右滑动查看

成功率低于2%

FrontierMath支持模型在评估中拥有充足的思考时间以及实验和迭代能力。并且还可以在Python 环境中交互式地编写和执行代码来测试假设、验证中间结果，并根据即时反馈改进方法。

FrontierMath的模型评估流程框架

研究团队基于这个测试基准评估了六个前沿的模型，包括Claude 3.5 Sonnet、o1-preview和Gemini 1.5 Pro。

即便在延长思考时间（10000个token）、提供Python访问权限以及允许运行实验的条件下，它们的成功率仍然低于2%！

这与GSM-8K和MATH等其他流行的数学基准形成鲜明对比，在这些仅包含高中到本科数学难度的基准测试中，顶级模型现在的准确率都已经超过 90%。

当然，这在一定程度上是由于数据污染——训练数据中无意或有意地包含了测试数据的内容，或包含了与测试数据非常相似的数据。

这种现象会导致模型在测试时表现优异，但并非因为它真正学会了新知识或推理能力，而是因为它在训练中「见过」测试题或其相似题。

以至于模型的测试分数表现虚高，无法真实反映其在新数据上的表现能力。

也就是说，原来的这些基准测试达到高分已经不值得吹嘘了，大模型又有了新的数学大关需要攻破！

FrontierMath：评估AI高级数学推理

对于这个新的数学大关，FrontierMath有三个关键设计原则：

1. 所有问题都是全新且未公开的，防止数据污染。

2. 模型的解答支持自动验证，从而实现高效评估。无论是精确的整数，还是如矩阵或符号表达式（在SymPy中），一个验证脚本可以通过将模型确认提交的答案与已知解决方案来精确匹配以对提交的答案进行检查验证。

3. 问题具有「防猜测」特性，问题的答案是大数值或复杂的数学对象，若没有数学推理，模型猜对的几率低于1%。

这些设计原则，每一条都非常具有针对性，弥补了现有基准测试的不足。

值得欣喜的是，模型在这个测试中几乎没办法「作弊」了，这将有效杜绝一些「名不副实」的现象。

具体案例

由于FrontierMath中的问题是具有封闭形式答案（例如整数）的，所以它们可以让模型去自动进行验证与评估。

例如下图中的构造一个符合条件的19次多项式问题，问题给定的答案是非常大数值的整数，所以几乎不可能通过预测和精巧的模式匹配来解决这个问题。

模型必须有涉及数论、群论、代数几何这些方面的专业数学逻辑能力才可以得到正确的答案。

涉及到阿廷原始根猜想则更为复杂，模型需要求解计算的甚至是。

而数百道题目皆为如此，所以FrontierMath足以作为一个标杆性的数学基准，去检验AI模型是否具备了真正的复杂逻辑推理能力。

参考资料：

https://x.com/EpochAIResearch/status/1854996368814936250

https://x.com/karpathy/status/1855659091877937385

https://epochai.org/frontiermath/the-benchmark

https://epochai.org/frontiermath/benchmark-problems

http://mp.weixin.qq.com/s?__biz=MjM5MTAyNjcyMA==&mid=2656669253&idx=3&sn=c3d5b6e2aeeeb2cdc50e1acce9f5d35e

哲学园

哲学是爱智慧，爱智慧乃是对心灵的驯化。这里是理念的在场、诗意的栖居地。关注哲学园，认识你自己。

最新文章

当代哲学的解毒剂｜王浩《从数学到哲学》

这些“皇家吉祥名画” 挂在家里，美得目瞪口呆！还可收藏

必然性、先验性和分析性与二维语义理论

一个实验课题：：零基础跟着GPT学广义相对论（13）

世界哲学日 | 今天你是什么“主义”？

这些“皇家吉祥名画” 挂在家里，美得目瞪口呆！

郝兆宽：分析性与概念实在论

什么是左派？什么是右派？

故宫蛇年限定款藏书票，错过再等12年！

杨睿之：蒯因自然主义与分析哲学的去逻辑化

一个实验课题：：零基础跟着GPT学广义相对论（12）

美国的四大巨变——自身的问题，世界的难题

2025故宫蛇年日历，又迎来王炸，错过再等100年！

今天跟GPT聊H了，完全不着边际：零基础跟着GPT学广义相对论（11）

《判断力批判》的发生之谜

打破纪录！中国科学家让薛定谔的猫活了23分钟

瑞士百年专业户外品牌 SWISS MILITARY：5防羽绒服，全压胶90白鸭绒石墨烯抗寒～

美国数学大奖首位女性华人得主！她说：我只是一个普通人

关于P/NP问题

郭晶晶被特批在博物馆拍摄，网友：这才叫大美中国气韵！

自由主义的煎熬：右派国家，美国为什么独一无二

罗素《数学原则》全译本（1）

年底了，“皇家吉祥名画” 震撼登场，幅幅经典，全球限量！

一个实验课题：零基础跟着GPT学广义相对论（10）

自由主义的强弩之末

11月最大黑马！差点停刊，没想到真香上头，一口气6本！

不读此书不足以谈论美国政治，也看不懂美国大选

与GPT聊：最小作用量原理、拉格朗日量、哈密顿量、薛定谔方程......

马斯克成功发射特朗普：他眼中的权力和人类未来

2024珠海航空展引发国际热议！是谁给我们的底气？

为什么说保守主义是人类社会秩序的一般原理？

罗伯特·贝拉等 | 改造美国文化

左派致命的自负，导致自由主义的终结

200多位艺术大师，858幅传世杰作深度分析:《意大利文艺复兴新艺术史》

亨廷顿：治体和治术存在被滥用的危险

一个实验课题：零基础跟着GPT学广义相对论（9）

川普当选，奥巴马都在反思：自由主义为何失败

《意大利文艺复兴新艺术史》 200多位艺术大师，858幅传世杰作深度分析

大语言模型会推理吗？丨AI那厮

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

美国政治格局的大重组

出道19年，豆瓣8.1！被老狼、朴树视为“白月光”：现在的她终于火了

陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

“美国梦”的底色, 已经从希望变为怨恨

“政治正确”的政治正确：言论霸权的悖论

新晋美国副总统万斯演讲：美国文明的危机

出道19年，豆瓣8.1！被老狼、朴树视为“白月光”：现在的她终于火了

特朗普当选，芝加哥大学教授分析美国国内的的暴力倾向

年底了，“皇家吉祥名画” 震撼登场，幅幅经典，全球限量！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉