全体AI大模型的数学几乎都是0分?陶哲轩和Karpathy推荐的这个测试有多难

科技   2024-11-18 13:31   江苏  
夕小瑶科技说 原创
作者 | 小鹿

最近,出现了一个数学基准集,让大模型们的数学集体翻车,正确率还不到2%。

就是这家非营利研究机构Epoch AI,它集合了世界最顶尖的60多位数学家(包括国际数学奥林匹克(IMO)问题编写者和菲尔兹奖得主)发布了FrontierMath,专治各种LLM不服的全新的数学基准测试。

FrontierMath包含数百个原创数学问题,涵盖了数学大多数的分支方向,从计算密集型的数论,到抽象的代数几何和范畴论问题。

大模型动不动在现在的数学benchmark就是接近100%的正确率,好像真的已经统计数学界了,FrontierMath的出现,就是要考考这些大语言模型到底多厉害。

结果,大语言模型全体暴露,正确率竟然不到2%,这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比,在那里这些行业最模型现在实现了超过90%的准确率。。。

基准地址:https://epochai.org/frontiermath

题目是不是太难了?

这个非常厉害的基准FrontierMath的设定规则是这样的:

  • 所有问题都是新的且未发表的,以防止数据污染,而且要经过专业数学家的同行评审,以验证正确性。
  • 解决方案是自动可验证的,从而实现高效的评估。——无论是作为确切的整数还是像矩阵和SymPy中的符号表达式这样的数学对象。验证脚本通过精确匹配或确认提交的答案与已知解匹配来检查提交。
  • 问题是“防猜测”的,在没有正确推理的情况下解决的可能性很低。问题的解决方案是大数值答案或复杂的数学对象,没有数学工作的情况下,猜测正确的几率不到1%。问题特别针对这一特性进行审查,审查者检查捷径或模式匹配通常不能绕过对真正理解的需求。

在这给大家准备了一道题,让我们一起看下~

第一道题是关于Artin原根猜想的数论题目,问题要求我们:找出集合Sx,其中包含满足,的所有质数计算在质数中的密度,求出当趋向于无穷时的极限密度,最后计算⌊10^7 × d∞⌋:

本来还想算一算,但是我连题目也看不明白。。。。那伟大的大语言模型老师们能做出来吗:

嘶,他们竟然看的懂题目!而且真的计算出来了,有数学大佬们看看算的对吗。。。

实验分析

FrontierMath评估了目前行业内最顶尖的六个模型:o1 ,Claude 3.5 Sonnet、GPT-4o,Grok和Gemini 1.5 Pro。

即使有延长的思考时间(10,000个token)、Python访问权限以及运行实验的能力,成功率仍然低于2%——相比之下,在GSM-8K和MATH等传统基准测试中,这些大语言模型的成功率超过90%

Epoch AI指出,现在的大模型数学测试的基准如GSM8K和MATH早就被刷烂了,新的模型能拿到高分并不是因为真的懂了,会了数学。而是数据已经污染了,在训练中已经见过了原题、相似题了。而团队设计的全新未公开的题目才是实打实的考验。

想抄都没门。。

看似Epoch AI说的很有道理哎!但是,这个题会不会有点太难了。。

听听大佬们怎么看待

Epoch AI采访了多位菲尔兹奖(数学界的最高荣誉)得主,包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998),以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。

这些大佬是这样说的:

2006年菲尔兹奖获得者陶哲轩:这些问题极具挑战性…我认为至少在未来几年内,人工智能都无法解决这些问题。
1998年菲尔兹获得者:即使只能正确回答其中一个问题,也远远超出了我们目前的能力,更不用说完全掌握它们了。

Andrej Karpathy大佬也来了,转发了推特发表了看法:

我对这个前沿数学的新基准做出了反应,其中 LLM 只能解决 2% 的问题。之所以引入这个基准,是因为 LLM 正在日益超越现有的数学基准。有趣的问题是,尽管根据许多人的说法 (/evals),LLM 正在逐渐进入顶级专家领域(例如数学和编码等),但你不会雇用他们而不是从事最琐碎的工作的人。如果你在提示中将问题描述整齐地摆在盘子上,他们可以解决复杂的封闭问题,但他们很难以一种人们会觉得非常容易的方式将长而自主的解决问题序列连贯地串联起来。


这是莫拉维克悖论的变种,他在 30 多年前就观察到,人类认为的容易/困难的事情与计算机认为的容易/困难的事情在直觉上可能大不相同。例如,人类对计算机下棋印象深刻,但国际象棋对计算机来说很容易,因为它是一个封闭的确定性系统,具有离散的动作空间、完全可观察性等等。反之亦然,人类可以系鞋带或折叠衬衫,但根本不会想太多,但这是极其复杂的感觉运动任务,对硬件和软件的最新技术提出了挑战。这就像 OpenAI 不久前发布的魔方,大多数人专注于解决问题本身(这很简单),而不是用机械手转动魔方的一个面这一实际上极其困难的任务。


所以我非常喜欢这个 FrontierMath 基准测试,我们应该做更多。但我还认为,如何为所有“简单”但实际上很难的东西创建评估是一个有趣的挑战。非常长的上下文窗口、连贯性、自主性、常识、有效的多模式 I/O…

结语

数学评估作为衡量大语言模型能力的重要维度,因为数学问题通常具有明确的逻辑结构和严谨的推理链条,相较于其他领域的推理评测具有绝对的优势。

FrontierMath评测集的推出是不仅展示了各大模型在数学推理方面的具体表现,更重要的是揭示了当前AI系统在数学能力上的系统性局限。

这些局限包括:在多步骤推理中保持逻辑一致性的挑战、对问题本质的深层理解能力不足,以及创造性解题策略的缺乏等。

而这些能力恰恰是开展前沿科学研究所必需的。

因此,通过严谨的数学评估来衡量AI系统在这些关键认知维度上的进展,对于理解人工智能的发展现状和未来方向具有重要的指导意义。这不仅有助于推动AI技术的改进,也为探讨机器智能的本质特征提供了重要视角~



Crossin的新书《码上行动:用ChatGPT学会Python编程》已经上市了。本书以ChatGPT为辅助,系统全面地讲解了如何掌握Python编程,适合Python零基础入门的读者学习。【点此查看详细介绍】
购买后可加入读者交流群,Crossin为你开启陪读模式,解答你在阅读本书时的一切疑问。
Crossin的其他书籍:



添加微信 crossin123 ,加入编程教室共同学习~

感谢转发点赞的各位~

Crossin的编程教室
每天5分钟,轻松学编程。点击关注这里有浅显易懂的 Python 入门教程。 编程世界的新手指南。
 最新文章