AI数学神话破灭!FrontierMath让GPT等LLM集体几乎“交白卷”:正确率不超过2%

百科   2024-11-12 19:17   中国香港  

这个测试让全球最强LLM模型们集体"翻车"

开篇

"AI 解数学题比人类还厉害?"这个流传已久的说法可能要改改了。

最近,一项由 Epoch AI 推出的新测试 FrontierMath,让各大 AI 模型集体"翻车",引发业界热议。

在这场严格的考试中,就连 GPT-4、Claude 3.5 这样的顶级模型,正确率也不到 2%

这个结果,不禁让人重新思考:AI 的数学能力到底达到了什么水平?

FrontierMath 测试设计

Epoch AI 联合 60 多位顶尖数学家,精心设计了这场考试。测试有三个特别严格的原则:

  • 所有题目都是全新的,此前从未发表过
  • 答案可以通过程序自动验证,确保评分客观
  • 特别设计了防作弊机制,不可能靠瞎猜得高分

题目设计极其严谨:

  • 覆盖现代数学主要领域
  • 从计算密集型的数论问题到抽象的代数几何
  • 包含范畴论等深奥理论
  • 每道题目都需要深度思考和严密推理

评估方法与实施

为确保测试公平性,评估团队:

  • 制定了严格的评分标准
  • 设计了多维度能力评估体系
  • 建立了客观的验证机制
  • 给予模型充分的思考时间和工具支持

为什么传统测试结果不可靠?

近期,各大 AI 模型在 GSM8K、MATH 等传统数学测试中频频斩获高分,动辄超过 90% 的正确率。

然而,Epoch AI 一针见血地指出了这些成绩背后的真相:这些所谓的"高分"很大程度上源于数据污染。

说白了,这就像是学生在做一套已经见过的考题

AI 模型在训练过程中,早已"见过"这些测试题目或极其相似的题目

它们不是通过真正的数学思维来解题,而是依靠"死记硬背"获得高分。

这种测试方式,显然无法真实反映 AI 的数学能力。

测试结果分析

参与测试的顶级模型包括:

  • GPT-4
  • Claude 3.5 Sonnet
  • Grok
  • Gemini 1.5 Pro


尽管测试方给足了条件:

  • 允许模型思考更长时间(10,000 个 token)
  • 提供了完整的 Python 编程环境
  • 允许进行各种验证和实验

但结果仍然令人震惊:

  • 所有模型的正确率都不到 2%
  • 与传统测试 90% 以上的成绩形成鲜明对比

权威专家评价

这些题目到底有多难?让我们看看数学界顶尖专家们的评价:

菲尔兹奖得主们的惊叹

  • 陶哲轩(2006年获奖):"这是极限挑战,我想他们至少会让AI们受困好几年。"
  • 蒂莫西·高尔斯(1998年获奖):"哪怕只答对一个问题,都远远超出我们现在能做到的,更别说全部了。"

专业教练的直言

  • IMO教练陈谊廷坦言:"这些问题真的很难,大部分看起来都远超我的工资水平。"

这些评价表明,FrontierMath 的题目难度确实远超普通数学测试,甚至能让数学界的"大神"们都感到棘手。

这也从侧面说明,AI 模型在这次测试中的低分并不令人意外 —— 毕竟这些问题连人类顶尖数学家都觉得极具挑战性。

深度解读

AI 的能力差异

著名 AI 专家 Andrej Karpathy 对此现象给出了有趣的解释。

这就像是一个奇妙的反差:AI 可以在国际象棋这样规则明确的游戏中打败世界冠军,但在需要连续思考、创造性解决问题的场景中,却表现得像个初学者。

这种现象被称为"莫拉维克悖论":

  • 对人类来说简单的事情(如连贯思考),对 AI 来说可能非常困难
  • 对人类来说困难的事情(如快速大量计算),AI 可能觉得很容易

传统测试的局限

  • 数据污染问题严重
  • "背题"现象普遍存在
  • 评估标准需要改进

启示与思考

对 AI 发展的启示

  1. 真实能力评估需要更严格标准
  2. 创造性思维是关键瓶颈
  3. 需要新的训练范式

未来发展方向

  1. 加强原创性推理能力
  2. 提升长链条思维水平
  3. 完善评估体系

结语

这次测试不仅揭示了 AI 数学能力的真实现状,也为未来发展指明了方向。

在为 AI 进步欢呼的同时,我们也要清醒认识其局限性,这样才能推动技术真正进步。

更多详情:https://epochai.org/frontiermath

DeepSci
专注于 AI 产业资讯、产品评测、实用教程分享
 最新文章