这个测试让全球最强LLM模型们集体"翻车"
开篇
"AI 解数学题比人类还厉害?"这个流传已久的说法可能要改改了。
最近,一项由 Epoch AI 推出的新测试 FrontierMath,让各大 AI 模型集体"翻车",引发业界热议。
在这场严格的考试中,就连 GPT-4、Claude 3.5 这样的顶级模型,正确率也不到 2%。
这个结果,不禁让人重新思考:AI 的数学能力到底达到了什么水平?
FrontierMath 测试设计
Epoch AI 联合 60 多位顶尖数学家,精心设计了这场考试。测试有三个特别严格的原则:
所有题目都是全新的,此前从未发表过 答案可以通过程序自动验证,确保评分客观 特别设计了防作弊机制,不可能靠瞎猜得高分
题目设计极其严谨:
覆盖现代数学主要领域 从计算密集型的数论问题到抽象的代数几何 包含范畴论等深奥理论 每道题目都需要深度思考和严密推理
评估方法与实施
为确保测试公平性,评估团队:
制定了严格的评分标准 设计了多维度能力评估体系 建立了客观的验证机制 给予模型充分的思考时间和工具支持
为什么传统测试结果不可靠?
近期,各大 AI 模型在 GSM8K、MATH 等传统数学测试中频频斩获高分,动辄超过 90% 的正确率。
然而,Epoch AI 一针见血地指出了这些成绩背后的真相:这些所谓的"高分"很大程度上源于数据污染。
说白了,这就像是学生在做一套已经见过的考题。
AI 模型在训练过程中,早已"见过"这些测试题目或极其相似的题目。
它们不是通过真正的数学思维来解题,而是依靠"死记硬背"获得高分。
这种测试方式,显然无法真实反映 AI 的数学能力。
测试结果分析
参与测试的顶级模型包括:
GPT-4 Claude 3.5 Sonnet Grok Gemini 1.5 Pro
尽管测试方给足了条件:
允许模型思考更长时间(10,000 个 token) 提供了完整的 Python 编程环境 允许进行各种验证和实验
但结果仍然令人震惊:
所有模型的正确率都不到 2% 与传统测试 90% 以上的成绩形成鲜明对比
权威专家评价
这些题目到底有多难?让我们看看数学界顶尖专家们的评价:
菲尔兹奖得主们的惊叹
陶哲轩(2006年获奖):"这是极限挑战,我想他们至少会让AI们受困好几年。" 蒂莫西·高尔斯(1998年获奖):"哪怕只答对一个问题,都远远超出我们现在能做到的,更别说全部了。"
专业教练的直言
IMO教练陈谊廷坦言:"这些问题真的很难,大部分看起来都远超我的工资水平。"
这些评价表明,FrontierMath 的题目难度确实远超普通数学测试,甚至能让数学界的"大神"们都感到棘手。
这也从侧面说明,AI 模型在这次测试中的低分并不令人意外 —— 毕竟这些问题连人类顶尖数学家都觉得极具挑战性。
深度解读
AI 的能力差异
著名 AI 专家 Andrej Karpathy 对此现象给出了有趣的解释。
这就像是一个奇妙的反差:AI 可以在国际象棋这样规则明确的游戏中打败世界冠军,但在需要连续思考、创造性解决问题的场景中,却表现得像个初学者。
这种现象被称为"莫拉维克悖论":
对人类来说简单的事情(如连贯思考),对 AI 来说可能非常困难 对人类来说困难的事情(如快速大量计算),AI 可能觉得很容易
传统测试的局限
数据污染问题严重 "背题"现象普遍存在 评估标准需要改进
启示与思考
对 AI 发展的启示
真实能力评估需要更严格标准 创造性思维是关键瓶颈 需要新的训练范式
未来发展方向
加强原创性推理能力 提升长链条思维水平 完善评估体系
结语
这次测试不仅揭示了 AI 数学能力的真实现状,也为未来发展指明了方向。
在为 AI 进步欢呼的同时,我们也要清醒认识其局限性,这样才能推动技术真正进步。
更多详情:https://epochai.org/frontiermath
这个测试让全球最强LLM模型们集体"翻车"
开篇
"AI 解数学题比人类还厉害?"这个流传已久的说法可能要改改了。
最近,一项由 Epoch AI 推出的新测试 FrontierMath,让各大 AI 模型集体"翻车",引发业界热议。
在这场严格的考试中,就连 GPT-4、Claude 3.5 这样的顶级模型,正确率也不到 2%。
这个结果,不禁让人重新思考:AI 的数学能力到底达到了什么水平?
FrontierMath 测试设计
Epoch AI 联合 60 多位顶尖数学家,精心设计了这场考试。测试有三个特别严格的原则:
所有题目都是全新的,此前从未发表过 答案可以通过程序自动验证,确保评分客观 特别设计了防作弊机制,不可能靠瞎猜得高分
题目设计极其严谨:
覆盖现代数学主要领域 从计算密集型的数论问题到抽象的代数几何 包含范畴论等深奥理论 每道题目都需要深度思考和严密推理
评估方法与实施
为确保测试公平性,评估团队:
制定了严格的评分标准 设计了多维度能力评估体系 建立了客观的验证机制 给予模型充分的思考时间和工具支持
为什么传统测试结果不可靠?
近期,各大 AI 模型在 GSM8K、MATH 等传统数学测试中频频斩获高分,动辄超过 90% 的正确率。
然而,Epoch AI 一针见血地指出了这些成绩背后的真相:这些所谓的"高分"很大程度上源于数据污染。
说白了,这就像是学生在做一套已经见过的考题。
AI 模型在训练过程中,早已"见过"这些测试题目或极其相似的题目。
它们不是通过真正的数学思维来解题,而是依靠"死记硬背"获得高分。
这种测试方式,显然无法真实反映 AI 的数学能力。
测试结果分析
参与测试的顶级模型包括:
GPT-4 Claude 3.5 Sonnet Grok Gemini 1.5 Pro
尽管测试方给足了条件:
允许模型思考更长时间(10,000 个 token) 提供了完整的 Python 编程环境 允许进行各种验证和实验
但结果仍然令人震惊:
所有模型的正确率都不到 2% 与传统测试 90% 以上的成绩形成鲜明对比
权威专家评价
这些题目到底有多难?让我们看看数学界顶尖专家们的评价:
菲尔兹奖得主们的惊叹
陶哲轩(2006年获奖):"这是极限挑战,我想他们至少会让AI们受困好几年。" 蒂莫西·高尔斯(1998年获奖):"哪怕只答对一个问题,都远远超出我们现在能做到的,更别说全部了。"
专业教练的直言
IMO教练陈谊廷坦言:"这些问题真的很难,大部分看起来都远超我的工资水平。"
这些评价表明,FrontierMath 的题目难度确实远超普通数学测试,甚至能让数学界的"大神"们都感到棘手。
这也从侧面说明,AI 模型在这次测试中的低分并不令人意外 —— 毕竟这些问题连人类顶尖数学家都觉得极具挑战性。
深度解读
AI 的能力差异
著名 AI 专家 Andrej Karpathy 对此现象给出了有趣的解释。
这就像是一个奇妙的反差:AI 可以在国际象棋这样规则明确的游戏中打败世界冠军,但在需要连续思考、创造性解决问题的场景中,却表现得像个初学者。
这种现象被称为"莫拉维克悖论":
对人类来说简单的事情(如连贯思考),对 AI 来说可能非常困难 对人类来说困难的事情(如快速大量计算),AI 可能觉得很容易
传统测试的局限
数据污染问题严重 "背题"现象普遍存在 评估标准需要改进
启示与思考
对 AI 发展的启示
真实能力评估需要更严格标准 创造性思维是关键瓶颈 需要新的训练范式
未来发展方向
加强原创性推理能力 提升长链条思维水平 完善评估体系
结语
这次测试不仅揭示了 AI 数学能力的真实现状,也为未来发展指明了方向。
在为 AI 进步欢呼的同时,我们也要清醒认识其局限性,这样才能推动技术真正进步。
更多详情:https://epochai.org/frontiermath