全体AI大模型的数学几乎都是0分？陶哲轩和Karpathy推荐的这个测试有多难

科技 2024-11-18 13:31 江苏

夕小瑶科技说原创

作者 | 小鹿

最近，出现了一个数学基准集，让大模型们的数学集体翻车，正确率还不到2%。

就是这家非营利研究机构Epoch AI，它集合了世界最顶尖的60多位数学家（包括国际数学奥林匹克（IMO）问题编写者和菲尔兹奖得主）发布了FrontierMath，专治各种LLM不服的全新的数学基准测试。

FrontierMath包含数百个原创数学问题，涵盖了数学大多数的分支方向，从计算密集型的数论，到抽象的代数几何和范畴论问题。

大模型动不动在现在的数学benchmark就是接近100%的正确率，好像真的已经统计数学界了，FrontierMath的出现，就是要考考这些大语言模型到底多厉害。

结果，大语言模型全体暴露，正确率竟然不到2%，这与GSM-8K和MATH等其他流行的数学基准测试形成鲜明对比，在那里这些行业最模型现在实现了超过90%的准确率。。。

基准地址：https://epochai.org/frontiermath

题目是不是太难了？

这个非常厉害的基准FrontierMath的设定规则是这样的：

所有问题都是新的且未发表的，以防止数据污染，而且要经过专业数学家的同行评审，以验证正确性。
解决方案是自动可验证的，从而实现高效的评估。——无论是作为确切的整数还是像矩阵和SymPy中的符号表达式这样的数学对象。验证脚本通过精确匹配或确认提交的答案与已知解匹配来检查提交。
问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低。问题的解决方案是大数值答案或复杂的数学对象，没有数学工作的情况下，猜测正确的几率不到1%。问题特别针对这一特性进行审查，审查者检查捷径或模式匹配通常不能绕过对真正理解的需求。

在这给大家准备了一道题，让我们一起看下～

第一道题是关于Artin原根猜想的数论题目，问题要求我们：找出集合Sx，其中包含满足,的所有质数计算在质数中的密度，求出当趋向于无穷时的极限密度，最后计算⌊10^7 × d∞⌋：

本来还想算一算，但是我连题目也看不明白。。。。那伟大的大语言模型老师们能做出来吗：

嘶，他们竟然看的懂题目！而且真的计算出来了，有数学大佬们看看算的对吗。。。

实验分析

FrontierMath评估了目前行业内最顶尖的六个模型：o1 ,Claude 3.5 Sonnet、GPT-4o，Grok和Gemini 1.5 Pro。

即使有延长的思考时间（10,000个token）、Python访问权限以及运行实验的能力，成功率仍然低于2%——相比之下，在GSM-8K和MATH等传统基准测试中，这些大语言模型的成功率超过90%

Epoch AI指出，现在的大模型数学测试的基准如GSM8K和MATH早就被刷烂了，新的模型能拿到高分并不是因为真的懂了，会了数学。而是数据已经污染了，在训练中已经见过了原题、相似题了。而团队设计的全新未公开的题目才是实打实的考验。

想抄都没门。。

看似Epoch AI说的很有道理哎！但是，这个题会不会有点太难了。。

听听大佬们怎么看待

Epoch AI采访了多位菲尔兹奖（数学界的最高荣誉）得主，包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998)，以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。

这些大佬是这样说的：

2006年菲尔兹奖获得者陶哲轩：这些问题极具挑战性…我认为至少在未来几年内，人工智能都无法解决这些问题。

1998年菲尔兹获得者：即使只能正确回答其中一个问题，也远远超出了我们目前的能力，更不用说完全掌握它们了。

Andrej Karpathy大佬也来了，转发了推特发表了看法：

我对这个前沿数学的新基准做出了反应，其中 LLM 只能解决 2% 的问题。之所以引入这个基准，是因为 LLM 正在日益超越现有的数学基准。有趣的问题是，尽管根据许多人的说法 (/evals)，LLM 正在逐渐进入顶级专家领域（例如数学和编码等），但你不会雇用他们而不是从事最琐碎的工作的人。如果你在提示中将问题描述整齐地摆在盘子上，他们可以解决复杂的封闭问题，但他们很难以一种人们会觉得非常容易的方式将长而自主的解决问题序列连贯地串联起来。

这是莫拉维克悖论的变种，他在 30 多年前就观察到，人类认为的容易/困难的事情与计算机认为的容易/困难的事情在直觉上可能大不相同。例如，人类对计算机下棋印象深刻，但国际象棋对计算机来说很容易，因为它是一个封闭的确定性系统，具有离散的动作空间、完全可观察性等等。反之亦然，人类可以系鞋带或折叠衬衫，但根本不会想太多，但这是极其复杂的感觉运动任务，对硬件和软件的最新技术提出了挑战。这就像 OpenAI 不久前发布的魔方，大多数人专注于解决问题本身（这很简单），而不是用机械手转动魔方的一个面这一实际上极其困难的任务。

所以我非常喜欢这个 FrontierMath 基准测试，我们应该做更多。但我还认为，如何为所有“简单”但实际上很难的东西创建评估是一个有趣的挑战。非常长的上下文窗口、连贯性、自主性、常识、有效的多模式 I/O…

结语

数学评估作为衡量大语言模型能力的重要维度,因为数学问题通常具有明确的逻辑结构和严谨的推理链条,相较于其他领域的推理评测具有绝对的优势。

FrontierMath评测集的推出是不仅展示了各大模型在数学推理方面的具体表现,更重要的是揭示了当前AI系统在数学能力上的系统性局限。

这些局限包括:在多步骤推理中保持逻辑一致性的挑战、对问题本质的深层理解能力不足,以及创造性解题策略的缺乏等。

而这些能力恰恰是开展前沿科学研究所必需的。

因此,通过严谨的数学评估来衡量AI系统在这些关键认知维度上的进展,对于理解人工智能的发展现状和未来方向具有重要的指导意义。这不仅有助于推动AI技术的改进,也为探讨机器智能的本质特征提供了重要视角～

Crossin的新书《码上行动：用ChatGPT学会Python编程》已经上市了。本书以ChatGPT为辅助，系统全面地讲解了如何掌握Python编程，适合Python零基础入门的读者学习。【点此查看详细介绍】

购买后可加入读者交流群，Crossin为你开启陪读模式，解答你在阅读本书时的一切疑问。

Crossin的其他书籍：

添加微信 crossin123 ，加入编程教室共同学习~

感谢转发和点赞的各位~

Crossin的编程教室

每天5分钟，轻松学编程。点击关注这里有浅显易懂的 Python 入门教程。编程世界的新手指南。

最新文章

真的建议赶紧搞个软考证书！（红利期）

用Python打造你的AI播客：从转录到语音生成

Pandas如何快速定位数据集中的缺失值？

何同学用到的ASCII-generator是干嘛的

not not x 和 bool(x) 用哪个比较好？

一文让你搞懂 Python 的 pyc 文件

万人期待的《算法图解（第2版）》终于来了！一天就能读完，236页很薄很有料，算法入门读这本就够了！

可视化大屏展示北京生活成本有多高

突发，这可能是软考最好过的一年！

REST API 已经25岁了：它从哪来？又往哪去？

总结下Python中的常用数据结构

Flask，极简的Web框架，助你快速开发

数据可视化学习者的福音！“对比Excel”畅销书系第5本新书来啦，轻松学习Python数据可视化

全体AI大模型的数学几乎都是0分？陶哲轩和Karpathy推荐的这个测试有多难

这几个高级爬虫软件真的强！

为什么说Python大数据处理一定要用Numpy Array?

预热双十一，某平台美妆销售数据可视化分析

一行Python代码能做什么?

AI产品榜第一是怎么来的？百度文库又进化了

用Python制作一个随机抽奖小工具

如何用Python读写Excel中图片？

如何选用最合适的图形表达数据？

强烈建议尽快搞个软考证！（重大利好）

聊一聊面试中经常问到的哈希表

如何将视频大小压缩90%？

专补大模型短板的RAG入门与实战书来了！

利用Python的Paramiko库让网络通信更安全

从诺贝尔奖到鬼畜视频

豆瓣9.3计算机神作：真遗憾为什么没再早一点读到这本书

Python开发者必知的错误跟踪技巧

OpenAI canvas一夜封神！超强AI编码研究神器，ChatGPT再次颠覆人机交互

8个超实用Python办公自动化脚本，提升你的工作效率

3个代码习惯，提升你的Python运行速度

别老用折线图柱状图了，试试这5种高级可视化图表

Python自带超好用的counter计数器

CSP25赛年开启：没有安排是万万不行的，只有安排是远远不够的！

深入了解os.environ环境变量管理

Python元类是怎么创建一个类的？

大模型辅助开发：哪些交给人，哪些交给AI？读完这本书我悟了！

pip install 成功了，import 却出错了

20个案例详解Pandas的数据统计与排序

五行Python代码自动更换你的电脑桌面壁纸

无敌了！强烈建议今年拿下软考！

Python上下文管理器：with语句

如何在Android上查看网络请求

《黑神话·悟空》是用什么编程语言开发的？

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

调试Python代码，也可以不用print

没想到啊！智能PPT这个需求，80%人都用百度文库

Python函数的动态参数传递全解析

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉