o1/Claude 集体翻车！陶哲轩等 60+ 顶尖数学家合力提出新数学基准，大模型正确率通通不足 2%

科技 2024-11-12 10:54 安徽

一水发自凹非寺
量子位 | 公众号 QbitAI

让大模型集体吃瘪，数学题正确率通通不到2%！

获大神卡帕西力荐，大模型新数学基准来势汹汹——

一出手，曾在国际数学奥赛中拿下83%解题率的o1模型就败下阵来，并且Claude 3.5 Sonnet、GPT-4o、Gemini 1.5 Pro等全都未攻破2%这一防线。

所以，新挑战者到底啥来头？？

一打听，这个新数学基准名为FrontierMath，由Epoch AI这家非营利研究机构号召陶哲轩在内的60多位顶尖数学家提出。

这群人这次铁了心要给AI上难度，直接原创了数百道极具挑战性的数学问题——

从数论中计算密集型问题到代数几何和范畴论中的抽象问题，涵盖了现代数学的大多数主要分支。

这些题有多难呢？按数学大佬陶哲轩对这项研究的评价说：

大模型们，至少需要再战个几年吧。

同时，卡帕西也表示非常喜欢这一新基准，甚至乐于见到大模型们“吃瘪”：

之所以引入这个基准，是因为大模型越来越多地碾压现有的数学基准

FrontierMath：评估AI高级数学推理能力的新基准

今年以来，大语言模型（LLM）开始在各种数学benchmark上疯狂刷分，而且正确率动辄90%以上。

宣传看多了，人也麻了，于是纷纷反思——

一定是现在的基准测试“被污染了”（比如让AI在训练阶段提前学习基准测试中的问题）。

对此，非营利研究机构Epoch AI看不下去了，于是直接联合60多位顶尖数学家（共获得了14枚IMO金牌）推出FrontierMath。

这一新基准拥有数百道大模型们之前没见过的数学题，而且难度颇高。

通常需要专业数学家花费数小时甚至数天的努力

一番实践检验下，果不其然，一众顶尖大模型纷纷折戟（包括Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等），解题率均不足2%。

而且即使有延长的思考时间（10,000个token）、Python访问权限以及运行实验的能力，相关成功率仍然低于2%。

下面，我们具体介绍下FrontierMath。这第一关主要解决数学题的原创性。

这群数学家们被要求按照3个关键原则设计题目：

所有问题都是新的且未发表的，以防止数据污染；
解决方案是自动可验证的，从而实现高效的评估；
问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低；

除了出新题，为了防止数据污染，机构还采取了其他措施。

比如为了最大限度地降低问题和解决方案在网上传播的风险，机构鼓励所有提交都通过安全、加密的渠道进行。

具体来说，机构采用加密通信平台与投稿人协调，并要求对在线存储的任何书面材料进行加密（如加密文档）。

同时，机构依赖于核心数学家团队专家评审这一原创验证性方法，以识别自动化系统可能错过的潜在相似性（专家比机器更熟悉这些研究细节）。

当然也不完全依靠人力，为了进一步保证原创性，机构还通过抄袭检测工具Quetext和Copyscape对问题进行测试。

最终，数学家们提出了数百道原创题目，涵盖了现代数学的大多数主要分支，从数论中计算密集型问题到代数几何和范畴论中的抽象问题。

其中数论和组合学最多，合计约占所有MSC2020（数学学科分类系统2020版本）的34%。

接下来，为了评估大模型在FrontierMath问题上的表现，研究开发了一个框架。

简单说，这一框架具体执行任务的过程如下：

分析问题：模型首先分析给定的数学问题；
提出策略：模型提出可能的解决方案策略；
实施并执行代码：将这些策略转化为可执行的Python代码并自动执行；
接收反馈：从代码执行的结果中接收反馈，包括输出和错误消息；
改进方法：根据实验结果，模型会验证中间结果，测试猜想，并可能改进其推理过程以修正潜在的错误；

该框架支持两种提交方式：一种是模型可以直接给出问题的最终答案；另一种是，在提交最终答案之前，模型可以先通过代码执行进行实验，以验证其解决方案的有效性。

不过需要提醒，在提交最终答案时，模型必须遵循一些标准化格式。

比如，在答案中需包含#This is the final answer这一标记注释，且将结果保存在Python的pickle模块中，同时需确保提交的代码必须是自包含的，不依赖于先前的计算。

总之，这一评估过程将持续进行，直到模型提交了正确格式化的最终答案，或者达到了预设的标记限制（研究设置为10,000个token）。

如果模型在达到标记限制之前没有提交最终答案，它将收到一个最终提示，要求立即提交最终答案；
如果在收到该提示后模型仍然无法提供正确格式化的最终答案，则该尝试被标记为不正确。

陶哲轩看了都说难

为了进一步验证FrontierMath的难度，该机构还特意采访了4位数学大佬。

包括菲尔兹奖得主陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998)，以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)在内，他们一致认为这些题非常具有挑战性。

下一步Epoch AI也计划从四个方面持续推进：

定期评估这些领先的大模型，并观察高级数学推理能力随时间推移和规模扩大而提高的情况；
保持难度的同时，向FrontierMath添加更多问题；
在未来几个月内发布更多代表性问题，供大家研究讨论；
扩大专家审查、增加错误数量和改进同行评审流程来加强质量控制；

这也合了卡帕西的心意，他认为这样的新基准应该更多，尤其是为那些看似“容易”的事情创建评估。

之所以引入这个基准，是因为大模型越来越多地碾压现有的数学基准。有趣的问题是，尽管从许多方面（/evals）来看，大模型正逐步跻身顶级专家行列（如数学和编码等），但你不会雇用他们而不是让他们从事最琐碎的工作。
如果你把问题描述整齐地放在盘子里，他们就能解决复杂的封闭式问题，但他们很难连贯地把长长的、自主的、解决问题的序列串联起来，而人却会觉得非常容易。
这是莫拉维克悖论的变相，他在30多年前就观察到，对人类来说容易/困难的事情，与对计算机来说容易/困难的事情，在非直觉上可能大相径庭。
例如，人类对计算机下国际象棋印象深刻，但国际象棋对计算机来说却很容易，因为它是一个封闭的、确定性的系统，具有离散的行动空间、完全的可观测性等等。
反之亦然，人类可以系好鞋带或叠好衬衫，而且根本不需要考虑太多，但这是一项极其复杂的传感运动任务，对硬件和软件的技术水平都是挑战。
这就像不久前OpenAI发布的魔方一样，大多数人都把注意力集中在解魔方本身（这是微不足道的），而不是用机器人的手转动魔方的一个面这一实际难度极高的任务。
因此，我非常喜欢这个FrontierMath基准，我们应该制作更多的基准。但我也认为，如何为所有 “容易 “但其实很难的东西创建评估是一个有趣的挑战。
很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出…… 我们如何建立良好的 “初级工作 “评估？就像你对团队中任何初级实习生的期望。

网友也表示，能在这种基准测试中取得高分的大模型将大有裨益。

陶哲轩梦想的就是这样的东西，可以连接到LEAN（微软研究院推出的一款定理证明器），让数学家成为编辑、顾问，偶尔处理一些真正困难的部分，而其余部分则自动化且可证明正确。
很难说一个在这次基准测试中能够达到80%的LLM对数学家来说没有用处。

对此，你怎么看？

论文：
https://arxiv.org/html/2411.04872v1

参考链接：
[1]https://x.com/EpochAIResearch/status/1854993676524831046
[2]https://x.com/karpathy/status/1855659091877937385?s=46
[3]https://news.ycombinator.com/item?id=42094546

推荐阅读

（点击标题可跳转阅读）

《机器学习 100 天》视频讲解

公众号历史文章精选

我的深度学习入门路线

重磅！

1700多页的《人工智能学习路线、干货分享全集》PDF文档

扫描下方二维码，添加我的微信，领取1700多页的《人工智能学习路线、干货分享全集》PDF文档（一定要备注：资料）。

长按扫码，申请入群

感谢你的分享，点赞，在看三连

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247568031&idx=3&sn=62279df43f284191e440c8b4c58a9d53

AI有道

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

o1/Claude 集体翻车！陶哲轩等 60+ 顶尖数学家合力提出新数学基准，大模型正确率通通不足 2%

一水 发自 凹非寺量子位 | 公众号 QbitAI

FrontierMath：评估AI高级数学推理能力的新基准

陶哲轩看了都说难

一水发自凹非寺
量子位 | 公众号 QbitAI