首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

科技 2025-01-05 12:42 北京

奇月发自凹非寺
量子位 | 公众号 QbitAI

只是换一下数学题的变量名称，大模型就可能集体降智？？

斯坦福大学最新研究表明，在他们最新提出的Putnam-AXIOM测试集上，仅仅是更换一下原题目的变量名称、变量取值范围，模型的准确率就直线下降。

也就是说，大模型的数学推理能力并不是真正掌握了解题逻辑，很可能只是检索已存储的题目……

即使是表现最好的o1-preview，它的成绩也从50%下降到了33.96%，GPT-4o、Claude、Deepseek、Qwen等模型也几乎是全军覆没。

要知道，模型推理能力的稳健性可是非常重要的指标，能代表他们是否真正掌握了解决方法：

有网友锐评到：o1的o不会是overfitting的o吧？（doge）

还有热心网友做了解释，他认为模型的搜索空间会随着深度指数级增长，搜索时间越长，搜索的难度也会更高。

全新无污染的数学测试基准

LLM在复杂数学问题上的推理能力逐渐成为模型发展的关键挑战，然而现有的评估基准，如MMLU、MMMU、GSM8K和MATH等却面临着很多问题。

一方面，数据污染可能导致模型在评估中表现虚高，因为模型可能在训练过程中接触到了评估基准中的问题。

另一方面，最先进的模型在许多现有基准上已经达到或超过人类水平，这使得这些基准失去了应有的评估价值。

对此，斯坦福研究团队提出了Putnam-AXIOM基准，专用于评估模型在解决复杂数学问题上的能力。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。

随便举个例题大家感受一下：

这些题目涵盖了11个不同数学领域的问题，团队也进行了筛选，确保能产生便于自动化评估的\boxed{}答案。

同时，他们还借鉴MATH数据集的方法进行模型评估，并设计了一个等价函数，可以解决字符串不一致问题、和复杂的数学等价同质化问题。

除此之外，为防止模型在训练过程中遇到Putnam原问题而出现评估偏差，团队还引入了功能变异构建变异数据集。

变异分为变量变化（仅改变量名）和常数变化（修改数值属性）两类，能生成无限多相同难度的新问题，而且这些问题在互联网上没有现成的答案。

具体的变化形式就像这样：

在实验中，研究人员将1985-2023年的竞赛中的236个问题整理成标准化格式，使用LM Harness评估框架对多个开源模型的SOTA LLMs进行评估。

样本包括236个原始问题和52个变异问题，参与测试的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模型。

题目一变，模型集体懵

实验结果有些令人意外，模型们的表现都不太乐观。

首先来看看模型们在原始数据集上的表现。

多数模型的准确率都低于10%，曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%，可见Putnam-AXIOM数据集难度真的很高。

而在变异数据集上，模型们的准确率则显著下降。

比如在原始数据集上表现最好的o1-preview，准确率为50%，而在变异数据集中则降到了33.96%。

也就是说，o1-preview模型在原始问题上表现可能虚高，之前的得分主要是依赖记忆而非真正的推理能力。

排名第二的Claude在原始数据集上的准确率为26.40%，而在变异数据集上的准确率降至18.86%，其他模型的分数也基本都下降了。

团队还进一步对OpenAI o1-preview和GPT-4o的答案进行了分析。

结果发现它们的错误都比较严重，在逻辑推理和数学严谨性方面存在着明显的缺陷。

下面一起康康几个例子。

比如o1-preview在解答问题时就没能提供充分的证明，它声称m的最大可能值是n，理由是m的上界是2n，但它没有说明为什么m的值介于n和2n之间不可行。

而GPT-4o则存在逻辑跳跃和不连贯的推理，比如在下面这道题中，它从逻辑上直接跳转到面积最小的几何形状是矩形这一观点，但并没有证明这一说法的合理性，而是将其默认为事实。

DeepSeek的模型也在关键步骤思维发生了跳跃，导致最终结果失误。

看来，提升大模型的数学能力还是任重道远呀！

不过斯坦福大学这篇文章中的Putnam-AXIOM基准的确缓解了现有基准饱和的问题。

它不仅为评估模型的数学推理能力提供了一个非常有挑战性的新方法，还实现了完全自动化评估、并提供了丰富多样的变体数据集。

团队也表示，虽然目前变体数据集生成过程复杂耗时，但未来如果能优化变体生成方法，将更有助于加速关于人工推理的研究。

论文：https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf
代码：https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

— 完 —

量子位年度AI主题策划正在征集中！

欢迎投稿专题 一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

追踪人工智能新趋势，关注科技行业新突破

最新文章

一言不合和boss耳光大战，年轻人蜷缩的AI世界好癫

华为王辉：超大规模集群训推和网络自动驾驶，是AI在网络中深度应用的发展方向 | MEET 2025

Felix Hill临终信公开：耗时18个月写完，AI天才的挣扎与告别

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

CES2025倒计时，量子位AI专题已就位

奥特曼年终总结，明确AGI如何实现，2025奔向超级智能

千寻智能高阳：RobotGPT-1阶段已至，4年后达到3.5阶段 | MEET 2025

「为啥最强开源CPU是中国的」，硅谷大V灵魂发问，震动50万人在线围观

斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准，能力涌现怕不是检索题库

CES2025倒计时，量子位AI专题已就位

全网都在扒的DeepSeek团队，是清北应届生撑起一片天

AGI-Eval团队：AI视频生成模型年度横评，Sora大饼落地，但国产模型仍然领先！

破解大模型隐私防线，华科清华联手实现微调数据90%精准识别 | NeurIPS24

CES2025倒计时，量子位AI专题已就位

刚拿下NeurIPS最佳论文，字节就开源VAR文生图版本，拿下SOTA击败扩散模型

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

Grok新生图功能大翻车，画人总是画不对，网友喊话马斯克：给谷歌道歉

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

CES2025倒计时，量子位AI专题已就位

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

昆仑万维周亚辉：AGI时代也叫机器人时代，决定未来十年新首富

阿里零一万物强强联合！成立产业大模型联合实验室

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

CES2025倒计时，量子位AI专题已就位

具身智能工业场景需求明确，扩大应用场景和处理复杂数据仍是发展重点｜云深处李超@MEET2025

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

阿里前端第一人AI创业首秀，要做全球内容创作者的GitHub！公司俩月估值过亿，5k人排队内测

本科学历但创造出GPT，奥特曼盛赞为「爱因斯坦级」天才，OpenAI总裁：他想要的，我们都给

搞乐队的物理学家，开始给普通人科普黑洞了

这届打工人太难带？全能智能体出手了

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

黄仁勋自掏腰包50亿，开源英伟达GPU管理工具

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

奥特曼公布OpenAI新年目标：AGI/Agent排前列，4o/Sora要更新，还有……

智谱版o1终于也来了：直接拿下考研数学，一句话就能做小游戏！

智源王仲远：多模态大模型对产业更加重要，得多模态大模型得天下 | MEET 2025

AI视频突飞猛进这一年，国产之光可灵AI笑到最后

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

LeCun：对人工智能末日的担忧被夸大了，Meta正在构建超级智能助手

一张图生成高质量广视野3D场景，还可控制摄像轨迹

南京大学FinTech课题组招募大模型AI4Finance国际联培博士生

稚晖君开源百万机器人真机数据集

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

DeepSeek V3“报错家门”：我是ChatGPT

算力直降97%，GPT-3存储只用20MB？！这篇直接在1.58-bit下训练模型的新论文火了

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

北大数学家独作论文登数学顶刊！袁新意统一了算术与几何Bogomolov猜想

CPO薪资倒挂CEO，创业公司薪酬情况大起底

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉