苹果发文质疑：大语言模型根本无法进行逻辑推理

科技 2024-10-14 15:01 山西

大数据文摘受权转载自学术头条

作者：田小婷

大语言模型（LLM）是真的会数学推理？还是只是在“套路”解题？

近年来，大语言模型在各种任务中的表现引起广泛关注。一个核心问题逐渐浮现：这些模型是否真正具备逻辑推理能力，还是仅仅通过复杂的模式匹配来应对看似推理的问题？尤其是在数学推理任务中，模型的表现究竟是在模拟人类思维，还是仅仅通过数据模式匹配得出答案？

日前，来自苹果公司的 Iman Mirzadeh 及其研究团队提出了一个名为 GSM-Symbolic 的新基准，针对多个开源模型（如 Llama、Phi、Gemma、Mistral）和闭源模型（如 GPT-4o、o1 系列）进行了大规模评估。

结果显示，当问题中的数值或名字变化时，模型的会表现出显著的波动。此外，随着问题难度的提升（如增加更多子句），模型的表现迅速下降，这表明这些模型在推理复杂问题时非常脆弱。

研究团队认为，这种表现下降并非偶然，而是因为当前的大语言模型缺乏真正的逻辑推理能力，更多是在基于训练数据中的模式进行匹配，而非像人类一样进行符号和逻辑推导。

即使是简单的变化，如调整问题中的数值，也能导致模型准确率下降 10%。而当问题增加一个额外但无关的子句时，性能下降幅度甚至高达 65%。

论文链接：https://arxiv.org/abs/2410.05229

大模型不具备形式推理能力？5 大证据来了

三年前，OpenAI 发布了 GSM8K 数据集（目前常用的一种小学数学推理基准数据集），测试 GPT-3（175B参数）在数学题上的表现，那时 GPT-3 的得分仅为 35%。如今，拥有约 30 亿参数的模型已能够在 GSM8K 测试中取得超过 85% 的得分，参数更大的模型甚至超过 95%。

然而，随着准确率的提升，疑问也随之而来：这些模型的推理能力是否真的进步了？它们的表现是否真的体现了逻辑或符号推理能力，抑或是简单的模式识别，数据污染，甚至过拟合的结果？

为进一步探索这一问题，研究团队此发了 GSM-Symbolic，用于测试大语言模型在数学推理中的极限。GSM-Symbolic 基于 GSM8K 数据集，通过符号模板生成多样化的问题实例，允许更可控的实验设计。

为了更清晰地观察模型在面对这些变体问题时的表现，他们生成了 50 个独特的 GSM-Symbolic 集合，这些问题与 GSM8K 问题类似，但更改了其中的数值和名称。

基于 GSM-Symbolic，他们从 5 个方面说明了为何他们认为大语言模型不具备形式推理能力：

1. GSM8K 的当前准确率并不可靠

通过对多个开源模型（如 Llama 8B、Phi-3）和闭源模型（如 GPT-4o 和 o1 系列）的大规模评估，他们发现模型在 GSM8K 上的表现存在显著波动。例如，Llama 8B 的准确率在 70%-80% 之间波动，而 Phi-3 的表现则在 75%-90% 之间浮动。

这也表明，模型在处理相似问题时表现并不稳定，GSM8K 上的高分并不能证明它们具备真正的推理能力。

图｜由 GSM-Symbolic 模板生成的 50 套 8-shot 思想链（CoT）性能分布，显示了所有 SOTA 模型之间准确性的显著差异性。

对于大多数模型来说，GSM-Symbolic 的平均性能低于 GSM8K（图中由虚线表示）。有趣的是，GSM8K 的性能落在分布的右侧，从统计学上讲，这仅有非常低的可能性，因为 GSM8K 基本上只是 GSM-Symbolic 的一次单一抽样。

2. 对名称和数字变动的敏感性

研究还发现，当前的大语言模型对问题中的专有名称（如人名、食物、物品）的变化仍然很敏感，当数字发生变化时，大语言模型就会更加敏感。

例如，仅仅改变问题中的名字，就可能导致模型的准确率变化高达 10%。如果将这种情况类比到小学数学测试中，仅仅因为改变了人名而导致分数下降 10% ，是非常不可思议的。

图｜当只更改名称、专有编号或同时更改名称和编号时，大语言模型的敏感性如何？总体而言，即使只更改名称，模型也有明显的性能变化，但当更改编号或合并这些变化时，性能差异更大。

3. 问题难度的增加导致表现急剧下降

研究团队通过引入三种新的 GSM-Symbolic 变体（GSM-M1、GSM-P1、GSM-P2），通过删除一个分句（GSM-M1）、增加一个分句（GSM-P1）或增加两个分句（GSM-P2），来调整问题难度。

图｜通过修改条款数量来修改 GSM-Symbolic 的难度级别

图｜增加条款数量对性能的影响：随着GSM-M1→GSM-Symb→GSM-P1→GSM-P2的难度增加，性能分布向左移动（即准确性下降），方差增加。

结果发现，随着问题难度的增加（GSM-M1 → GSM-Symb → GSM-P1 → GSM-P2），模型的表现不仅下降显著，且表现波动也变得更加剧烈。面对更复杂的问题时，模型的推理能力变得更加不可靠。

4. 添加无关子句对性能的巨大影响

为进一步测试模型的推理能力，研究团队设计了 GSM_NoOp 实验，在原有问题中添加一个似乎相关但实际无关的子句 (hence "no-op")。

结果显示，所有模型的表现都显著下降，包括性能较好的 o1 模型在内。这种现象进一步说明，模型并没有真正理解数学概念，而是通过模式匹配来得出答案。

图｜在 GSM-NoOp 上，模型的性能明显下降，较新的模型比旧的模型下降更大。

5. 扩展规模和计算能力并不能解决根本问题

此外，他们还探讨了通过扩大数据、模型规模或计算能力是否能够解决推理能力不足的问题。

Mehrdad Farajtabar 表示，尽管 OpenAI 的 o1 系列在性能上有一定改善，但它们也会出现这样的愚蠢错误，要么是它不明白“现在”是什么意思，要么是它不明白“去年”是什么意思，还有一种更可能的解释是，更大的训练数据具有这种模式，所以它又沿用了这种模式。

图｜o1-mini 和 o1-preview 的结果：这两个模型大多遵循我们在正文中介绍的相同趋势。然而，o1-preview 在所有难度级别上都显示出非常强大的结果，因为所有分布都彼此接近。

他认为，理解大语言模型的真正推理能力对于在现实世界中的应用至关重要，尤其是在 AI 安全、教育、医疗保健和决策系统等对准确性和一致性要求极高的领域。

研究结果表明，当前大语言模型的表现，更像是高级的模式匹配器，而非具备形式推理能力的系统。为了在这些领域安全、可靠地部署大语言模型，开发更为鲁棒和适应性强的评估方法显得尤为重要。

逻辑推理：大语言模型的真正挑战

研究人员表示，总体而言，这项研究没有发现大语言模型具备正式的逻辑推理能力，无论是开源模型，还是闭源模型。

它们的行为更像是复杂的模式匹配，甚至很脆弱，以至于简单改变名字就能导致结果变化约 10%。尽管可以通过增加数据量、参数规模或计算能力，或者为 Phi-4、Llama-4、GPT-5 提供更好的训练数据来提高表现，但他们认为这只会带来“更好的模式匹配者”，而不是“更好的推理者”。

有读者对 10% 的表现波动提出了疑问。对此，Farajtabar 回应道：

“如果你指的是 Llama 3 8B，它确实是一个先进的模型，并且假设已经通过大量精心设计的数据进行了训练，然而即便如此，10% 的偏差对我来说还是太大了。对于较旧的模型来说，这种波动更为明显。真正令人担忧的问题在于，当问题难度稍微提升（例如通过增加一个子句）时，偏差会迅速增加到 16%。是的，或许我们可以通过收集更多类似数据来缩小这些差异，但如果问题难度继续上升，这种偏差很可能会呈指数级增长。”

随着大语言模型在各类应用场景中被广泛采用，如何确保它们能够处理更复杂、更多样化的问题，已成为 AI 研究领域面临的下一个重大挑战。

未来，大语言模型需要突破模式匹配，真正实现逻辑推理，才能应对不断变化的现实需求。这也是 AI 社区共同努力的方向。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651735861&idx=1&sn=a397b40d99f4edfcbba37d929f4ba929

大数据文摘

普及数据思维，传播数据文化

最新文章

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

OpenAI CTO深夜离职！Altman再发长文：感谢她做的一切，我将专注于技术和产品

热门视频：人形机器人一拳破次元！远程暴打沙袋和乒乓球

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

西安一高校老师实名公开举报！397页PDF痛诉同院老师学术不端，评审推诿包庇

世界气象组织最新报告：AI正在革新天气预报，更快、更便宜、更易获得

为人工智能赋予机器人躯体的“登月计划”项目，倒在具身智能热潮之前

科普之旅｜漫话智能体-当机器学会思考

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉