LLM不会CoT隐性推理，只会显性推理！

科技 2024-12-10 00:01 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 深度学习自然语言处理

作者 | chenyi

这篇文章探讨了大型语言模型（LLMs）在隐式推理中的表现，发现尽管隐式推理理论上更为高效，但实际上并不等同于显式推理链（CoT）。研究表明，LLMs在进行隐式推理时并未真正进行逐步计算，而是依赖于经验和直觉，这使得其推理过程不稳定且不可靠。文章通过实验验证了这一点，并强调了显式CoT方法在处理复杂任务时的必要性。

论文: LLMs Do Not Think Step-by-step In Implicit Reasoning
链接: https://arxiv.org/pdf/2411.15862

研究背景

研究问题：探讨了大型语言模型（LLMs）在隐式链式思维（implicit CoT）推理中的表现，特别是与显式链式思维（explicit CoT）方法的比较。尽管隐式 CoT 在理论上更具效率，但实验表明其性能仍然落后于显式 CoT。
研究难点：如何有效探测和分析模型在隐式 CoT 中的中间步骤信息，以及如何验证隐式 CoT 是否真正等同于显式 CoT。
相关工作：包括 OpenAI 的 o1（Qin et al., 2024）等，这些工作展示了 CoT 训练的强大能力。然而，现有研究大多集中在基于知识的问题上，较少涉及基本的多步问题，如算术。

研究方法

这篇论文提出了通过实验探测模型在隐式 CoT 中的中间步骤信息，以验证其是否真正进行逐步推理。具体来说，

实验设计：使用简单的多步算术问题，通过提示强制模型在不使用 CoT 的情况下直接给出答案。例如，一个5步问题的提示如下：
问题：A 的值是多少？你必须直接回答 A=xxx。
数据收集：随机改变问题中的值，生成2000个不同样本，记录每个样本的中间结果。例如，上述示例的中间结果为 [8,3,5,10,9]。
线性探测方法：采用典型的线性探测方法，使用一层 MLP 从隐藏状态中预测每个中间结果。控制所有中间值在 -10 到 10 之间，使探测成为一个21类分类器（每个值对应一类）。
模型选择：选择大型模型 Qwen2.5-72B-Instruct 进行隐式推理，因为较小的7B级模型难以在没有 CoT 的情况下正确解决多步问题，而70B级模型的准确率超过50%。由于72B模型有80层，为了减少计算成本，将每4个连续层的隐藏状态平均。

实验设计

数据收集：生成2000个不同样本，每个样本包含5步算术问题的中间结果。
样本选择：每个样本的最后一个token作为主要研究对象，记录其每一层的隐藏状态。
参数配置：使用1600个样本训练分类器10个epoch，400个样本测试其准确率。每个隐藏状态组作为输入特征训练一个单独的分类器，最终得到 20∗num_steps 个分类器。

结果与分析

中间步骤探测结果：在3步和5步问题中，第一层和最后一层的结果总是可以成功探测，表明模型确实记住了输入值并构思了最终答案。然而，第二层的结果探测准确率较低，中间步骤的结果几乎无法检测。这表明模型可能具有2跳推理能力，但在涉及更多步骤时则不行。
提示微调结果：通过反转方程顺序和将所有值除以10的方法稍微修改问题，发现使用隐式推理时，模型的性能显著下降，而显式推理的性能始终完美。这进一步表明，隐式推理实际上是依靠经验和直觉直接得出答案，而不是逐步推理。

总体结论

这项研究表明，尽管大型语言模型在许多情况下可以直接给出多步问题的正确答案，特别是在模型较大时，但它们并没有真正进行逐步推理。隐式推理可能只是模型强大记忆和丰富经验的幻觉，与传统的逐步推理机制完全不同。当前技术条件下，没有完美的解决方案可以在保持解决复杂问题准确性的同时让LLMs输出很少的token。因此，使用显式 CoT 方法来扩展测试时间可能是目前最为可行的方法。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉