首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

科技 2024-11-04 14:21 北京

梦晨发自凹非寺
量子位 | 公众号 QbitAI

OpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。

比如给生造的词分类任务，GPT-4在zero-shot提示下的准确率高达94%，换成CoT的准确率却断崖式下跌到64.4%。

内置CoT的o1-preview准确率更是只有57.7%。

CoT究竟会“搞砸”哪些任务，在学术界仍是一个悬而未决的问题。

现在，普林斯顿计算机系与心理系合作，确定了其中一些任务的特征：人类深思熟虑或被要求解释自己的思路时，也会降低在这些任务上的表现。

新论文“一步一步想，但小心脚下”已上传到arXiv。

心理学探索思维链掉链子原因

为了缩小要探索的范围，团队在CoT提示和人类进行语言思考之间进行了类比。

大模型和人类具能力有着根本不同，因此影响表现的约束因素也不同。如大模型的上下文长度很长，远远超出了人类的记忆限制。

因此，团队预计CoT将在以下情况下损害模型性能：

（i）深思熟虑会损害人类的表现
（ii）影响人类在任务上表现的约束条件，可以普遍性地推广到大模型。

在实验中，选择了心理学文献中的6项任务，其中隐式统计学习、面部识别、包含异常的数据分类符合假设条件。

隐式统计学习（Implicit Statistical Learning）

心理学研究发现，当包含统计模式的数据不用语言来描述时，人类可以更好地概括这些数据。

使用有限状态语法构建“人造单词”，参与者的任务是识别哪些单词属于同一类别。

人类参与者可以识别格式不正确的序列，但无法用语言表达他们判断的基础。

在几个开源和闭源模型上评估这项任务，发现与zero-shot提示相比，使用CoT提示时性能大幅降低。

面部识别（Facial Recognition）

另一类任务中语言思考会干扰视觉感知，称为语言遮蔽（verbal overshadowing）。

在实验中选用了经典的人脸识别任务，首先展示一个人脸照片，要求参与者从候选列表中找出同一个人。

人类参与者不说话直接选准确率更高，先描述看到的人脸再选的话面部识别能力反而受损。

多模态大模型的表现相似，当使用CoT提示时，所有模型性能都下降。其中较弱的模型倾向于回答“所有图像都是同一个人的”。

包含异常的数据分类（Classifying Data With Patterns That Contain Exceptions）

第三类任务设置比较复杂，其中包含一个陷阱。

有10辆不同的车需要分为A类和B类，每辆车有5个特征：

1个独特特征（车牌号，每辆车不同）
1个看起来有规律的特征，如颜色，但有20%的例外。
3个与分类无关的特征，如变速箱类型、座椅材质、车门数量

实际上只有车牌号才是最可靠的分类依据。

如果10辆车没有全部猜对，就会重新打乱顺序再来一轮，最多可以尝试15轮。

不用CoT提示时，模型很快就能记住每辆车的正确分类。使用CoT时，模型会陷入试图总结规律的思维定式，需要尝试的轮数增加。

和人类在被要求解释分类依据时的表现很像。

大模型和人类约束条件不同

同时，研究团队也找出三种，满足思考降低人类表现，但大模型使用CoT提示能提升性能的任务。

自然语言推理
空间直觉（涉及模型缺乏相关先验知识）
涉及工作记忆限制的任务

团队分析原因认为，模型和人类具有根本不同的能力，存在不同的约束条件影响其性能，

这是因为大模型拥有远超人类的工作记忆（上下文长度）和某些特定的逻辑推理能力。

换言之，CoT到底好不好用，还得具体情况具体分析。

这项研究更大的意义在于，将认知心理学与大模型之间建立了联系。

论文的讨论部分提出，心理学界几十年来积累的丰富文献中，或许还能找出更多推进大模型领域的见解。

论文地址：
https://arxiv.org/abs/2410.21333

— 完 —

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道，评选从企业、人物、产品三大维度设立了5类奖项。

欢迎扫码报名评选！评选结果将于12月MEET2025智能未来大会公布，期待与数百万从业者共同见证荣誉时刻。

点这里👇关注我，记得标星哦～

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247756503&idx=3&sn=d46468e8ddce96724c3b1749ea7a753e

追踪人工智能新趋势，关注科技行业新突破

最新文章

“清华AI医院”上线！首批42位AI医生亮相，诊断覆盖300余种疾病

国产4o大模型，秒懂国风李子柒

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

定档12月11日，MEET2025智能未来大会报名通道已开启！

刚刚，星舰第六次试验成功！猛禽发动机实现“太空重启”，降落过程大秀身姿

2499，AI浓度爆表！戴上这副眼镜，一句话点咖啡/实时翻译/AR导航全搞定

特斯联首款通用智能体发布，实现对物理世界的高维感知

港科大具身机器人团队，连续获亿级融资

ChatGPT付费功能免费用！Mistral把Canvas、Artifact全复制了

Qwen2.5更新百万超长上下文，推理速度4.3倍加速，网友：RAG要过时了

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

定档12月11日，MEET2025智能未来大会报名通道已开启！

腾讯AI大牛，被曝投身视频生成创业

北大等发布多模态版o1！首个慢思考VLM将开源，视觉推理超越闭源模型

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

如祺出行跑进智驾深水区 “数据闭环”为技术迭代提供更优解

智能交互创新赛落幕，哈工大AI智能背诵助手拿下特等奖｜OPPO智能体平台

AI能办专属信用卡了，Agent自己赚钱自己花，OpenAI合作伙伴打造

AI一键解析九大生物医学成像模式，用户只需文字prompt交互，微软UW等新研究登Nature Methods

定档12月11日，MEET2025智能未来大会报名通道已开启！

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

打破纪录！中国科学家让薛定谔的猫活了23分钟

视频大模型无损提速：删除多余token，训练时间减少30%，帧率越高效果越好 | NeurIPS

实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定

杨植麟发布Kimi新模型：数学对标o1，中考高考考研成绩全第一

航展附近这场无人机编队表演，竟用了钉钉AI助理出的方案

量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了，SU哈佛亚马逊最新研究引热议

不做Sora背后：百度的多模态路线是什么？

马斯克新官上任再起诉OpenAI！新证据称Ilya七年前就不放心奥特曼了

人大&港科大揭示大模型重要安全风险漏洞：利用概念激活向量破解大模型的安全对齐｜NeurIPS 2024

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

谷歌杀回来了！新版Gemini跑分超o1登顶第一，CEO：这才哪到哪儿

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

AI在《我的世界》PK盖楼，新旧Claude差距过于明显，网友：审美也是智力的一种

最后1天！2024人工智能年度评选，AI时代的行业先锋就等你来

大模型上了火山方舟：数据唯你可见，唯你所用，唯你所有

李飞飞吴佳俊团队新作：推出具身智能决策能力评价基准，o1-preview登顶 | NeurIPS

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

Meta最新触觉机械手登Science子刊封面，操作未知物体精度最高提升94%

大模型“取长补短”新思路入选NeurIPS'24，显著优于现有路由方法，南科大港科大出品

最后2天！2024人工智能年度评选，AI时代的行业先锋就等你来

把Runway、Luma们一锅端了！这款视频模型上“杀手级”功能：一致性魔咒终于打破

Keras之父，离职谷歌

百度打通两大国民产品！六边形AI创作新物种「自由画布」来了

小度为何押注AI眼镜？

今日最热论文：Scaling Law后继乏力，量化也不管用，AI大佬齐刷刷附议

稚晖君后宇树也来玩开源了：机器人操作数据集，采用抱抱脸LeRobot训练测试，网友：泰裤辣！

最后3天！2024人工智能年度评选，AI时代的行业先锋就等你来

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉