什么原因？OpenAI o1准确率竟下降36.3%！

科技 2024-11-07 06:37 中国

思维链（CoT）已被证明可以在许多任务（如多步骤推理）上显著提升大模型的性能。然而，在哪些情况下，CoT 会系统性地降低大模型的性能，这仍然是一个有待进一步讨论的问题。

如今，来自普林斯顿大学和纽约大学的研究团队，参照思考对“人类性能”的影响，提出了新的见解。

他们认为，虽然模型的认知过程与人类的认知过程并不完全相同，但可以参照思考对人类“性能”产生负面影响的情况，假定思考会对模型产生负面影响的环境。

他们从心理学中选择了 6 项已被充分研究的任务类型来探讨 CoT 对 LLM 性能的影响，并验证了 CoT 在一些任务中甚至可能导致模型准确率下降。

这一发现不仅为未来优化 LLM 的提示策略提供了新思路，还为理解人类与模型在推理过程中的相似性与差异性带来了新见解。

论文链接：

https://arxiv.org/abs/2410.21333

研究表明，CoT 并非在所有任务中都能提高模型性能，在隐性统计学习、面部识别、含例外模式的数据分类三种情况下，各种 SOTA 模型的性能都会明显下降。此外，研究本身进一步揭示了通过人类心理学研究大模型的可行性。

研究方法

为分析 CoT 对大语言模型（LLM）与多模态大模型（LMM）性能的影响，该研究的方法框架基于以下两个关键条件：

（1）言语思考或深思熟虑会损害人类“性能”的情况。

（2）将制约人类“性能”的因素推广到语言模型的情况。

之后，为验证“CoT 在一些任务中会导致模型表现下降”的假设，研究团队在上述两个条件的指导下基于人类心理学设计了以下 6 种任务场景：

隐性统计学习（Implicit Statistical Learning）：考察模型在隐含语法结构的分类任务中使用 CoT 是否会降低表现。基于心理学中的实验结果，该研究假设人类在进行语言推理时往往表现较差，因此 CoT 在该场景下应有类似的效果。
面部识别（Facial Recognition）：在该任务中，模型需要识别图像中的人脸。基于人类在口头描述面部特征后识别率下降的现象，研究假设 CoT 会影响模型的面部识别准确性。
含例外模式的数据分类（Classifying Data with Patterns that Contain Exceptions）：该任务模拟模型在含有异常标签的数据中学习的表现。研究假设 CoT 会导致模型在遇到例外情况时增加学习轮次，因为人类通常会倾向于建立简单规则，从而忽视个别特例。
解释逻辑不一致（Explaining a logical inconsistency）：在逻辑一致性判断任务中，模型需要识别出两句话之间的逻辑冲突，该任务通常会引发人类的语言推理困难。
空间直觉（Spatial Intuitions）：模型需要推断液体在倾斜容器中的位置。该任务依赖空间和运动直觉，心理学研究表明人类在使用语言推理时效果不佳，该研究假设模型也会遇到类似问题。
特征聚合决策（Aggregating Features for a Decision）：模型在多维度决策情境中聚合信息并做出决策。由于信息过载通常会导致人类在 CoT 模式下表现不佳，因此研究假设在该任务中，CoT 将不会提高模型性能。

图｜对 6 项任务进行评估，以确定 CoT 提示是否会降低任务的绩效。（来源：该论文）

针对每个任务场景，研究团队分别构建了零样本（zero-shot）和 CoT 提示条件，并在多个主流 LLM 和 LMM 上进行测试，包括 GPT-4o、Claude 3.5、Llama 等，通过对比不同条件下模型的准确率，量化 CoT 提示的效果，从而验证他们的假设。

实验结果

研究团队首先对满足上述两个关键条件的 3 类任务场景进行实验验证。

隐性统计学习

针对该情境，该研究考察了模型在分类基于特定语法结构的序列时的表现。任务包含 4400 个分类问题，基于 100 种有限状态语法（FSG）结构，每个测试提供 15 个样例，再要求模型对新序列进行分类。

实验结果显示，使用 CoT 提示的模型表现显著下降，尤其是 OpenAI o1-preview 模型的准确率下降了 36.3%。这表明当模型过度依赖逐步推理时，CoT 可能会抑制其对隐性统计模式的学习能力。

图 | 人工语法学习中 zero-shot 和 CoT 对比结果。（来源：该论文）

面部识别

在该任务情境中，该研究测试了 CoT 是否会影响模型的面部识别能力，这是基于心理学中“语词遮蔽”现象进行的任务情境设计。模型需要在 500 项任务中从 5 个候选中匹配初始人脸。

结果表明，当被要求执行 CoT 时，每个被测试的 LMM 都显示出性能下降，与假设一致。

图｜面部识别中 zero-shot 和 CoT 提示的对比。（来源：该论文）

含例外模式的数据分类

该任务通过包含多个主次特征的分类任务来测试模型在处理含例外情况时的表现，任务要求模型在多次分类中逐步学习，目标是尽可能减少迭代次数。

实验在 GPT-4o、Claude 3.5 Sonnet 和 Claude 3 Opus 上进行，结果表明，CoT 显著增加了学习轮次。平均来看，GPT-4o 在 CoT 条件下完成正确分类所需的轮次为直接提示的四倍，而 Claude 3.5 Sonnet 和 Claude 3 Opus 的轮次需求也分别增加至直接提示的两倍多。

图｜使用直接或 CoT 提示，模型学习标签的平均轮数。（来源：该论文）

在 GPT-4o 的进一步分析中发现，直接提示使模型在第二或第三轮就能达到完美分类，而使用 CoT 时模型在第四到第五轮仅能正确分类 8/10 的对象。这表明 CoT 提示会引导模型偏向基于规则的推理方式，而忽视了已知的正确答案，导致分类效率大幅下降。

之后，研究团队又对满足条件（1）但不满足条件（2）的三类任务情境开展实验。

解释逻辑不一致

在该任务中，模型需要识别句子对中的逻辑矛盾性。该任务基于 SNLI 和 MNLI 数据集以及合成数据集。

研究发现，CoT 增加了模型忽视矛盾的可能性，模型在逐步推理时更倾向于关注复杂的逻辑结构，从而忽视了直接矛盾判定。这表明在需要精确逻辑验证的任务中，CoT 提示存在局限性。

图｜逻辑不一致任务中比较 zero-shot 和 CoT 的结果。（来源：该论文）

空间直觉

在该情境中，模型需要通过“倾斜杯子”的问题来推断水面的位置。这类任务依赖于人类的空间或运动直觉，而人类通常在非言语思维下表现更好。

模型接收了视觉提示和多项选择答案，实验结果显示，使用 CoT 提示对模型表现无明显影响。这说明在依赖空间或运动直觉的任务中，模型的推理方式与人类的直觉差异较大，因而 CoT 提示的负面影响较小。

图｜空间直觉任务中 zero-shot 和 CoT 的比较结果。（来源：该论文）

特征聚合决策

此任务模拟了基于多项特征的决策过程（如选房），用于测试信息超载对决策的影响。人类在类似任务中由于记忆限制，往往在 CoT 模式下表现较差。相对地，模型保留了所有上下文信息，能够无损地聚合和评估每项特征。

结果显示，CoT 提示在高上下文记忆任务中提高了模型表现，说明在信息保留至关重要的场景下，CoT 提示能够发挥正向作用。

图｜四种模型和三种范围内的公寓选择任务结果。（来源：该论文）

不足与展望

当然，该研究也存在一些局限性，如下：

inference-time 推理的类型。自从 CoT 提示被提出以来，研究人员开发了多种特定于应用领域的提示方法，以及更复杂的多次前向传递的通用提示方法，如思维树（tree-of thought）和自一致性（self-consistency）。他们在 GPT-4o 模型上测试了思维树方法在隐式统计学习任务中的有效性，发现其确实提高了分类准确率（64.55% vs. 62.52%），但仍远低于零样本推理的 94.00% 准确率。未来的研究仍需探索此方法是否可以适用于其他任务领域和模型中激发语言思维的方法。

应用范围。尽管这一研究基于心理学的启发式方法提供了一种识别 CoT 失败案例的策略，但这无法涵盖所有可能导致 CoT 表现下降的情况。现有的心理学研究基于多种理论和实际考量来研究人类，并不能提供涵盖所有任务的详尽或代表性样本，且会遗漏一些仅在模型中具有研究价值的特殊案例。

关于 CoT 未能复制人类结果的替代解释。对于 CoT 在后面三个任务中没有观察到表现下降，存在一种替代解释——在 LLM 中实现这些任务的方式消除了表现下降的效果。虽然研究对后三个任务情境进行了多种变体的探索，但由于提示的变化几乎是无穷无尽的，这些探索并不详尽。

研究团队表示，虽然该研究聚焦于 CoT 推理，但所提出的框架为利用人类心理学研究评估和改进模型表现提供了一种通用策略。

他们认为，未来还需要更多的跨学科合作，通过将自然语言处理方法、心理学见解与人类和模型表现比较的相关研究相结合，可以形成更全面的 AI 评估和改进策略。

http://mp.weixin.qq.com/s?__biz=Mzk0MzYxMjgwNw==&mid=2247488034&idx=1&sn=bbe1f36b7625ffcdf3baa05b293efca7

AI科技之窗

全网最懂AI的科技博主！200万科技爱好者都关注的公众号。全面解读全球AI新闻。未来是人工智能提升生产效率的时代，2024年AIGC，智能驾驶，量子计算机，万物互联，虚拟现实等等应用爆发的一年，当下正在经历第四次科技革命。

最新文章

寒武纪！为所欲为？快哉！

蓝色光标：什么是真正的All in AI？

港大孵化“独角兽”，赴港上市遭疯抢！公开认购超5000倍。

什么原因？OpenAI o1准确率竟下降36.3%！

【重要通知】智算技术与算力规划设计及部署方案与实践在南京开班了！！！

国产GPU龙头千卡集群大突破，性能提升近一倍！

真恶心！寒武纪又爆雷亏7个亿。（文中有惊喜）

老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。

OpenAI新技术提效50倍

GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

大超越GPT-4,讯飞星火4.0 Turbo发布，首发11项技术及应用

4年亏损100亿，估值1000亿！特朗普垂涎三尺的独角兽即将香港上市。

拜登寐以求封杀的“中国独角兽”，寒武纪遭骂，谁之过？

9月全球代表作学术排名——量子物理与医学研究新突破，材料科学与跨学科创新成就

逆袭传奇！国产大模型黑马杀出重围，直逼腾讯宝座，73.56高分不得不服！

奥迪“臣服”国产智驾？特斯拉坐不住了，商汤解密背后真相！

“寒王”把黄阿姨推倒：“服不服？”

AI双杀诺贝尔奖！难道霍金预言成真了？

太硬了！忍了44年，那个男人终于憋不住了！发射！

焦虑了！大厂连夜紧急开会！GPT-5高达5万亿参数。比GPT-4强大100倍。GPT Next？

不可思议！龙芯GPU逆袭！英伟达黄急跳墙，算力提高10倍。

开创“寒武纪” 陈天石：“未来无处不在的AI应用的垫脚石”。

从“冷门”中诞生，“寒武纪”是怎样炼成的？ | 科技自立自强之路

谷歌T G6芯片曝光：台积电2nm，三星良率不足10%。TPU能否撼动苹果的地位？

英特尔斩获再获35亿美元补贴，美军国防芯片生产成关键转折点。

历史记录！甲骨文豪掷13万块Blackwell GPU，打造全球最大的算力集群。总投资200亿美元。

不为人知的秘密！OpenAI 草莓o1大模型，急需10万颗B200集群算力。

眼前一黑！国产GPU大地震！“华夏芯”白菜价破产，起拍价不到30000元！

麻雀变凤凰！联想美国市场份额达到14%，联想到底做对了什么？

《冰封王座》——中科寒武纪屁股做空。

离了大谱！国产GPU龙头轰然倒下，哭着：“我们到底做错了什么？”

扬眉吐气！国产高铁“芯片”打破50年垄断，西方慌了：立马降价

菲律宾飘了？前脚挑衅我国，后脚又想强卖5.4万吨榴莲，中方：白日做梦！

向全世界宣布！我国科学家新突破：打破欧美垄断，万元洋货大跌85%

3000万钻石豪车出圈，河南5位数高定钻排单紧俏，富豪：想要得靠抢

为什么说海光才是国产AI PC黑马？

坚决“去中国”到底！反华弹丸小邦外债470亿将破产，我方：再拆200条铁轨

宁愿报废也不卖给中国！俄方撕毁4.6万吨级核潜艇订单，背后留有一手？

正面硬刚！国产时间科技打破美日20年垄断，美媒崩溃：能不能别卷了

AI算力全场景应用，国产DCU加速卡卖疯了！

谷歌前CEO警告：AI控制权=世界霸权？中国想做老大！——失控的AI竞赛

又一个美国科技巨头趴窝，1000名精英被裁，想不到的竟然是。。。

"科技战升级！美国重拳出击：42家中企入'黑名单'总数量已超1300家。全球科技版图震动！

狂跌97%，中国造出首台1.9ATA“时光舱”，欧美哀叹：往后高价卖给谁？

两个宇航员都没回来，美国还想定月球时间？结局大快人心

靠一辆自行车,征服任正非的天才少年稚晖君！发布了0元模块化机器人。碾压特斯拉！

拦不住了？ 4款战机齐上舰，福建号“四试”蓄势待发，直捣美国家门

惹不起俄方，转身挑衅中国？弹丸小国千里来犯，6000吨战舰直逼东海

美国防部认怂！中国雷达巨头被移出黑名单，获胜手段很少人看懂

挑衅不成反自损？菲律宾又来碰瓷，被撞出1米大洞，中方发出最后通牒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉