Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

科技 2024-11-16 13:37 北京

新智元报道

编辑：Aeneas 好困

【新智元导读】最近，Nature上的一项研究，全面驳斥了LLM具有类人推理能力的说法。研究者设定的「人类亲吻难题」把7个大模型彻底绕晕。最终研究者表示，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。

LLM究竟是否拥有类似人类的符合理解和推理能力呢？

许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。

然而，来自帕维亚大学、柏林洪堡大学、得克萨斯大学休斯顿健康科学中心、纽约大学、巴塞罗那自治大学的研究者却提供了一些最全面的证据，表明目前它们基本没有！

论文地址：https://www.nature.com/articles/s41598-024-79531-8

基于一个全新的基准数据集，研究者对目前最先进的7个模型（包括GPT-4、Llama2、Gemini和 Bard）进行了评估。

他们让模型回答了理解性问题，在两种设置下多次被提示，允许模型只回答一个单词，或给出开放长度的回复。

约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？
史蒂夫拥抱了莫莉，莫莉亲吻了唐娜。在这种情况下，莫莉被吻了吗？
杰西卡和玛丽被爱丽丝亲吻了。杰西卡被塞缪尔亲吻，安德鲁被玛丽亲吻。在这种情况下，玛丽被吻了吗？
鲍勃亲吻了唐娜，芭芭拉亲吻了彼得。唐娜被爱丽丝拥抱。在这种情况下，爱丽丝被拥抱了吗？

为了建立实现类人表现的基准，他们在相同的提示下，对400名人类进行了测试。

基于n=26,680个数据点的数据集，他们发现，LLM准确性有偶然性，但答案却有很大波动。

他们还探讨了理解性问题答案的「稳定性」。结果表明， LLM缺乏强有力、一致的回应。

之后，他们测试了ChatGPT-3.5的一系列低频结构、探索语法，包括身份回避（「渔民捕获的鱼吃虫子」）、比较结构（「去过俄罗斯的人比我去过的次数多」）和语义异常（「……我们应该把幸存者埋在哪里？」这类谜题）。

ChatGPT的表现非常差劲。

研究者将这一证据解读为一种证明：尽管当前的AI模型具有一定的实用性，但仍未达到类人语言的水平。

原因可能在于，它们缺乏用于有效调控语法和语义的组合运算符信息。

最后，研究者强调说：在语言相关任务和基准测试中的出色表现，绝不应该被用来推断：LLM不仅成功完成了特定任务，还掌握了完成该任务所需的一般知识。

这次研究表明，从数量上讲，测试模型的表现优于人类，但从质量上讲，它们的答案显示出了明显的非人类在语言理解方面的错误。

因此，尽管LLM在很多很多任务中都很有用，但它们并不能以与人类相匹配的方式理解语言。

人类利用类似MERGE的组合运算符，来调节语法和语义信息

AI对语言的深层含义不敏感

LLM为什么这么容易受到莫拉维克悖论的束缚——在相对简单的任务上却会失败？

这是因为，在需要记忆专业知识的任务中的良好表现，并不一定建立在对语言的扎实理解的基础上。

对人类大脑最擅长的简单、轻松的任务来说，逆向工程却更加困难；而对于人类来说，理解语言却是一件轻而易举的事情，甚至连18个月的幼儿都能表现出对复杂语法关系的理解。

我们这个物种天生就具有不可抑制的语言习得倾向，总是会在文字表面之下寻找意义，并在线性序列中构建出令人惊讶的层次结构和关系。

不过，LLM也有这种能力吗？

很多人会把LLM在各种任务和基准测试中的成功，归结为它们已经具有了类人能力，比如高级推理、跨模态理解和常识能力。

甚至一些学者声称，LLM在一定程度上接近人类认知，能够理解语言，性能与人类相当甚至超越人类。

然而，大量证据表明，这些模型的表现可能存在不一致性！

尽管模型能够生成高度流畅、语义连贯的输出，但在自然语言的一些基本句法或语义属性方面仍会出现困难。

那么，LLM在回答医疗或法律问题时，为何看似表现良好呢？

实际上，这些任务的完成，可能依赖于一系列完全不同于人类语言认知架构的计算步骤。

LLM在性能上的缺陷，已经引发了我们对其输出生成机制的严肃质疑——

究竟是（i）基于上下文的文本解析（即，能够将特定的语言形式与其相应的意义匹配，并在不同上下文中实现广泛的泛化），还是（ii）机械化地利用训练数据中的特定特征，从而仅仅制造出一种能力的假象？

目前，评估LLM的主流方法是通过其（结构良好的）输出，推断它们具备类似人类的语言能力（如演绎推理）。

例如，在语言相关的任务和基准测试中取得的准确表现，通常被用来得出这样的结论：LLM不仅成功完成了所执行的特定任务，还掌握了完成该任务所需的一般性知识

这种推理方式的核心逻辑，就是把LLM视为认知理论基础。

另一方面，假如LLM真的完全掌握了语言理解中涉及的所有形态句法、语义和语用过程，它们却为何无法稳定运用归因于它们的知识呢？

诡异考题，给LLM上难度

为此，研究者特意设计了一份别致的考题，来考验LLM对语言真正的掌握程度！

他们考验了GPT-3和ChatGPT-3.5对一些语法性判断的表现，也就是判断一个提示是否符合或偏离模型所内化的语言模式。

注意，这些提示在日常语言中出现频率较低，因此很可能在训练数据中并不常见。

这个考验的巧妙之处在哪里？

要知道，对人类来说，认知因素（如工作记忆限制或注意力分散）可能会影响语言处理，从而导致非目标的语法性判断，但人类可以通过反思正确处理这些刺激，即在初步的「浅层」解析后能够进行「深层」处理。

然而，对于LLM来说，它们的系统性语言错误并没有类似的「直给」解释。

可以看到，这些句子十分诡异。

比如「狗狗狗狗狗」，「诊所雇佣的护士的医生见到了杰克」，「根本存在缺陷的理念之村未能达到标准」，「当一架飞机在两国边界坠毁，残骸散落在两国境内时，我们应该在哪里埋葬幸存者？」等等。

GPT-3（text-davinci-002）和ChatGPT-3.5在涉及低频结构的语法判断任务上的表现，不准确的回复被标记为红色，准确的被标记为绿色

接下来，研究者着重调查了LLM理解语言的能力是否与人类相当。

他们调查了7个最先进的LLM在理解任务中的能力，任务有意将语言复杂性保持在最低限度。

约翰欺骗了玛丽，露西也被玛丽欺骗了。在这种情况下，玛丽是否欺骗了露西？

这项研究，在现实层面也意义重大。

虽然LLM被训练来预测token，但当它们与界面设置结合起来，它们的能力已经被宣传为远远超过下一个token的预测：商家会强调说，它们是能流利对话的Agent，并且表现出了跨模态的长上下文理解。

最近就有一家航空公司被告了，原因是乘客认为他们的聊天机器人提供了不准确信息。

公司承认，它的回复中的确包含误导性词汇，但聊天机器人是一个独立的法律实体，具有合理的语言能力，因此对自己的言论负责。

因此，研究人员想弄明白，LLM在语言理解任务中的表现是否与人类相当。

具体来说，有两个研究问题——

RQ1 ：LLM能否准确回答理解问题？
RQ2 ：当同一问题被问多次时， LLM的回答是否一致？

按模型和设置（开放长度与单字）划分的准确率如图A所示。

结果表明，大多数LLM在开放长度设置中，均表现较差。

按模型和设置划分的稳定性率如图B所示。

与准确性结果结合起来看，Falcon和Gemini的稳定性显著提高，这分别意味着 Falcon在提供准确答复方面部分一致，而Gemini在提供不准确答复方面部分一致。

( A ）按模型和设置划分的平均准确度。（ B ）模型和设置的平均稳定性

那么LLM和人类的区别在哪里呢？

比较分析表明，人类与LLM在准确性和稳定性方面的表现存在重大差异。

(A）各响应代理和场景的平均准确率。(B）各响应代理和场景的平均稳定性

准确性

1. 在开放长度设定中，LLM的表现显著差于人类。

2. 在单词长度设定中，人类的表现并未显著优于开放长度设定。

3. 在单词长度设定中，人类与LLM之间的表现差距显著缩小，这表明LLM的响应在不同设定间存在差异，而这种差异在人类中并未观察到。

这一结果揭示出，LLM 在不同响应条件下具有显著差异，而人类的表现则相对一致。

稳定性

1. 在开放长度设定中，LLM 的表现显著差于人类。

2. 在单词长度设定中，人类的表现并未显著优于开放长度设定。

3. 在单词长度设定中，人类与 LLM 之间的表现差距显著缩小，这表明 LLM 的响应在不同设定间存在差异，而这种差异在人类中并未观察到。

这一结果揭示，LLM在不同响应条件下表现出了显著差异，而人类的表现则相对一致。

另外，即使是表现最好的LLM——GPT-4，也要明显比表现最好的人差。所有人类参与者，在描述性水平上综合起来都优于GPT-4。

准确性和稳定性，LLM比起人类弱爆了

LLM的输出究竟是由什么驱动的？

究竟是（i）类似人类的能力来解析和理解书面文本，还是（ii）利用训练数据中的特定特征？

为此，研究者对7个最先进的LLM进行了测试，使用的理解问题针对包含高频结构和词汇的句子，同时将语言复杂性控制在最低水平。

他们特别关注了LLM生成的答案是否同时具备准确性（RQ1）和在重复试验中的稳定性（RQ2）。

系统性测试表明，LLM作为一个整体在准确性上的平均表现仅处于随机水平，并且其答案相对不稳定。

相比之下，人类在相同理解问题上的测试表现出大多准确的答案（RQ1），且在重复提问时几乎不会改变（RQ2）。

更重要的是，即便在评分对LLM有利的情况下，LLM和人类之间的这些差异仍然十分显著。

语言解析，是指通过为符号串赋予意义来理解和生成语言的能力，这是人类独有的能力。

这也就解释了，为什么实验中，人类在多次提问或使用不同指令的情况下，能够准确回答并且答案保持一致。

然而，LLM的输出在数量和质量上都与人类的答案存在差异！

在数量上，LLM作为一个整体的平均准确率仅处于随机水平，而那些成功超过随机阈值的模型（如Falcon、Llama2和ChatGPT-4），其准确率仍然远未达到完美水平。

其次，尽管所有LLM在稳定性方面表现高于随机水平，但没有一个能够始终如一地对同一个问题给出相同的答案。

综上所述，LLM整体上并不能以一种可被称为「类人」的方式应对简单的理解问题。

LLM更像工具，而不是科学理论

研究者认为，LLM之所以在简单理解任务中无法提供准确且稳定答案，是因为这些模型缺乏对语言的真正理解：它们生成的词语如同语义「黑箱」，只是近似于语言的表面统计和解析过程中较「自动化」的部分。

事实上，不仅是较低的准确率，而且LLM响应的较低稳定性也表明，它们缺乏一种类人的算法，能够将句法信息直接映射到语义指令上，同时对不同判断的容忍度也明显较低。

而人类则拥有一个不变的组合操作器，用于调节语法和语义信息，因此在这方面明显不易出错。

此外，LLM并不适合作为语言理论，因为它们的表征能力几乎是无限的，这使得它们的表征既是任意的，又缺乏解释性基础，属于通用函数逼近器这一类别，而后者已被证明能够逼近任何数学函数。

论文地址：https://arxiv.org/pdf/1912.10077

论文地址：https://arxiv.org/pdf/2012.03016

因此，与其说LLM是科学理论，不如说它们更接近工具，比如广义导数。

此外，LLM与人类表现之间的差异也具有质的特点。

首先，所有人类参与者无一例外地在所有设定中都提供了单词长度的回答。这表明被试在回答问题时，对所需信息量的理解具有一致性，即使在语用学领域，人类也遵循了由句法推理路径决定的计算效率和相关性原则。

这与LLM形成了鲜明对比，后者通常会提供冗长的解释，即便在单词长度设定中也如此，从而违背了任务指令。

在这些解释中，LLM的推理被分解为逻辑步骤，但这些步骤中常常包含无关或自相矛盾的信息。例如，在以下提示中：

「Franck给自己读了书，而John给自己、Anthon和Franck读了书。在这种情况下，Franck被读书了吗？」

Gemini的回答如下：「不可能确定Franck是否被读过，原因包括信息有限，单独动作，歧义……」

这个问题的正确答案是「是」。而Gemini不仅给出了错误的答案，还做出了十分冗余的回答。

总的来说，如果研究者试图将遇到的LLM错误映射到语言分析的各个层面上，那么当他们从基本的语音形式转向更复杂的语言组织外层时，错误的发生率似乎会变得更大。

将图1中显示的错误类型映射到语言分析的层次上

最终这项工作证明：LLM连贯、复杂和精致的输出，相当于变相的拼凑而成。

它们看似合理的表现，隐藏了语言建模方法本身固有的缺陷：智能实际上无法作为统计推断的副产品而自然产生，理解意义的能力也不能由此产生。

LLM无法作为认知理论，它们因为在自然语言数据上进行训练，并生成听起来自然的语言，这并不意味着它们具备类人处理能力。

这仅仅表明，LLM可以预测训练文本中某些「化石模式」。

宣称模型掌握了语言，仅仅因为它能够重现语言，就好比宣称一个画家认识某人，只因为他可以通过看她的照片在画布上重现她的面容一样。

参考资料：

https://www.nature.com/articles/s41598-024-79531-8

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652540926&idx=1&sn=dbcbcc1d63779f63d9c6251339db1449

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉