苹果认为的AI的“真相”报告，出乎意料？

科技 2024-10-29 20:27 波兰

难道我们都被骗了？

一群苹果的研究人员发表了一篇论文，声称如今许多热门AI产品的核心——大型语言模型（LLMs），例如ChatGPT或Llama，根本不具备真正的推理能力。换句话说，这些模型的智能被大大夸大了（或者说得更尖锐些，我们可能被蒙在鼓里了）。

通过一系列测试，苹果研究团队证明，这些模型的“推理能力”大多数情况下——甚至可以说完全——只是记忆的产物，而不是实际的智能。

这增加了对LLMs的失望情绪，这种失望情绪可能会带来投资的重大转变，并直接影响许多市值数十亿美元的初创公司的未来。当然，这也对科技巨头数十亿美元的AI投资以及依赖于这一精准愿景的前沿AI实验室的未来提出了严肃质疑。

那么，这些反对LLMs的强烈指控到底是基于什么呢？

失望情绪的高涨

如果你抛开AI媒体与网红的宣传，不再每次萨姆·奥特曼开口就人云亦云，你会发现，尽管最近有了一些新的AI模型，公众对大型语言模型（LLMs）的质疑情绪却达到了顶点。

原因何在？

尽管号称新一代的o1模型代表了“智能”的提升，但它们仍然遭遇与前几代模型同样的问题。在一些关键方面，我们在过去的六年中毫无进步，尽管舆论将它们炒作得轰轰烈烈。

证据如山

最近几周，尤其是o1模型的推出以后（这是一个新型的前沿AI模型，称为大规模推理模型LRMs），越来越多的证据表明，尽管它们在某些方面有所改进，但它们仍然保留了2017年首个Transformer模型的诸多问题。

以计划能力为例，Valmeekam等人的研究证明，LLMs在将复杂任务分解为更简单的步骤方面表现糟糕，甚至比不上十多年前发布的强力搜索算法Fast Downward。
在时间序列异常检测方面，MIT的研究人员证明LLMs的表现不如上世纪70年代的统计方法ARIMA。
另有研究显示，在缺乏主题经验或知识的情况下，即便给定所有数据作为提示，LLMs的表现也会显著下降——即便是所谓的o1模型，在处理指令增加的情况下也会退步。长话短说，LLMs/LRMs似乎无法遵循基本指令，特别是指令长度增加时。
宾夕法尼亚大学研究人员还指出，LLMs对序列中看似无关的词语变化极为敏感。例如，简单的名字变动（例如将“Linda”改为“Bob”）就足以让模型出错——这种变化对解决问题所需的推理过程完全没有影响，却让LLMs完全迷失。

然而，最严厉的批评还要属苹果，苹果直言：“LLMs并不具备真正的推理能力。”

那么，他们是如何揭露这种“骗局”的呢？

被记忆和表面模式所迷惑

GSM8k是一个非常流行的数学基准测试，测试LLMs解决小学级别问题的能力。如今，由于大多数前沿LLMs的分数已经趋于饱和，这一基准被认为已被“攻克”。

苹果的研究人员提出：这些分数到底有多少是源于记忆和表面模式匹配，而不是实际的推理？

结果可谓令人担忧。

强烈的词语偏向

首先，很明显这些模型的“推理”输出更多是基于序列的熟悉度，而不是实际的推理。

正如我们在前面的“Linda”和“Bob”转换示例中所看到的，简单的名字变更就足以让模型失败。其原因在于，模型并没有真正内化推理过程，而只是记住了训练序列。

那么，为什么“Linda”可以，而“Bob”就不行呢？

上述示例是著名的连词谬误，即人们错误地认为一组特定条件比单一通用条件更有可能出现，尽管逻辑上并非如此。

LLM在使用名字“Linda”时表现正确，因为Kahneman和Tversky在展示这种谬误时用的是“Linda”这个名字，这意味着LLMs在训练中多次见过这个问题。换句话说，LLMs实际上记住了整个序列“Linda is 30…”，并继续“这个问题是连词谬误的经典案例……”，这在训练中肯定见过。

由于这是纯粹的记忆，一个简单的名字改变就打破了表面模式，表明LLMs大多缺乏类似人类深度推理的更高层次抽象（这种微小的改变不会难倒我们）。

但苹果并不止步于此。他们创建了一个替代数据集GSM-Symbolic，使用了原始问题的模板，允许他们在序列中修改特定词语，从而生成在推理上相同、但带有小变化的问题：

在这样做的过程中，所有评估过的LLMs表现出不同程度的性能下降，即便是前沿AI模型也不例外，不过规模似乎是一个有利因素；模型越大，越不易出现此类问题。

苹果仍未止步于此。

难度增加降低了表现

接下来，苹果希望测试模型在更难问题上的能力，他们在原数据集的基础上增加了更难的部分：

在这样做的过程中，所有模型的表现一致下降，包括o1-mini，并且增加了方差。换句话说，这些模型的所谓智能不仅被夸大了，而且随着问题复杂度增加，其稳健性也下降（虽然这是预期的）。

但最有趣的结果出现在下一轮测试中。

轻易被误导

他们决定测试模型识别无关条款的能力，苹果将这些条款描述为“无操作意义”，即与解决问题完全无关的内容，从而创建了GSM-NoOp。

通俗地说，这些是加入到问题陈述中的条款，表面上看似相关，实际上却完全无关，旨在展示这些模型的表面模式匹配能力。

苹果进一步扩展了测试，创建了两个额外的变体：

NoOp-Symb：在这种情况下，除了目标修改的问题外，他们还向模型提供了原始数据集中最多八个没有修改的问题实例，包含正确的推理步骤。换句话说，虽然目标问题被修改成带有无关条款，但模型会收到八个包含正确推理步骤的同一问题实例。
NoOp-NoOp：在这种情况下，使用包含无关条款的GSM-NoOp数据集问题变体，连同所需的推理过程，还提供了其他八个实例。这些问题虽各有不同，但都具有一个共同点，即正确的推理过程应忽略无关条款。

简而言之，我们测试了LLMs忽略噪声的能力。结果极具戏剧性。

在所有模型尺寸中，表现明显下降，有些模型甚至出现近70%的性能下滑。我们还观察到一些“奇怪”行为，例如Gemma2B在NoOp-Symb中表现异常好，说明其在上下文学习能力上的表现可能比预期要好，即模型在提示中利用信息来改善预测的能力可能较强。

再次强调，o1-preview展示的性能退化最少，这引发了一个问题：尽管结果令人失望，且显示LLMs/LRMs不具备真正的推理能力，但是否仅靠扩大模型规模（通常意味着更多的训练运行次数和更大的模型）就可以解决问题呢？就像OpenAI或Anthropic等前沿AI实验室所预期的那样？

“规模就是一切”还是骗局？

如何消化这项研究无疑取决于个人偏见，即你是否认为LLMs/LRMs是实现AGI的解药，或者你是否认为它们并非如此。

如果你是知名LLM怀疑论者Gary Marcus，你会认为苹果的这项研究是LLMs不具备推理能力的明确证据。如果你是Anthropic的联合创始人Andy Clark，你会看到乐观的一面，并将你的整个论点集中在“规模”上，认为较小的模型更容易过度拟合基准，因此更易出现类似词汇偏见的问题，并指出o1模型退化较小的结果，以此表明模型的扩展将起到作用。

无广告无赞助的人工智障

AI时代的见证人｜Witnesses to the AI Era

最新文章

2024年的AI：是进化还是革命？——我们到底走了多远？

249美刀的NVIDIA Jetson Orin Nano Super值得买吗？AI神器还是智商税？

2017年的预言：Ilya Sutskever，到底打脸了多少？

Gemini 2.0 VS GPT-4o：谷歌这波是AI界的大爆杀？

Gemini 2.0 Flash PK Claude Sonnet 3.5：谷歌偷走了SWE-Bench的王冠？

没有广告，这就是我对这些AI工具付费后的真实感受

最值当的AI：哪些AI服务真的值得投入？

OpenAI推出200美元Pro计划：颠覆性创新还是智商税？

美国最新制裁意味着什么？对我国AI行业有什么影响

2024适用于LLM推理的最佳NVIDIA GPU大指南

你还在用AI写作文，人家已经用它去做这50件超值的事情改变生活了

面试现形记——疯狂时代中疯子们用AI来面试

AI审美疲劳：为什么厌倦了？

月之暗面：Kimi探索版发布、法律纠纷与融资增长的多重挑战

台积电因为川普当选瑟瑟发抖，全面禁运7纳米芯片到我国？