难道我们都被骗了?
一群苹果的研究人员发表了一篇论文,声称如今许多热门AI产品的核心——大型语言模型(LLMs),例如ChatGPT或Llama,根本不具备真正的推理能力。换句话说,这些模型的智能被大大夸大了(或者说得更尖锐些,我们可能被蒙在鼓里了)。
通过一系列测试,苹果研究团队证明,这些模型的“推理能力”大多数情况下——甚至可以说完全——只是记忆的产物,而不是实际的智能。
这增加了对LLMs的失望情绪,这种失望情绪可能会带来投资的重大转变,并直接影响许多市值数十亿美元的初创公司的未来。当然,这也对科技巨头数十亿美元的AI投资以及依赖于这一精准愿景的前沿AI实验室的未来提出了严肃质疑。
那么,这些反对LLMs的强烈指控到底是基于什么呢?
失望情绪的高涨
如果你抛开AI媒体与网红的宣传,不再每次萨姆·奥特曼开口就人云亦云,你会发现,尽管最近有了一些新的AI模型,公众对大型语言模型(LLMs)的质疑情绪却达到了顶点。
原因何在?
尽管号称新一代的o1模型代表了“智能”的提升,但它们仍然遭遇与前几代模型同样的问题。在一些关键方面,我们在过去的六年中毫无进步,尽管舆论将它们炒作得轰轰烈烈。
证据如山
最近几周,尤其是o1模型的推出以后(这是一个新型的前沿AI模型,称为大规模推理模型LRMs),越来越多的证据表明,尽管它们在某些方面有所改进,但它们仍然保留了2017年首个Transformer模型的诸多问题。
以计划能力为例,Valmeekam等人的研究证明,LLMs在将复杂任务分解为更简单的步骤方面表现糟糕,甚至比不上十多年前发布的强力搜索算法Fast Downward。
在时间序列异常检测方面,MIT的研究人员证明LLMs的表现不如上世纪70年代的统计方法ARIMA。
另有研究显示,在缺乏主题经验或知识的情况下,即便给定所有数据作为提示,LLMs的表现也会显著下降——即便是所谓的o1模型,在处理指令增加的情况下也会退步。长话短说,LLMs/LRMs似乎无法遵循基本指令,特别是指令长度增加时。
宾夕法尼亚大学研究人员还指出,LLMs对序列中看似无关的词语变化极为敏感。例如,简单的名字变动(例如将“Linda”改为“Bob”)就足以让模型出错——这种变化对解决问题所需的推理过程完全没有影响,却让LLMs完全迷失。
然而,最严厉的批评还要属苹果,苹果直言:“LLMs并不具备真正的推理能力。”
那么,他们是如何揭露这种“骗局”的呢?
被记忆和表面模式所迷惑
GSM8k是一个非常流行的数学基准测试,测试LLMs解决小学级别问题的能力。如今,由于大多数前沿LLMs的分数已经趋于饱和,这一基准被认为已被“攻克”。
苹果的研究人员提出:这些分数到底有多少是源于记忆和表面模式匹配,而不是实际的推理?
结果可谓令人担忧。
强烈的词语偏向
首先,很明显这些模型的“推理”输出更多是基于序列的熟悉度,而不是实际的推理。
正如我们在前面的“Linda”和“Bob”转换示例中所看到的,简单的名字变更就足以让模型失败。其原因在于,模型并没有真正内化推理过程,而只是记住了训练序列。
那么,为什么“Linda”可以,而“Bob”就不行呢?
上述示例是著名的连词谬误,即人们错误地认为一组特定条件比单一通用条件更有可能出现,尽管逻辑上并非如此。
LLM在使用名字“Linda”时表现正确,因为Kahneman和Tversky在展示这种谬误时用的是“Linda”这个名字,这意味着LLMs在训练中多次见过这个问题。换句话说,LLMs实际上记住了整个序列“Linda is 30…”,并继续“这个问题是连词谬误的经典案例……”,这在训练中肯定见过。
由于这是纯粹的记忆,一个简单的名字改变就打破了表面模式,表明LLMs大多缺乏类似人类深度推理的更高层次抽象(这种微小的改变不会难倒我们)。
但苹果并不止步于此。他们创建了一个替代数据集GSM-Symbolic,使用了原始问题的模板,允许他们在序列中修改特定词语,从而生成在推理上相同、但带有小变化的问题:
在这样做的过程中,所有评估过的LLMs表现出不同程度的性能下降,即便是前沿AI模型也不例外,不过规模似乎是一个有利因素;模型越大,越不易出现此类问题。
苹果仍未止步于此。
难度增加降低了表现
接下来,苹果希望测试模型在更难问题上的能力,他们在原数据集的基础上增加了更难的部分:
在这样做的过程中,所有模型的表现一致下降,包括o1-mini,并且增加了方差。换句话说,这些模型的所谓智能不仅被夸大了,而且随着问题复杂度增加,其稳健性也下降(虽然这是预期的)。
但最有趣的结果出现在下一轮测试中。
轻易被误导
他们决定测试模型识别无关条款的能力,苹果将这些条款描述为“无操作意义”,即与解决问题完全无关的内容,从而创建了GSM-NoOp。
通俗地说,这些是加入到问题陈述中的条款,表面上看似相关,实际上却完全无关,旨在展示这些模型的表面模式匹配能力。
苹果进一步扩展了测试,创建了两个额外的变体:
NoOp-Symb:在这种情况下,除了目标修改的问题外,他们还向模型提供了原始数据集中最多八个没有修改的问题实例,包含正确的推理步骤。换句话说,虽然目标问题被修改成带有无关条款,但模型会收到八个包含正确推理步骤的同一问题实例。
NoOp-NoOp:在这种情况下,使用包含无关条款的GSM-NoOp数据集问题变体,连同所需的推理过程,还提供了其他八个实例。这些问题虽各有不同,但都具有一个共同点,即正确的推理过程应忽略无关条款。
简而言之,我们测试了LLMs忽略噪声的能力。结果极具戏剧性。
在所有模型尺寸中,表现明显下降,有些模型甚至出现近70%的性能下滑。我们还观察到一些“奇怪”行为,例如Gemma2B在NoOp-Symb中表现异常好,说明其在上下文学习能力上的表现可能比预期要好,即模型在提示中利用信息来改善预测的能力可能较强。
再次强调,o1-preview展示的性能退化最少,这引发了一个问题:尽管结果令人失望,且显示LLMs/LRMs不具备真正的推理能力,但是否仅靠扩大模型规模(通常意味着更多的训练运行次数和更大的模型)就可以解决问题呢?就像OpenAI或Anthropic等前沿AI实验室所预期的那样?
“规模就是一切”还是骗局?
如何消化这项研究无疑取决于个人偏见,即你是否认为LLMs/LRMs是实现AGI的解药,或者你是否认为它们并非如此。
如果你是知名LLM怀疑论者Gary Marcus,你会认为苹果的这项研究是LLMs不具备推理能力的明确证据。如果你是Anthropic的联合创始人Andy Clark,你会看到乐观的一面,并将你的整个论点集中在“规模”上,认为较小的模型更容易过度拟合基准,因此更易出现类似词汇偏见的问题,并指出o1模型退化较小的结果,以此表明模型的扩展将起到作用。