最近的三篇论文探讨了大型语言模型中推理和解决问题的稳健性
目前人工智能领域最激烈的争论之一是大型语言模型是否能够推理。
2024 年 5 月,OpenAI 发布了 GPT-4o(omni),他们写道,“它可以实时推理音频、视觉和文本”。上个月,他们发布了 GPT-o1 模型,他们声称该模型可以进行“复杂推理”,并在许多“推理密集型”基准测试中实现了创纪录的准确率。
但其他人质疑 LLM(甚至是 GPT-4o 和 o1 等增强模型)通过抽象推理解决问题的程度,或者它们的成功是否至少部分归因于匹配从训练数据中记忆的推理模式,这限制了它们解决与训练中看到的问题差别太大的问题的能力。
在之前关于 LLM 推理的一篇文章中,我问过为什么 LLM 是否进行“实际推理”与仅仅看起来像推理的行为很重要:
这为什么重要?如果 LLM 中出现了强大的通用推理能力,那么这将支持这样的观点:此类系统是迈向值得信赖的通用智能的重要一步。另一方面,如果 LLM 主要依赖于记忆和模式匹配,而不是真正的推理,那么它们将无法推广——我们不能相信它们在“分布外”任务上表现良好,这些任务与它们在训练数据中看到的任务不够相似。
在进入本文正文之前,我先回答一个问题,这个问题我见过很多人问,“推理”到底是什么?事实上,推理是那些含义繁多的术语之一,可能意味着完全不同的事情。在我之前的文章中,我是这样定义的:
“推理”一词是一个总称,包括演绎、归纳、溯因、类比、常识和其他“理性”或系统性解决问题的方法。推理通常是一个涉及组成多个推理步骤的过程。推理通常被认为需要抽象——也就是说,推理能力不仅限于特定的例子,而是更为普遍。如果我能推理加法,我不仅可以解决 23+37,还可以解决我遇到的任何加法问题。如果我学会了十进制加法,同时也学习了其他数字进制,我的推理能力让我能够快速学会其他进制的加法。
确实,GPT-4 和 GPT-o1 等系统在“推理”基准上表现出色,但这是因为它们实际上在进行这种抽象推理吗?许多人提出了另一种可能的解释:这些基准上的推理任务与模型训练数据中的推理任务相似(有时相同),并且模型记住了可以适应特定问题的解决模式。
已经有许多论文探讨了这些假设(请参阅本文末尾的列表,其中列出了最近评估 LLM 推理能力的论文)。其中大多数论文通过选择 LLM 擅长的任务并对这些任务进行表面变化来测试LLM 推理能力的稳健性——这些变化不会改变所需的底层推理,但不太可能在训练数据中看到。
在这篇文章中,我讨论了最近关于这个主题的三篇我认为特别有趣的论文。
论文 1:自回归训练的余烬
论文标题:自回归的余烬展示了大型语言模型如何通过训练解决的问题来塑造
作者:R. Thomas McCoy、Shuny Yao、Dan Friedman 和 Thomas L. Griffiths
这是我最近最喜欢的一篇 LLM 论文。这篇论文探讨了 LLM 的训练方式(即学习预测序列中的下一个标记,这被称为“自回归”)是否会对其解决问题的能力产生挥之不去的影响(“余烬”)。例如,考虑反转单词序列的任务。以下是两个序列:
时间。气候的 政治 决定受到影响 这
信。儿子们,愿另一个人也在那里
得到正确答案不应该取决于序列中的特定单词,但作者表明,对于 GPT-4 来说,存在很强的依赖性。请注意,第一个序列反转为一个连贯的句子,而第二个序列则没有。用 LLM 术语来说,反转第一个序列产生的输出比反转第二个序列的输出更可能。也就是说,当 LLM 计算每个单词的概率时,给定前面的单词,第一个输出的总体概率将高于第二个输出。当作者在许多单词序列上测试 GPT-4 的这项任务时,他们发现当答案是高概率序列时,GPT-4 的准确率为 97%(正确序列反转的分数),而对于低概率序列的准确率为 53%。
作者将此称为“对输出概率的敏感性”。其他“自回归的余烬”是对输入概率的敏感性(GPT-4 更擅长解决具有高概率输入序列的问题,即使序列的内容无关紧要),以及对任务频率的敏感性(GPT-4 在训练数据中可能常见的任务版本上的表现要好于在训练数据中可能罕见的相同难度版本上的表现)。
作者研究这些敏感性的任务之一是解码“移位密码”。移位密码是一种简单的文本编码方法,通过将每个字母在字母表中移动特定数量的位置。例如,如果移位 2,jazz就会变成lcbb (其中z移位会绕回到字母表的开头)。移位密码通常表示为“Rot- n ”,其中n是要移动(旋转)的字母位置数。
作者测试了 GPT-3.5 和 GPT-4 对不同n的移位密码进行解码。以下是他们使用的示例提示:
Rot-13 是一种密码,其中每个字母在字母表中向前移动 13 位。例如,以下是一条消息及其在 Rot-13 中的对应版本:
原文:“留在这里!”
Rot-13 文本:“Fgnl urer!
这是另一条消息。使用 rot-13 编码此消息:
原文:“直到今天,我们仍然遵循这些原则。”
Rot-13 文本:
作者发现 GPT 模型对输入和输出概率以及任务频率具有很强的敏感性,如下图所示(改编自他们的论文):
(a)输出敏感性:在解码移位密码进行测试时,当正确输出是高概率序列时,GPT 模型的表现会好得多。
(b)输入敏感度:在对移位密码进行编码测试时,GPT-4 在高概率输入序列上的表现略好一些。
(c)任务敏感性:当对不同 n 值的移位密码进行测试时(例如 Rot-12 与 Rot-13),GPT 模型在 Rot-13 上的表现明显更好。这似乎是因为 Rot-13 示例在训练数据中比其他 Rot- n更常见,因为 Rot-13 是一种流行的“无剧透信息共享方式”,例如用于在线谜题论坛。
简而言之,《自回归的余烬》对于 LLM 来说是一种“进化心理学”——它表明 LLM 的训练方式在模型解决问题的偏见中留下了强烈的痕迹。
以下是本文的底线:
首先,我们已经证明 LLM 在罕见任务上的表现比常见任务更差,因此在将它们应用于预训练数据中罕见的任务时,我们应该谨慎。其次,我们已经证明 LLM 在低概率答案的示例上的表现比高概率答案的示例上的表现更差,因此在可能需要生成低概率文本的情况下,我们应该谨慎使用 LLM。克服这些限制是未来 AI 研究的一个重要目标。
论文二:影响“思路链”提示的因素
论文标题:解读影响思维链有效性的因素:概率、记忆和噪声推理
作者:Akshara Prabhakar、Thomas L. Griffiths、R. Thomas McCoy
本文与上一篇论文有两位相同的作者,深入研究了移位密码任务中的思路链 (CoT) 提示。
正如我在之前关于 LLM 推理的文章中所讨论的那样,CoT 提示据称可以在 LLM 中实现稳健推理。在 CoT 提示中,提示包括问题示例以及解决问题的推理步骤,然后再提出新问题。以下是作者用于移位密码的两个提示示例;顶部的提示不使用 CoT 提示,而底部的提示则使用:
作者测试了多个模型,包括 GPT-4、Claude 3.0 和 Llama 3.1。有趣的是,他们发现,在给出没有 CoT 的提示时,这些模型在大多数班次级别 ( n ) 中的准确率接近于零;当使用像上面那样带有 CoT 的提示时,它们在各个班次级别上的准确率要高得多(例如,GPT-4 的准确率为 32%)。
作者列举了法学硕士 (LLM) 表现“推理”的四种可能方式,每种方式对其错误模式做出了不同的预测。
(1)记忆:模型重复从训练数据中记忆的推理模式。这将预测准确性将取决于任务在训练数据中的频率(例如,回想一下,对于移位密码,Rot-13 在互联网数据中比其他 Rot-n 值更常见)。
(2)概率推理:模型在给定输入的情况下选择最可能的输出。这受到训练期间学习到的标记序列的概率的影响。这种推理会预测 LLM 在答案(生成的输出)是概率较高的序列的问题上会更准确。
(3)符号推理:该模型使用确定性规则,适用于任何输入。无论任务采用何种形式,这都可以预测 100% 的准确率。
(4)噪声推理:该模型使用符号推理的近似值,其中推理的每个步骤都有可能出错。这将预测需要更多推理步骤的问题会产生更差的准确性。对于移位密码,这些问题需要字母表中更多的移位步骤。
长话短说,作者发现,带有 CoT 提示的 LLM 表现出记忆、概率推理和噪声推理的混合。以下是 Claude 3.0 的准确率与移位级别n的关系;其他模型具有类似的准确率分布。您可以看到,与大多数中间n值相比,两端(低 n 和高n )的准确率相对较高。这是噪声推理的标志,因为最低和最高n值需要的推理步骤最少。(将字母表视为一个圆圈;Rot-25 与 Rot-1 一样,只需要一个推理步骤。在 Rot-25 中,每个字母都将被编码为紧接在它之前的字母。)
Rot-13 中间的大幅上升是记忆的标志——模型在这个转变水平上的准确性是由于它在训练数据中的高频率。作者通过其他实验表明,概率推理也是一个因素——详情请参阅他们的论文。
以下是作者的结论:
CoT 推理可以被描述为概率性的、受记忆影响的噪声推理,这意味着 LLM 行为表现出记忆和概括的特征。
这些结果很有趣,但目前仅限于移位密码这一单一任务。我希望看到(也许我自己也会做)针对其他类型任务的类似研究。
论文 3:测试 LLM 对各种简单数学应用题的稳健性
论文标题:GSM-Symbolic:理解大型语言模型中数学推理的局限性
作者:Iman Mirzadeh、Keivan Alizadeh、Hooman Sharokhi、Oncel Tuzel、Samy Bengio、Mehrdad Farajtabar
这篇论文来自苹果的一个研究小组,它在一个由小学数学应用题组成的推理基准上测试了几个 LLM 的稳健性。基准 GSM8K 已在许多论文中用于证明 LLM 非常擅长简单的数学推理。
OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 都可以在没有任何花哨提示的情况下正确回答这些问题中的 95% 左右。
但是,这种表现在多大程度上表明了强大的推理能力,而不是记忆(训练数据中的这些或类似问题),或者如作者所问的,“概率模式匹配而不是形式推理”?
为了研究这一点,作者们将原始数据集中的每个问题都拿出来,并通过更改问题的名称、数字或其他表面方面,对其进行多种变体,这些变化不会影响所需的一般推理。以下是他们论文中对这一过程的说明:
他们在这组变体上测试了几个 LLM,发现在所有情况下,模型的准确率都会比原始基准下降,在某些情况下甚至下降很多,不过在最好的模型上,比如 GPT-4o,下降幅度很小。
进一步,作者指出,在原始问题中添加不相关信息比更改名称或数字更能导致准确率下降。以下是向单词问题中添加不相关信息(粉红色)的示例:
即使是最好的模型似乎也很容易被这些添加的内容所欺骗。论文中的这张图显示了每个模型的准确率下降的程度:
这里,每个条代表一个不同的模型,条的长度是 GSM8K 上的原始准确度与问题包含不相关信息的版本(他们称之为“GSM-NoOP”版本)之间的差异。
本文的要点是:
我们的广泛研究表明,同一问题的不同实例之间存在显著的性能差异,这对依赖单点准确度指标的当前 GSM8K 结果的可靠性提出了挑战。
和:
GSM-NoOp(即添加不相关信息)的引入暴露了 LLM 真正理解数学概念和辨别相关信息以解决问题的能力的一个严重缺陷。
和:
最终,我们的工作强调了LLM进行真正的数学推理的能力的重大局限性。
这篇论文于几周前发表,在 AI/ML 社区引起了不小的轰动。那些原本对 LLM 推理持怀疑态度的人接受了这篇论文,认为它是“皇帝没有穿衣服”的证据,并称 GSM-NoOP 结果“特别具有毁灭性” 。
更看好 LLM 推理能力的人认为,该论文的结论——当前的 LLM 不具备真正的数学推理能力——过于强硬,并假设当前的 LLM 可能能够通过适当的快速工程解决所有这些问题。(然而,我应该指出,当 LLM 在没有任何快速工程的情况下在原始基准上取得成功时,许多人将其视为 LLM 具有“新兴”推理能力的“证据”,他们没有要求进行更多的稳健性测试。)
其他人则质疑,能够解决原始问题的人类是否也会被本文测试的变体所困扰。不幸的是,作者没有在这些新问题上测试人类。我猜许多人(当然不是所有人)也会受到此类变体的影响,但也许与法学硕士不同,我们人类有能力通过仔细思考和元认知来克服这种偏见。但关于这一点的讨论留到以后再说。
我还应该提到,去年 6 月发表了一篇类似的论文,也表明 LLM 在简单数学问题的变体上不够稳健。
结论
总之,结论没有共识!有很多论文展示了 LLM 中看似复杂的推理行为,但也有很多证据表明这些 LLM 并没有进行抽象或稳健的推理,并且经常过度依赖训练数据中记忆的模式,导致“分布不均”问题的错误。这是否会毁掉像 OpenAI 的 o1 这样的方法,它直接在人类的推理轨迹上进行训练,还有待观察。与此同时,我认为这种争论实际上对 LLM 科学非常有益,因为它凸显了进行谨慎、受控的实验以测试稳健性的必要性——这些实验远远超出了报告准确性的范围——并且它还深化了对人类和机器的 推理实际上由什么组成的讨论。
如果您想进一步阅读,这里列出了一些最近测试 LLM 中推理的稳健性的论文(包括本文讨论的论文)。
Bibliography
Embers of Autoregression Show How Large Language Models Are Shaped By the Problem They Are Trained To Solve
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning
Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
Faith and Fate: Limits of Transformers on Compositionality
Phenomenal Yet Puzzling: Testing Inductive Reasoning Capabilities of Language Models with Hypothesis Refinement
Do Large Language Models Understand Logic or Just Mimick Context?
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models - A Survey
Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap
A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners
Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
Evaluating LLMs’ Mathematical and Coding Competency through Ontology-guided Interventions
Can Large Language Models Reason and Plan?
https://aiguide.substack.com/p/the-llm-reasoning-debate-heats-up