论文标题:Are Emergent Abilities in Large Language Models just In-Context Learning?
论文翻译:大型语言模型中的涌现能力只是上下文学习吗?.
论文链接:https://arxiv.org/abs/2309.01809
作者:Sheng Lu, Irina Bigoulaeva, Rachneet Sachdeva, Harish Tayyar Madabushi, Iryna Gurevych]
摘要
大型语言模型(LLMs)由数十亿个参数组成,并在大规模的网络语料库上进行了预训练。它们被认为能够获取某些未经专门训练的能力,这些能力被称为“涌现能力”。涌现能力已经成为关于语言模型潜力和风险讨论的推动力之一。评估涌现能力的一个关键挑战在于,这些能力往往与模型通过其他提示技术(如上下文学习)产生的能力相混淆。上下文学习是指模型基于少量示例完成任务的能力。我们提出了一种新的理论,解释了涌现能力,同时考虑了潜在的混淆因素,并通过超过1000次实验严格验证了该理论。我们的研究结果表明,所谓的涌现能力实际上并非真正涌现,而是上下文学习、模型记忆和语言知识的结合结果。我们的研究为解释语言模型的性能奠定了基础,提供了其高效使用的模板,并澄清了它们在某些情况下表现出色而在其他情况下表现不佳的悖论。我们证明了它们的能力不应被过高估计。
论文目的
论文旨在探讨所谓的“涌现能力”是否实际上只是由于上下文学习(In-Context Learning)而产生的。论文通过超过1000次实验,提出并验证了一个新的理论,认为这些被认为是“涌现”的能力,其实是由模型的上下文学习能力、记忆能力和语言知识的结合所产生的,而不是语言模型自发获得的真正新能力。研究的目的是澄清语言模型在某些任务中表现出色而在其他任务中却表现不佳的原因,并为这些模型的高效使用提供了框架,避免过高估计其能力。
实验
Figure 1展示了在 零样本设置(zero-shot setting)下,非指令微调的 GPT 模型的表现。灰色背景表示先前未被识别为涌现任务的任务。该图表的结果表明,即使在没有上下文例子的情况下,模型在这些任务中的表现也没有明显的涌现能力。
零样本设置 是指模型在没有提供任何上下文例子或提示的情况下直接进行任务。 在这个设置下,只有两个任务展现出了超过随机基线(random baseline)的表现,分别是“无意义单词语法”(NS words grammar)和“印度知识”(Hindu knowledge),而这两个任务更多依赖于形式化语言能力或信息回忆,而不是推理能力。 这表明在没有上下文学习(ICL)的情况下,大型语言模型(特别是 GPT-3)的功能性语言能力并没有涌现出来。
Figure 2 比较了两个模型在不同任务上的表现:一个是 非指令微调的 GPT-J 模型(使用上下文学习),另一个是 指令微调的 Flan-T5 大模型(不使用上下文学习)。结果表明,这两个模型在许多任务上都表现出了相似的能力。
这种相似性表明,指令微调并没有赋予模型新的涌现能力,而更可能是通过指令微调有效地利用了上下文学习的能力。 这为论文的核心观点提供了支持,即指令微调模型的优异表现可以通过隐含的上下文学习来解释,而不是依赖于真正的涌现能力。
总的来说,Figure 1 强调了在不使用上下文学习时,模型缺乏涌现能力,而 Figure 2 证明了指令微调与上下文学习之间的强关联
结论
涌现能力源于上下文学习:通过实验验证,所谓的大型语言模型(LLMs)的“涌现能力”其实是上下文学习(ICL)的结果,而并非真正的新能力。这推翻了此前认为模型具备自发获取新能力的观点。 指令执行与问题解决能力的区分:模型能够遵循指令并不等同于具备解决问题的内在推理能力。简单地按照指令生成输出可能导致“幻觉”现象,即生成流畅但内容不正确的答案。这强调了仅仅执行指令并不能反映模型的真实推理能力。 消除安全担忧:模型并不具备潜在的危险能力,如推理或计划能力,缓解了之前关于这些模型安全性的过度担忧。研究为更安全和高效地使用大型语言模型提供了理论框架,并揭示了它们的能力边界。
总结来说,论文帮助澄清了大型语言模型的能力和局限性,并为未来的人工智能安全研究提供了新的视角。
欢迎扫码关注: