作者:李想
(图片来自于网络)
研究背景
随着模型大小和语料库规模的扩大,大型语言模型(LLM)如GPT-3等表现出令人惊讶的上下文学习(in-context learning, i.e., ICL)能力,其中模型仅通过以由输入输出示例组成的提示为条件来学习执行下游任务。如图一所示,ICL首先使用一些示例来形成演示上下文。这些示例通常以自然语言模板编写。然后,ICL 需要将查询问题和一段演示上下文连接在一起形成提示,从而输入到语言模型中进行预测。与利用后向梯度更新模型参数的训练阶段的监督学习不同,ICL 不进行参数更新,而是直接对预训练的语言模型进行预测,即LLM从这些示例中学习,而无需进行明确的预训练。许多研究表明,LLM 可以通过 ICL 执行一系列复杂的任务,例如解决数学推理问题。这些强大的能力已被广泛验证为大型语言模型的新兴能力。虽然直观合理,但是LLM上下文学习能力的产生及工作机制仍不清楚。
图一:上下文学习(ICL)示例
研究方法
本文首先引入了上下文学习产生的预训练分布,通过选取由隐马尔可夫模型(HMM)参数化的潜在概念(Latent Concept),采样标记序列生成文档(如图二所示)。
图二:HMM隐藏状态由实体(v)和属性(s)组成,它们索引到记忆矩阵(Memory Matrix)中以生成观察到的标记(Token)。其中,实体和属性序列是从独立的马尔可夫链中采样的。概念参数是属性的转换矩阵,它定义了属性之间的关系。如图中示例,属性序列将名称与国籍联系起来,定义了上下文任务。蓝色表示从提示分布中采样的隐藏状态/观察结果,紫色表示从预训练分布中采样的隐藏状态/观察结果
在预训练期间,LLM 必须推断多个句子中的潜在概念以生成连贯的延续。当对提示进行条件化,并且LLM可以推断出跨示例的共享提示概念以进行预测时,上下文学习就会发生,如图三所示。本文假设LLM完全符合预训练的分布,同时具有足够的数据和表达能力。因此,上下文学习问题等价为预训练分布p下给定提示时描述完成的条件分布p(output|prompt),其中提示是从不同的分布p_{prompt}生成而来。该条件分布,即后验预测分布,将潜在概念边缘化:
如果p(concept|prompt)随着示例的增加而集中于提示概念,则LLM通过“选择”提示概念进行边缘化学习。由此,上下文学习可以看作LLM隐式执行贝叶斯推理。
图三:上下文学习可通过对预训练数据中的长程连贯性进行建模而产生。在预训练期间,LLM会隐式学习推断文档中各个句子间共享的潜在概念,如姓名(爱因斯坦),国籍(德国),职业(物理学家)…等之间转换。尽管提示是将独立示例连接起来的非自然序列,但如果L LM 仍可推断出各个示例间共享的概念来完成任务(如:姓名,国籍。),则会发生上下文学习
研究结果
本文中的重要结论如下:
1. 尽管存在分布不匹配,但当每个提示示例中有关潜在概念的信号大于由于分布不匹配而导致的误差时,上下文学习的渐近预测误差是最佳的。
2. 上下文学习误差不仅随示例的数量增多而减小,还会随着每个示例的长度而减少——因此,输入中的信息(而不仅仅是输入输出映射)可以用于上下文学习。特别地,本文在合成数据集(GINC)上验证了上下文学习的理论分析结果,如图四所示。
图四:LLM在GINC数据集上的准确率随示例数量及示例长度而变化
参考文献
[1] Xie S M, Raghunathan A, Liang P, et al. An explanation of in-context learning as implicit bayesian inference[J]. arXiv preprint arXiv:2111.02080, 2021.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
点击上方入口关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济实验室
微信号 : ncel_cuhk