研究发现,传统ICL方法在示例数量增加时,模型性能未能如预期提升,甚至出现逆向扩展现象,其核心原因在于注意力分散问题:模型在多示例场景中难以聚焦于查询的关键信息,而被无关内容干扰。在EMNLP 2024 main track,小红书搜索团队针对大语言模型在多样例上下文学习(ICL)中的性能扩展瓶颈,提出了全新的解决方案FocusICL。FocusICL创新性地引入了无关内容过滤策略和分层注意力机制,能够有效剔除干扰信息,确保模型注意力集中于关键内容。实验结果显示,FocusICL在多个基准数据集和主流大语言模型上表现优异,与传统ICL方法相比,平均性能提升5.2%,并在示例数量增加时展现出更好的扩展性与稳定性。
论文标题:
Focused Large Language Models are Stable Many-Shot Learners
论文地址:
https://arxiv.org/abs/2408.13987
上下文学习(In-Context Learning, ICL)作为一种高效的任务适应方法,已经成为应用大语言模型的通用方法。通过提供多个示例作为上下文,ICL使得模型能够迅速适应新任务,而无需额外的训练过程。这种方法尤其在少量示例(few-shot)和无示例(zero-shot)学习场景下展现了强大的性能,因此在自然语言处理(NLP)领域得到了广泛的应用。
然而,尽管ICL在许多任务中展现出灵活性和高效性,但随着示例数量的增加,ICL的性能扩展性却未能实现预期的提升(上下文学习已被先前的工作理论证明近似为一种隐式微调(implicit finetuning)过程,其中示例可类比为微调中的训练样本。根据扩展性定律,微调性能随着训练样本数量增加而提升,因此理论上ICL性能也应随示例数量增加而正相关)。实际上,实验结果表明,当示例数量增加到一定程度后,ICL的性能往往不再呈线性提升,甚至可能出现性能下降的现象。这种现象引发了对ICL性能扩展瓶颈的关注。
(1)Finetuning:
(2)ICL
为验证这一现象,我们使用GEMINI 1.5 PRO(上下文窗口长达1M tokens)在MATH基准数据集上进行了实验。MATH数据集包含12,500道数学推理题目,覆盖7个子集(如Algebra、Geometry等)和5个难度级别,能够全面评估大语言模型的数学推理能力。我们设置了不同的示例数量范围(1到256个),并采用贪心解码策略进行测试,结果取5次运行的平均值以确保结果的可靠性。如图所示,7个子集中有5个出现了明显的逆向扩展现象,即示例数量的增加未能带来性能提升,反而导致性能下降。此外,模型在不同难度级别上呈现出一致的性能变化趋势,表明任务难度对最佳示例数量的影响较小。这一结果进一步证明了ICL在多示例设置下的性能扩展瓶颈,即示例数量的增加未能稳定提升模型性能,甚至在部分任务中出现了下降。这表明,尽管大语言模型具备较长的上下文窗口,但其在多示例场景下的性能扩展性依然存在明显的局限性,揭示了当前ICL方法在处理许多示例时的固有挑战。
为进一步理解ICL性能扩展性瓶颈的根本原因,我们回顾了Dai et al.(2023)的理论推导,该研究将ICL形式化地等同于微调(finetuning),但其假设中将标准注意力机制近似为线性注意力机制。这一近似忽略了生成响应时,示例与查询之间的注意力竞争问题。而这种注意力竞争恰是导致ICL性能扩展性与微调不同的关键原因。我们推测,当示例数量增加时,更多的示例会分散模型对查询的注意力,导致对查询的理解不足,从而影响模型的响应质量。
为验证这一假设,我们进行了两组实验。首先,我们通过增加示例数量观察模型对查询注意力分配的变化。实验结果(如图1所示)表明,随着示例数量的增加,模型对查询的注意力显著下降。
此外,我们进一步在示例中插入空白区域,发现空白区域越多,模型对查询的注意力越分散,导致响应准确率下降(如图2所示)。这一系列实验验证了,示例数量的增加确实会分散模型对查询的注意力,而这种注意力分散正是ICL性能扩展性不稳定的根本原因。
我们进一步通过理论推导验证了示例数量增加会分散模型对查询的注意力,进而导致ICL性能扩展性不稳定的现象。从公式 (3) 出发,我们可以进一步推导如下:
这表明,当将标准注意力机制近似为线性注意力机制时,示例的存在并不会影响查询的结果。然而,当我们不再对标准注意力进行线性近似时,结论发生了变化:
根据公式 (5) 和 (6),当示例数量增加时,λ(hr)的值也会随之增大,从而降低模型对查询 (q) 的注意力。这一推导结果表明,ICL不再形式上等价于微调,因此无法完全遵循扩展性定律。也就是说,更多的示例会将模型的注意力从关键内容(查询)中分散出去,从而导致性能下降。
上述性能扩展性瓶颈阻碍了 ICL 在多示例场景中的应用。为此,我们提出了一种新颖的多样例上下文学习方法——FocusICL,旨在通过优化注意力分配来解决ICL中存在的注意力分散问题。我们的方法从两个层次优化注意力分配:
Token级别的无关内容过滤:基于注意力分布,自适应地屏蔽示例中不重要的token,将更多的注意力分配到关键内容上,从而避免模型资源的浪费。
示例级别的分层注意力机制:将示例划分为多个批次,分别执行批内注意力和批间注意力操作。在每个批次内,限制示例数量以确保模型能够专注于查询;在批次间,通过全局聚合操作综合更多示例的优势,从而实现规模化示例的有效利用。
高效超参数搜索策略:此外,为提升FocusICL的易用性与效率,我们提出了一种基于模型困惑度的高效超参数搜索策略,能够自动优化FOCUSICL在不同任务和示例配置下的表现。
为了解决这一问题,我们提出了FocusICL,一种新的多样例上下文学习方法。FocusICL的核心创新在于无关内容过滤和分层注意力机制。具体而言,FocusICL在token级别进行无关内容过滤,通过分析注意力分布动态屏蔽掉不重要的示例部分,从而有效地减少了模型的注意力分散。与此同时,FocusICL在示例级别引入了分层注意力机制,通过对示例进行分批处理并在每批内外分别进行注意力计算,确保每个示例的贡献能够得到合理分配,具体流程如图3所示。
2.1 Token-level:无关内容过滤策略
在人类的学习过程中,选择性忽略示例中的无关内容(trivialities)是避免注意力分散的关键能力。然而,大语言模型(LLMs)的标准注意力机制难以完全忽略这些无关内容,也无法充分利用查询token通常更重要这一先验信息。为此,我们提出了一种无关内容过滤策略,旨在通过屏蔽示例中的无用部分,将模型注意力集中在更相关的内容上。
在给定查询 q 的情况下,预测响应 r 时,我们首先在每一层注意力中计算注意力得分 s :
不同于标准注意力机制直接对 s 应用softmax操作,我们预先设定一个阈值 p ,根据以下公式过滤示例中的无关内容:
其中, s_index 是满足count(s < s_index) = p * |s| 的索引。通过无关内容过滤操作,示例中无用的部分被赋予零权重,模型得以专注于利用相关内容解决当前查询。
此外,为了实现更广泛的适用性,除了对响应 r 应用无关内容过滤操作外,我们还将该操作扩展到演示示例的响应token上。具体来说,我们通过自回归方式将 (q_i, r_i)_{i=1}^{k-1} 视为当前示例对 (q_k, r_k), k \in [2, N] 的演示,从而对生成的所有响应逐步应用无关内容过滤操作。
2.2 Demonstration-level:分层注意力机制
在面对大量示例时,人类通常会分别从不同示例中获取灵感,再综合各示例的关键信息,以避免因同时关注过多示例而导致注意力分散。受此启发,我们为大语言模型(LLMs)设计了一种分层注意力机制,使其能够在多样例学习中高效从示例中学习,同时保持对当前查询的关注。
具体而言,我们首先将示例划分为 T 个批次,每个批次包含 B 个连续示例。为了保证每个批次与查询逻辑上的邻近性,我们在保持token顺序不变的前提下调整位置索引(如图4所示)。
同时,我们通过引入掩码矩阵,使不同批次之间相互不可见,从而可以在每个批次内并行计算批内注意力,公式如下:
通过控制批次大小 B ,我们能够确保模型在每个批次内始终保持足够的注意力集中于查询。为了进一步整合来自不同批次的信息,我们对批次间的结果进行加权聚合,公式如下:
其中,每个批次的注意力得分总和反映了该批次对当前查询的有用信息量。基于此,我们计算批次内结果的加权和,生成注意力层的最终输出。
2.3 超参数搜索策略
为高效确定不同大语言模型(LLMs)和任务下的过滤阈值 p 和批次大小 B ,我们设计了一种超参数搜索策略,具体流程如算法1所示。
在该策略中,我们将查询 q_i 视为当前查询,将示例集合 S_{1:i-1} 视为演示集,通过计算模型在生成 r_i 时的困惑度来衡量模型在给定示例数量 i-1 时的表现。较低的困惑度表示模型的性能更优。因此,我们选择使平均困惑度最低的 p 和首次导致困惑度呈现上升趋势的 B 作为超参数的最终取值。
我们围绕FocusICL展开实验,重点验证其在不同大语言模型和任务上的性能表现(3.1),测试其能否在示例数量增加时实现稳定扩展(3.2),并通过深入分析揭示其工作机制(3.3)。实验涵盖常识推理(CSQA、PIQA)、数学推理(GSM8K)等多个任务,选用三种主流长上下文模型(LONGCHAT-7B-V1.5-32K、VICUNA-7B-V1.5-16K、LLAMA-3-8B-INSTRUCT),并与多种基线方法(ICL、EARLYSTOP、STRUCTICL)对比,全面评估FOCUSICL的有效性和适用性。
3.1 主实验结果
我们的主要实验结果如表1、表2和表3所示,FocusICL通过引入无关内容过滤和分层注意力机制,既充分利用了所有示例,又确保模型专注于关键内容,在所有测试模型和任务中均表现出色。相较于ICL,FocusICL在三个LLMs上的平均性能提升5.2%(3.31分),显著优于基线方法。统计学分析显示,T检验的p值小于0.05,验证了FocusICL的有效性和泛化性。
我们进一步通过消融实验评估FocusICL的两大核心模块贡献:
1.无关内容过滤单独带来了1.29分的性能提升;
2.分层注意力机制带来了更显著的2.02分提升。
FocusICL通过分层注意力机制避免了不同批次示例之间的直接交互,从而显著降低了推理开销。假设每个示例平均包含 L 个token,ICL的注意力计算开销为:
FocusICL的开销为:
其中,N 是总示例数量,B 是每批次示例数,\Delta 表示计算成本单位。FocusICL的批次大小 B 通常远小于总示例数 N,因此其注意力计算开销的比例约为 B : N。这一结果表明,FocusICL在性能提升的同时保持了较低的推理开销。
3.2 多示例扩展性分析
在示例数量这一扩展维度上,传统的ICL方法并不稳定。如图5所示,示例数量的增加并不总是带来性能提升,有时甚至会出现逆向扩展现象。与之形成对比的是,FocusICL通过优化注意力分配,将模型的关注点集中在关键内容上,使得LLMs能够成为稳定的多样例学习者(many-shot learners),从而在示例数量扩展维度上展现出良好的可扩展性。此外,我们发现,随着示例数量的进一步增加,FocusICL相较于ICL的优势会不断扩大。这表明,如果拥有更多的计算资源以处理更多示例,FocusICL的性能提升将更加显著,从而进一步验证了其在多示例场景中的优越性。
3.3 FocusICL的工作机制分析
为深入理解FocusICL的工作机制,我们从注意力分布和隐藏状态分布两个方面进行了分析,探讨其如何有效解决ICL中的注意力分散问题。
注意力分布
FocusICL的核心目标是避免模型在示例数量增加时注意力被分散,从而确保对关键内容的准确理解。因此,我们观察了随着示例数量增加,模型分配给查询的注意力权重变化情况。如图6所示,FocusICL通过无关内容过滤和分层注意力机制,能够始终保持足够的注意力集中于查询,而ICL则随着示例数量的增加显著下降。这表明,FocusICL在应对注意力分散问题方面表现出明显优势。
隐藏状态分布
我们进一步使用主成分分析(PCA)研究了模型倒数第二层中最后一个输入token的隐藏状态分布。直观上,隐藏状态的分布主要依赖于当前问题本身,而不应随示例数量的变化而改变。然而,正如图7所示,ICL的隐藏状态随着示例数量的增加发生系统性变化,而FocusICL则不具有这种行为。我们认为,这是由于ICL中查询注意力的逐步下降,持续影响了响应生成过程中的隐藏状态分布,从而降低了生成质量。相比之下,FocusICL通过保持对查询的充分关注,避免了这一问题,并能够从更多的示例中获益。
在本研究中,我们发现多样例上下文学习(ICL)在大语言模型中存在性能扩展瓶颈,即随着示例数量的增加,模型性能未能实现预期提升,甚至出现逆向扩展现象。通过深入分析这一问题的根本原因,并结合理论推导,我们揭示了注意力分散是导致这一现象的核心原因。模型在多示例场景下的注意力被分散到无关内容,无法充分关注查询的关键信息,从而限制了性能的进一步提升。
为了解决这一问题,我们提出了FocusICL,一种创新的多样例上下文学习方法。FocusICL通过无关内容过滤策略,有效屏蔽了示例中不重要的内容,确保模型资源集中于关键信息;同时通过分层注意力机制实现了批次内和批次间的合理注意力分配,在充分利用示例信息的同时,避免了注意力竞争。此外,基于困惑度的超参数搜索策略降低了方法在不同任务和模型配置下的调参复杂度。
实验结果表明,FocusICL在多个基准数据集和主流大语言模型上表现出色,相较于传统ICL方法实现了平均5.2%的性能提升,并在示例数量增加时展现出优异的扩展性和稳定性。机制分析进一步验证了FocusICL通过优化注意力分布和隐藏状态,成功解决了ICL的关键挑战。
作为对传统ICL方法的一次重要突破,FocusICL展现了性能提升、扩展性强、适用性广的显著优势。随着大语言模型在能力和规模上的不断提升,FocusICL的潜力将进一步释放,为多样例上下文学习和通用人工智能(AGI)的发展提供更加高效的解决方案。
论文地址:https://arxiv.org/abs/2408.13987