EMNLP2024 | 示例越多性能反而越差？大模型注意力分散是关键

科技 2024-12-27 12:06 北京

研究发现，传统ICL方法在示例数量增加时，模型性能未能如预期提升，甚至出现逆向扩展现象，其核心原因在于注意力分散问题：模型在多示例场景中难以聚焦于查询的关键信息，而被无关内容干扰。在EMNLP 2024 main track，小红书搜索团队针对大语言模型在多样例上下文学习（ICL）中的性能扩展瓶颈，提出了全新的解决方案FocusICL。FocusICL创新性地引入了无关内容过滤策略和分层注意力机制，能够有效剔除干扰信息，确保模型注意力集中于关键内容。实验结果显示，FocusICL在多个基准数据集和主流大语言模型上表现优异，与传统ICL方法相比，平均性能提升5.2%，并在示例数量增加时展现出更好的扩展性与稳定性。

论文标题：

Focused Large Language Models are Stable Many-Shot Learners

论文地址：

https://arxiv.org/abs/2408.13987

上下文学习（In-Context Learning, ICL）作为一种高效的任务适应方法，已经成为应用大语言模型的通用方法。通过提供多个示例作为上下文，ICL使得模型能够迅速适应新任务，而无需额外的训练过程。这种方法尤其在少量示例（few-shot）和无示例（zero-shot）学习场景下展现了强大的性能，因此在自然语言处理（NLP）领域得到了广泛的应用。

然而，尽管ICL在许多任务中展现出灵活性和高效性，但随着示例数量的增加，ICL的性能扩展性却未能实现预期的提升（上下文学习已被先前的工作理论证明近似为一种隐式微调（implicit finetuning）过程，其中示例可类比为微调中的训练样本。根据扩展性定律，微调性能随着训练样本数量增加而提升，因此理论上ICL性能也应随示例数量增加而正相关）。实际上，实验结果表明，当示例数量增加到一定程度后，ICL的性能往往不再呈线性提升，甚至可能出现性能下降的现象。这种现象引发了对ICL性能扩展瓶颈的关注。

（1）Finetuning：

（2）ICL

为验证这一现象，我们使用GEMINI 1.5 PRO（上下文窗口长达1M tokens）在MATH基准数据集上进行了实验。MATH数据集包含12,500道数学推理题目，覆盖7个子集（如Algebra、Geometry等）和5个难度级别，能够全面评估大语言模型的数学推理能力。我们设置了不同的示例数量范围（1到256个），并采用贪心解码策略进行测试，结果取5次运行的平均值以确保结果的可靠性。如图所示，7个子集中有5个出现了明显的逆向扩展现象，即示例数量的增加未能带来性能提升，反而导致性能下降。此外，模型在不同难度级别上呈现出一致的性能变化趋势，表明任务难度对最佳示例数量的影响较小。这一结果进一步证明了ICL在多示例设置下的性能扩展瓶颈，即示例数量的增加未能稳定提升模型性能，甚至在部分任务中出现了下降。这表明，尽管大语言模型具备较长的上下文窗口，但其在多示例场景下的性能扩展性依然存在明显的局限性，揭示了当前ICL方法在处理许多示例时的固有挑战。

为进一步理解ICL性能扩展性瓶颈的根本原因，我们回顾了Dai et al.（2023）的理论推导，该研究将ICL形式化地等同于微调（finetuning），但其假设中将标准注意力机制近似为线性注意力机制。这一近似忽略了生成响应时，示例与查询之间的注意力竞争问题。而这种注意力竞争恰是导致ICL性能扩展性与微调不同的关键原因。我们推测，当示例数量增加时，更多的示例会分散模型对查询的注意力，导致对查询的理解不足，从而影响模型的响应质量。

为验证这一假设，我们进行了两组实验。首先，我们通过增加示例数量观察模型对查询注意力分配的变化。实验结果（如图1所示）表明，随着示例数量的增加，模型对查询的注意力显著下降。

此外，我们进一步在示例中插入空白区域，发现空白区域越多，模型对查询的注意力越分散，导致响应准确率下降（如图2所示）。这一系列实验验证了，示例数量的增加确实会分散模型对查询的注意力，而这种注意力分散正是ICL性能扩展性不稳定的根本原因。

我们进一步通过理论推导验证了示例数量增加会分散模型对查询的注意力，进而导致ICL性能扩展性不稳定的现象。从公式 (3) 出发，我们可以进一步推导如下：

这表明，当将标准注意力机制近似为线性注意力机制时，示例的存在并不会影响查询的结果。然而，当我们不再对标准注意力进行线性近似时，结论发生了变化：

根据公式 (5) 和 (6)，当示例数量增加时，λ(hr)的值也会随之增大，从而降低模型对查询 (q) 的注意力。这一推导结果表明，ICL不再形式上等价于微调，因此无法完全遵循扩展性定律。也就是说，更多的示例会将模型的注意力从关键内容（查询）中分散出去，从而导致性能下降。

上述性能扩展性瓶颈阻碍了 ICL 在多示例场景中的应用。为此，我们提出了一种新颖的多样例上下文学习方法——FocusICL，旨在通过优化注意力分配来解决ICL中存在的注意力分散问题。我们的方法从两个层次优化注意力分配：

Token级别的无关内容过滤：基于注意力分布，自适应地屏蔽示例中不重要的token，将更多的注意力分配到关键内容上，从而避免模型资源的浪费。
示例级别的分层注意力机制：将示例划分为多个批次，分别执行批内注意力和批间注意力操作。在每个批次内，限制示例数量以确保模型能够专注于查询；在批次间，通过全局聚合操作综合更多示例的优势，从而实现规模化示例的有效利用。
高效超参数搜索策略：此外，为提升FocusICL的易用性与效率，我们提出了一种基于模型困惑度的高效超参数搜索策略，能够自动优化FOCUSICL在不同任务和示例配置下的表现。

为了解决这一问题，我们提出了FocusICL，一种新的多样例上下文学习方法。FocusICL的核心创新在于无关内容过滤和分层注意力机制。具体而言，FocusICL在token级别进行无关内容过滤，通过分析注意力分布动态屏蔽掉不重要的示例部分，从而有效地减少了模型的注意力分散。与此同时，FocusICL在示例级别引入了分层注意力机制，通过对示例进行分批处理并在每批内外分别进行注意力计算，确保每个示例的贡献能够得到合理分配，具体流程如图3所示。

2.1 Token-level：无关内容过滤策略

在人类的学习过程中，选择性忽略示例中的无关内容（trivialities）是避免注意力分散的关键能力。然而，大语言模型（LLMs）的标准注意力机制难以完全忽略这些无关内容，也无法充分利用查询token通常更重要这一先验信息。为此，我们提出了一种无关内容过滤策略，旨在通过屏蔽示例中的无用部分，将模型注意力集中在更相关的内容上。

在给定查询 q 的情况下，预测响应 r 时，我们首先在每一层注意力中计算注意力得分 s ：

不同于标准注意力机制直接对 s 应用softmax操作，我们预先设定一个阈值 p ，根据以下公式过滤示例中的无关内容：

其中， s_index 是满足count(s < s_index) = p * |s| 的索引。通过无关内容过滤操作，示例中无用的部分被赋予零权重，模型得以专注于利用相关内容解决当前查询。

此外，为了实现更广泛的适用性，除了对响应 r 应用无关内容过滤操作外，我们还将该操作扩展到演示示例的响应token上。具体来说，我们通过自回归方式将 (q_i, r_i)_{i=1}^{k-1} 视为当前示例对 (q_k, r_k), k \in [2, N] 的演示，从而对生成的所有响应逐步应用无关内容过滤操作。

2.2 Demonstration-level：分层注意力机制

在面对大量示例时，人类通常会分别从不同示例中获取灵感，再综合各示例的关键信息，以避免因同时关注过多示例而导致注意力分散。受此启发，我们为大语言模型（LLMs）设计了一种分层注意力机制，使其能够在多样例学习中高效从示例中学习，同时保持对当前查询的关注。

具体而言，我们首先将示例划分为 T 个批次，每个批次包含 B 个连续示例。为了保证每个批次与查询逻辑上的邻近性，我们在保持token顺序不变的前提下调整位置索引（如图4所示）。

同时，我们通过引入掩码矩阵，使不同批次之间相互不可见，从而可以在每个批次内并行计算批内注意力，公式如下：

通过控制批次大小 B ，我们能够确保模型在每个批次内始终保持足够的注意力集中于查询。为了进一步整合来自不同批次的信息，我们对批次间的结果进行加权聚合，公式如下：

其中，每个批次的注意力得分总和反映了该批次对当前查询的有用信息量。基于此，我们计算批次内结果的加权和，生成注意力层的最终输出。

2.3 超参数搜索策略

为高效确定不同大语言模型（LLMs）和任务下的过滤阈值 p 和批次大小 B ，我们设计了一种超参数搜索策略，具体流程如算法1所示。

在该策略中，我们将查询 q_i 视为当前查询，将示例集合 S_{1:i-1} 视为演示集，通过计算模型在生成 r_i 时的困惑度来衡量模型在给定示例数量 i-1 时的表现。较低的困惑度表示模型的性能更优。因此，我们选择使平均困惑度最低的 p 和首次导致困惑度呈现上升趋势的 B 作为超参数的最终取值。

我们围绕FocusICL展开实验，重点验证其在不同大语言模型和任务上的性能表现（3.1），测试其能否在示例数量增加时实现稳定扩展（3.2），并通过深入分析揭示其工作机制（3.3）。实验涵盖常识推理（CSQA、PIQA）、数学推理（GSM8K）等多个任务，选用三种主流长上下文模型（LONGCHAT-7B-V1.5-32K、VICUNA-7B-V1.5-16K、LLAMA-3-8B-INSTRUCT），并与多种基线方法（ICL、EARLYSTOP、STRUCTICL）对比，全面评估FOCUSICL的有效性和适用性。

3.1 主实验结果

我们的主要实验结果如表1、表2和表3所示，FocusICL通过引入无关内容过滤和分层注意力机制，既充分利用了所有示例，又确保模型专注于关键内容，在所有测试模型和任务中均表现出色。相较于ICL，FocusICL在三个LLMs上的平均性能提升5.2%（3.31分），显著优于基线方法。统计学分析显示，T检验的p值小于0.05，验证了FocusICL的有效性和泛化性。

我们进一步通过消融实验评估FocusICL的两大核心模块贡献：

1.无关内容过滤单独带来了1.29分的性能提升；

2.分层注意力机制带来了更显著的2.02分提升。

FocusICL通过分层注意力机制避免了不同批次示例之间的直接交互，从而显著降低了推理开销。假设每个示例平均包含 L 个token，ICL的注意力计算开销为：

FocusICL的开销为：

其中，N 是总示例数量，B 是每批次示例数，\Delta 表示计算成本单位。FocusICL的批次大小 B 通常远小于总示例数 N，因此其注意力计算开销的比例约为 B : N。这一结果表明，FocusICL在性能提升的同时保持了较低的推理开销。

3.2 多示例扩展性分析

在示例数量这一扩展维度上，传统的ICL方法并不稳定。如图5所示，示例数量的增加并不总是带来性能提升，有时甚至会出现逆向扩展现象。与之形成对比的是，FocusICL通过优化注意力分配，将模型的关注点集中在关键内容上，使得LLMs能够成为稳定的多样例学习者（many-shot learners），从而在示例数量扩展维度上展现出良好的可扩展性。此外，我们发现，随着示例数量的进一步增加，FocusICL相较于ICL的优势会不断扩大。这表明，如果拥有更多的计算资源以处理更多示例，FocusICL的性能提升将更加显著，从而进一步验证了其在多示例场景中的优越性。

3.3 FocusICL的工作机制分析

为深入理解FocusICL的工作机制，我们从注意力分布和隐藏状态分布两个方面进行了分析，探讨其如何有效解决ICL中的注意力分散问题。

注意力分布

FocusICL的核心目标是避免模型在示例数量增加时注意力被分散，从而确保对关键内容的准确理解。因此，我们观察了随着示例数量增加，模型分配给查询的注意力权重变化情况。如图6所示，FocusICL通过无关内容过滤和分层注意力机制，能够始终保持足够的注意力集中于查询，而ICL则随着示例数量的增加显著下降。这表明，FocusICL在应对注意力分散问题方面表现出明显优势。

隐藏状态分布

我们进一步使用主成分分析（PCA）研究了模型倒数第二层中最后一个输入token的隐藏状态分布。直观上，隐藏状态的分布主要依赖于当前问题本身，而不应随示例数量的变化而改变。然而，正如图7所示，ICL的隐藏状态随着示例数量的增加发生系统性变化，而FocusICL则不具有这种行为。我们认为，这是由于ICL中查询注意力的逐步下降，持续影响了响应生成过程中的隐藏状态分布，从而降低了生成质量。相比之下，FocusICL通过保持对查询的充分关注，避免了这一问题，并能够从更多的示例中获益。

在本研究中，我们发现多样例上下文学习（ICL）在大语言模型中存在性能扩展瓶颈，即随着示例数量的增加，模型性能未能实现预期提升，甚至出现逆向扩展现象。通过深入分析这一问题的根本原因，并结合理论推导，我们揭示了注意力分散是导致这一现象的核心原因。模型在多示例场景下的注意力被分散到无关内容，无法充分关注查询的关键信息，从而限制了性能的进一步提升。

为了解决这一问题，我们提出了FocusICL，一种创新的多样例上下文学习方法。FocusICL通过无关内容过滤策略，有效屏蔽了示例中不重要的内容，确保模型资源集中于关键信息；同时通过分层注意力机制实现了批次内和批次间的合理注意力分配，在充分利用示例信息的同时，避免了注意力竞争。此外，基于困惑度的超参数搜索策略降低了方法在不同任务和模型配置下的调参复杂度。

实验结果表明，FocusICL在多个基准数据集和主流大语言模型上表现出色，相较于传统ICL方法实现了平均5.2%的性能提升，并在示例数量增加时展现出优异的扩展性和稳定性。机制分析进一步验证了FocusICL通过优化注意力分布和隐藏状态，成功解决了ICL的关键挑战。

作为对传统ICL方法的一次重要突破，FocusICL展现了性能提升、扩展性强、适用性广的显著优势。随着大语言模型在能力和规模上的不断提升，FocusICL的潜力将进一步释放，为多样例上下文学习和通用人工智能（AGI）的发展提供更加高效的解决方案。

论文地址：https://arxiv.org/abs/2408.13987

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

全球首个ChatGPT爆炸案！AI教特种兵造炸弹，特朗普酒店遭自杀袭击

arXiv每日学术速递2025.1.9

NeurIPS 2024 | 基于拓扑同构的分布外鲁棒性: 重建与匹配

AAAI25 | 从稀疏聚合视角重新审视联邦推荐中的拜占庭鲁棒性

【附复现代码】基于PINN的论文创新思路

arXiv每日学术速递2025.1.8

七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

小乐数学科普：计算机科学家如何重新构想数学证明——《量子杂志》每周数学随笔

CES 2025：AMD锐龙9000新品亮相，游戏、创作力表现超Intel旗舰

arXiv每日学术速递2025.1.7

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA~

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【IEEE官方会议征稿】2025年IEEE第七届软件工程和计算机科学国际会议(CSECS 2025)

arXiv每日学术速递2025.1.6

专题解读｜大语言模型在图学习中的中段信息丢失现象

陶哲轩自述被拒稿是常事，「大牛名字」不是通行证！

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

arXiv每日学术速递2025.1.3

从0到1构建RLHF系统——小红书大模型团队的探索与实践

即插即用，轻松涨点！把大牛的模块缝合到自己的paper里

世界模型再进化！DrivingWorld：通过视频GPT构建自动驾驶世界模型（港科技&地平线）

五战蛋白质结构预测风向标CASP，南开大学郑伟：竞争性与难度提升，关注实际生物问题

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

从核心零部件到人形本体 2025年这几家机器人代表企业值得重点关注

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

arXiv每日学术速递2024.12.31

专题解读 | 自适应与拓扑感知：联邦图机器学习的新视角

更真实的协同感知！EI-Drive：协同感知和融合通信特征的智驾平台

稚晖君开源百万机器人真机数据集

arXiv每日学术速递2024.12.30

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

期刊副主编网上挂中国学者贿赂邮件！结局却疑似神反转！

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

横扫2024各大顶会，用Mamba发Paper真的很轻松！

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

EMNLP2024 | 示例越多性能反而越差？大模型注意力分散是关键

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

arXiv每日学术速递2024.12.25

NeurIPS 2024 | 用高斯邻域最小化提升视觉提示词微调在长尾视觉识别上的性能

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

arXiv每日学术速递2024.12.25

我发现了找顶会创新点的最强公式，真的不需要脑子

了解世界还是预测未来？一场关于自动驾驶世界模型的祛魅（清华最新综述）！

小乐数学科普：陶哲轩长文阐述机器辅助证明——译自美国数学会通讯AMS Notice 202501

唤醒企业沉睡的知识，元脑企智EPAI三步高效创建大模型RAG

arXiv每日学术速递2024.12.24

专题解读 | 图增强大语言模型研究进展

MSRA | 2025年六大AI趋势展望

EMNLP顶会最佳论文解读！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉