研究方向 | 大语言模型
作者单位:
收录会议:
引言
如图 1 所示,对于同一个问题,在任务层面上更好的 “Let's think step by step.” 引导 LLMs 产生了错误的推理路径,而不适合在任务级别使用的 “Don't think. Just feel.” 反而让模型输出了正确答案。
▲ 图1. 不同任务级别的prompt对相同问题下的表现
如上述所言,每个问题都有其独特性,没有任何一个任务级别的 prompt 能够适用于所有问题,需要为每个问题找到特定的 prompt 来激发 LLMs 的推理潜能,本文的研究提出可以通过“实例自适应(Instance-adaptive prompting)”的提示策略来实现这个目标。
此前的研究主要集中在任务级别的提示策略上,如 Self-consistency、OPRO 和 Self-discover 等,这些方法虽然在不同推理任务上取得了很好的效果,但它们往往依赖于为每个任务寻找一个最优的任务级提示,这种方法可能在某些实例上效果不佳,因为他们都忽视了不同问题实例之间的差异性。
本文使用 Qwen-14B-Chat 模型和 5 个不同的任务级别的 prompt 在 GSM8k 数据集上进行了实验,并对这些 prompt 的错误回答进行了统计,发现 5 个 prompt 的交集仅有 17.59% (232/1319),这优于 5 个 prompt 中 “Let's think step by step.” 的错误率 42%,这验证了不同提示在处理不同问题实例时的表现差异,也表明了实例级别的 prompting 策略相对于任务级别的巨大优化空间。
▲ 图2. 5个prompt在GSM8k测试集上的错误集合
如何实现实例级别的 prompting?问题的核心在于如何识别出哪些问题实例和 prompt 的组合更可能引导正确推理,而哪些组合会失败,这需要深入分析模型的内部工作机制,包括信息如何在模型的不同层和头之间流动,以及这些流动如何影响最终的推理结果。
通过图 3 可视化分析显著性分数,研究者们发现:通过显著性分数可视化发现:对于 LLMs 的正确推理实例,Question-to-Prompt、Question-to-Rationale、Prompt-to-Rationale 的显著性得分都会维持在较高水平;相反,对于不能引导 LLMs 正确推理的 prompt,三者之一可能产生了较低的显著性分数。
▲ 图4. 零样本CoT信息流分析,深色代表较强的信息流,浅色表示信息流较弱
研究者们还对模型的不同注意力层和头进行细粒度分析,以了解信息流在模型内部的动态变化。图 5 在模型的浅层,问题到提示的信息流尤为显著,这表明在模型的早期推理阶段,问题的核心信息被有效地聚合到提示中。而在深层,提示到推理的信息流逐渐增强,这表示了提示在引导模型生成推理过程中的关键作用。
▲ 图5. 三种信息流的Layer-head可视化,分数较高为深色,较低为浅色
Instance-adaptive Prompting (IAP) 策略
研究者们首先通过信息流分析 LLMs 的零样本 CoT 推理机制,发现问题到提示、问题到推理过程、以及提示到推理的信息流共同作用于推理结果。如图 1 所示,这三种信息流中任意一种不明显都可能导致错误的推理。基于此,本文提出了 IAP 策略,该策略能够根据不同实例选择最合适的提示,以引导 LLMs 进行正确的推理。
基于这些发现,研究者们提出了两种 IAP 策略的实现方法:顺序替换(Sequential Substitution, IAP-ss)和多数投票(Majority Vote, IAP-mv)。
顺序替换(IAP-ss):这种方法基于上述发现,认为超过给定阈值的提示可能是更好的提示,这个过程在找到最优提示或遍历所有候选提示后终止,从而避免了进一步探索其他提示产生的额外计算成本。
多数投票(IAP-mv):另一种方法需要在所有候选提示上计算综合显著性分数,然后保留最高分数,这些最高分数中的一致答案即为最终答案。这种协同组合确保所选提示不仅符合 LLMs 的内在推理模式,而且符合从多样化的潜在提示中推断出的集体智能。
实验结果
研究者们对不同的模型(如 Qwen-14B-Chat, LLaMA-2-13B-Chat, LLaMA-3-8B-Instruct, LLaMA-3-70B-Instruct)进行了较为全面的测试,涉及数学、逻辑和常识推理任务。结果显示,IAP 策略在各种任务和模型上均取得了一致的性能提升,与任务级别的最优提示相比,准确率平均提升了 2%-4%。
本文通过显著性分数分析问题、提示和推理过程之间的相互作用,探索了零样本 CoT 推理中的信息流动机制,发现三种更强的信息流预示着正确的推理过程。
本文提出了一种基于信息流分析结果的实例级自适应提示策略 IAP,能够选择出能够引导 LLMs 正确推理的合适提示,可以作为一个新颖的 Zero-shot CoT 的基线方法。
通过在不同 LLMs 和 prompt 上的大量实验验证了 IAP 策略的有效性,展示了 Zero-shot CoT 推理过程中信息流分析的重要性和实例级别 prompting 策略的有效性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧