NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

科技 2024-12-12 23:49 北京

©PaperWeekly 原创 · 作者 | 苑小松

单位 | 吉林大学、阿里云飞天实验室

研究方向 | 大语言模型

论文地址：

https://arxiv.org/abs/2409.20441

作者单位：

阿里云智能-飞天实验室

收录会议：

NeurIPS 2024

引言

大语言模型（LLMs）可以通过“思维链（Chain-of-Thought, CoT）” 来解决复杂的推理问题，但对于不同类型的任务，往往需要人工设计的 “提示（prompt）” 来引导 LLMs 进行有效的推理思考。

这些提示，就像是老师在学生解题时给予的微妙提示，能够激发学生的思考，帮助他们找到问题解决的钥匙。合适的 prompt 能够引导 LLMs 沿着正确的路径推理，而不合适或过于宽泛的 prompt 则可能导致 LLMs 误入歧途，最终得到错误的结论。

Zero-shot CoT 的研究发现：不同的 prompt 在不同任务上表现差异巨大，因此应该选择更适合特定任务的 prompt 来发挥 LLMs 的潜力。然而，“此之甘饴，彼之砒霜”，并不是在某个任务上表现优异的 prompt 对所有所有问题都能引导出正确推理，对于任务整体并不合适的 prompt 也可能对于其中某些问题的推理风格更适配。

如图 1 所示，对于同一个问题，在任务层面上更好的 “Let's think step by step.” 引导 LLMs 产生了错误的推理路径，而不适合在任务级别使用的 “Don't think. Just feel.” 反而让模型输出了正确答案。

▲ 图1. 不同任务级别的prompt对相同问题下的表现

研究意义

如上述所言，每个问题都有其独特性，没有任何一个任务级别的 prompt 能够适用于所有问题，需要为每个问题找到特定的 prompt 来激发 LLMs 的推理潜能，本文的研究提出可以通过“实例自适应（Instance-adaptive prompting）”的提示策略来实现这个目标。

此前的研究主要集中在任务级别的提示策略上，如 Self-consistency、OPRO 和 Self-discover 等，这些方法虽然在不同推理任务上取得了很好的效果，但它们往往依赖于为每个任务寻找一个最优的任务级提示，这种方法可能在某些实例上效果不佳，因为他们都忽视了不同问题实例之间的差异性。

本文使用 Qwen-14B-Chat 模型和 5 个不同的任务级别的 prompt 在 GSM8k 数据集上进行了实验，并对这些 prompt 的错误回答进行了统计，发现 5 个 prompt 的交集仅有 17.59% (232/1319)，这优于 5 个 prompt 中 “Let's think step by step.” 的错误率 42%，这验证了不同提示在处理不同问题实例时的表现差异，也表明了实例级别的 prompting 策略相对于任务级别的巨大优化空间。

▲ 图2. 5个prompt在GSM8k测试集上的错误集合

问题分析

如何实现实例级别的 prompting？问题的核心在于如何识别出哪些问题实例和 prompt 的组合更可能引导正确推理，而哪些组合会失败，这需要深入分析模型的内部工作机制，包括信息如何在模型的不同层和头之间流动，以及这些流动如何影响最终的推理结果。

具体而言，文章采用了一种基于显著性分数（saliency score）的方法来分析信息流，这种方法可以帮助分析模型在处理语言任务时是如何在不同组件间传递和处理信息的。显著性分数是通过计算模型的注意力矩阵与其梯度的逐元素乘积来得到的。

具体来说，对于模型的第层和第个注意力头，显著性分数可以表示为：

其中，是模型的输入，表示第层和第个注意力头的激活值，是显著性分数最大的注意力对集合，表示逐元素乘法，是模型的损失函数，本文中使用交叉熵函数。

研究者们主要关注了三个关键的信息流动路径：

1. 问题到提示（Question-to-Prompt）：这一路径反映了问题中的语义信息如何被聚合到提示中：

2. 问题到推理（Question-to-Rationale）：这一路径显示了问题直接如何影响推理步骤：

3. 提示到推理（Prompt-to-Rationale）：这一路径揭示了提示如何影响推理步骤：

实例分析：

▲ 图3. 实例信息流分析，像素点颜色由浅到深表示显著性分数从低到高，红色框内为 question-to-prompt 显著性分数，蓝色框为 question-to-rationale，绿色框为 prompt-to-rationale

通过图 3 可视化分析显著性分数，研究者们发现：通过显著性分数可视化发现：对于 LLMs 的正确推理实例，Question-to-Prompt、Question-to-Rationale、Prompt-to-Rationale 的显著性得分都会维持在较高水平；相反，对于不能引导 LLMs 正确推理的 prompt，三者之一可能产生了较低的显著性分数。

图 4 更为形象化的展示了正确推理和错误推理之间的差异。而这一过程与人类思考过程相似：给定一个问题和提示，人类首先会尝试理解问题，然后运用提示中提供的指导原则来解决问题，推理过程中需要始终关注上述过程。

▲ 图4. 零样本CoT信息流分析，深色代表较强的信息流，浅色表示信息流较弱

Transformer注意力层和头信息流分析

研究者们还对模型的不同注意力层和头进行细粒度分析，以了解信息流在模型内部的动态变化。图 5 在模型的浅层，问题到提示的信息流尤为显著，这表明在模型的早期推理阶段，问题的核心信息被有效地聚合到提示中。而在深层，提示到推理的信息流逐渐增强，这表示了提示在引导模型生成推理过程中的关键作用。

▲ 图5. 三种信息流的Layer-head可视化，分数较高为深色，较低为浅色

通过这些分析，研究者们能够更深入地理解 LLMs 在零样本 CoT 推理中的工作机制，并据此设计出能够适应不同实例的 IAP 策略。这种方法不仅提高了模型的推理能力，也为未来 LLMs 的优化和应用提供了新的思路。

Instance-adaptive Prompting (IAP) 策略

研究者们首先通过信息流分析 LLMs 的零样本 CoT 推理机制，发现问题到提示、问题到推理过程、以及提示到推理的信息流共同作用于推理结果。如图 1 所示，这三种信息流中任意一种不明显都可能导致错误的推理。基于此，本文提出了 IAP 策略，该策略能够根据不同实例选择最合适的提示，以引导 LLMs 进行正确的推理。

对于每个问题和某个提示，综合显著性分数计算如下：

其中，和分别是 transformer 的注意力层和头的索引集合，和分别是集合中的元素数量，是用于调整不同显著性分数比例的调和超参数。

基于这些发现，研究者们提出了两种 IAP 策略的实现方法：顺序替换（Sequential Substitution, IAP-ss）和多数投票（Majority Vote, IAP-mv）。

顺序替换（IAP-ss）：这种方法基于上述发现，认为超过给定阈值的提示可能是更好的提示，这个过程在找到最优提示或遍历所有候选提示后终止，从而避免了进一步探索其他提示产生的额外计算成本。

多数投票（IAP-mv）：另一种方法需要在所有候选提示上计算综合显著性分数，然后保留最高分数，这些最高分数中的一致答案即为最终答案。这种协同组合确保所选提示不仅符合 LLMs 的内在推理模式，而且符合从多样化的潜在提示中推断出的集体智能。

实验结果

研究者们对不同的模型（如 Qwen-14B-Chat, LLaMA-2-13B-Chat, LLaMA-3-8B-Instruct, LLaMA-3-70B-Instruct）进行了较为全面的测试，涉及数学、逻辑和常识推理任务。结果显示，IAP 策略在各种任务和模型上均取得了一致的性能提升，与任务级别的最优提示相比，准确率平均提升了 2%-4%。

主要贡献

本文通过显著性分数分析问题、提示和推理过程之间的相互作用，探索了零样本 CoT 推理中的信息流动机制，发现三种更强的信息流预示着正确的推理过程。

本文提出了一种基于信息流分析结果的实例级自适应提示策略 IAP，能够选择出能够引导 LLMs 正确推理的合适提示，可以作为一个新颖的 Zero-shot CoT 的基线方法。

通过在不同 LLMs 和 prompt 上的大量实验验证了 IAP 策略的有效性，展示了 Zero-shot CoT 推理过程中信息流分析的重要性和实例级别 prompting 策略的有效性。

结论与展望

本文的研究不仅探索了对 LLMs 零样本 CoT 推理机制，而且通过实例自适应提示策略，为在实例层面上提升 LLMs 的推理能力提供了新的思路。未来的工作可以进一步探索如何优化提示策略，以及如何将这些发现应用于更广泛的任务和模型。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉