清华团队提出HiAR-ICL:基于蒙特卡洛树搜索的全新上下文学习推理范式

科技   2024-12-05 19:27   北京  


结论写在前面(太长不看版)

HiAR-ICL 通过引入高级推理模式到上下文学习(In-context Learning, ICL)中,扩展了“上下文”概念,使大语言模型(LLMs)具备了真正的推理能力,而不仅仅是模仿示例。
借助蒙特卡洛树搜索(MCTS),HiAR-ICL 大幅拓展了推理空间,捕获了丰富的思维模式,进而确保了推理的广泛性与深度。该方法也可以看作是将思维模式作为先验信息融入到 MCTS 中,形成高效的树形搜索。
相比于传统方法,HiAR-ICL 不仅在复杂推理任务中表现优异,还有效减少了计算复杂度,为未来 ICL 领域及复杂推理任务的研究提供新的思路。

论文标题:

HiAR-ICL: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

论文链接:

https://arxiv.org/pdf/2411.18478

项目主页:

https://jinyangwu.github.io/hiar-icl/

HuggingFace Daily Paper:

https://huggingface.co/papers/2411.18478



引言

在大型语言模型(LLMs)的应用中,上下文学习(In-context Learning, ICL)常通过精心设计的提示和高质量示例来解决特定任务。然而,传统的 ICL 方法在面对复杂推理任务时往往力不从心,主要原因在于其过度依赖示例的质量,并且在处理具有挑战性的场景时往往需要人类的干预。

为了克服这些限制,论文提出了 HiAR-ICL,一种结合蒙特卡洛树搜索(MCTS)的高级自动推理方法。HiAR-ICL 将关注点从具体示例转向抽象的思维模式,扩展了上下文学习的内涵,推动了推理能力的进一步发展。



研究动机

本研究的动机源于传统上下文学习(ICL)方法的局限性及精确推理范式对模型潜力的释放。首先,ICL 面临的问题包括示例偏差、高昂的人工成本和泛化能力的不足。通过以下类比,可以更直观地理解这些问题:
在场景(a)中,教师仅提供逐步指导,而不解释每个步骤背后的推理过程或适当的思维模式。这导致学生(特别是参数低于100亿的小型模型)难以理解教师的意图并内化问题解决方法。
在场景(b)中,教师必须精心构建高质量的示例供学生模仿。这些示例至关重要,因为轻微的变化可能会影响模型对问题的理解。虽然这种方法有助于学生学习解决类似问题,但学生在面对与原始格式不同的新问题时往往会遇到困难。这需要教师额外干预,提供新的、相关的示例,非常耗时耗力。
相比之下,在场景(c)中,更有经验的教师可能会专注于培养通用的思维模式,而不是解决个别问题。这种方法为学生提供了强大的问题解决策略,使他们能够有效地应对新颖和复杂的挑战,即使在不熟悉的场景中也是如此。这种长远的视角使学生能够独立适应并高效解决类似问题。
其次,精确的推理范式能够激发大型语言模型(LLMs)的潜力,提升其推理能力。例如,OpenAI 的 o1 模型在解决复杂推理问题时展现出了显著的优势,进一步凸显了推理范式的重要性。链式推理(CoT)已被扩展到树形结构,以增加潜在的推理空间并提升推理精度,如 ToT、rStar 和 ReST-MCTS* 等方法。

受到这些研究的启发,论文采用了 MCTS 结构来探索更全面的推理路径,同时将已知的认知模式引入到 ICL 中,极大地减少了搜索空间的计算复杂度,同时保持了高效的推理性能。因此,论文提出的 HiAR-ICL 方法,充分平衡了推理效率和准确性。



HiAR-ICL方法概述

▲ 图2:方法图

HiAR-ICL 通过引入五种原子推理动作来构建链式结构模式,这些动作模拟了类人的认知过程,如问题分解与推理反思。MCTS 被用于探索可能的推理路径并构建“思维卡片”(thought cards),这些卡片为后续推理提供指导。

此外,文章还设计了一个认知复杂度框架,能够动态匹配问题与适当的思维卡片。具体包含以下四步:

Step 1: Define Atom Reasoning Actions(原子推理动作的定义)

HiAR-ICL 首先定义了五种原子推理动作,这些动作是构建链式结构推理模式(称为“思维卡片”)的基础。这些动作包括系统分析(System Analysis, SA)、一步思考(One-Step Thought, OST)、链式思考(Chain-of-Thought, CoT)、分而治之(Divide and Conquer, DC)和自我反思与修正(Self-Reflection and Refinement, SRR)。

这些动作的设计旨在模拟人类的高阶认知行为,使得模型能够更有效地进行问题分解、逻辑推理和自我修正。

Step 2: Construct Thought Cards via MCTS(通过MCTS构建思维卡片)

利用 MCTS,HiAR-ICL 从小样本数据中探索和构建参考推理路径,形成多个思维卡片。这一过程包括选择(Selection)、扩展(Expansion)、模拟(Simulation)和反向传播(Backpropagation)四个阶段。

通过这种方式,HiAR-ICL 能够在没有外部监督的情况下,自适应地生成和优化推理路径,提高了模型的泛化能力和推理效率。

Step 3: Select Reasoning Patterns(推理模式选择)

HiAR-ICL 引入了一个认知复杂度框架,包括子问题数量、问题条件复杂度和语义相似度三个指标。基于这个框架,HiAR-ICL 能够动态匹配问题与适当的思维卡片,选择最适合目标问题认知复杂度的思维卡片作为推理模板。

Step 4: Solve and Verify(推理和验证)

在推理阶段,HiAR-ICL 利用选定的思维卡片指导推理过程,并生成候选解决方案。验证阶段则通过过程奖励模型(Process Reward Model, PRM)、输出奖励模型(Output Reward Model, ORM)和一致性检查等机制来确保推理结果的高质量和准确性。

实际上,上述推理过程也可以看作是高度优化的树搜索。通过引入先验信息--即推理模式,模型能够迅速定位树搜索结构中每一层的节点,迅速向下找到较优路径。因此,HiAR-ICL 在保证潜在答案空间基本不变的情况下,极大压缩了探索时间,提升了计算效率,实现了性能和效率的双重保证。



实验结果分析

HiAR-ICL 的实验结果分析显示了该方法在多个复杂推理基准上的有效性和优越性能。以下是实验结果的几个关键点:

4.1 性能提升

HiAR-ICL 在多个推理基准上取得了显著的性能提升,显著超过了现有 CoT 等方法,且针对小模型的提升效果明显。例如,Llama3-8B-Instruct 在 MATH 基准上的准确率从 17.8%(few-shot CoT)提高到使用 HiAR-ICL 的 43.2%,Qwen2-7B-Instruct 从 52.9% 提高到 63.8%,Yi-1.5-6B-Chat 从 40.5% 提高到 54.0%。

▲ 表1 HiAR-ICL和in-context learning方法对比

4.2 与顶尖闭源LLMs的比较

HiAR-ICL 赋能的 LLMs 在性能上与拥有数千亿参数的顶尖闭源模型相媲美,甚至在某些情况下超过了这些闭源模型。特别是 Qwen2.5-7B-Instruct 模型,在 MATH 基准测试中的表现超过了 GPT-4o。

▲ 表2:HiAR-ICL和闭源模型的对比

4.3 与树搜索方法的比较

与其他树基推理方法相比,HiAR-ICL 在 GSM8K 和 MATH 数据集上展现出了优越的性能和显著的泛化能力。

▲ 表3 HiAR-ICL和最新树搜索方法对比

4.4 计算效率

作者还和目前的 SOTA 方法 rStar 进行了对比,发现整体性能保证的同时,极大降低了时间复杂度。

▲ 图3:HiAR性能和计算效率结果展示

4.5 不同验证方法的效果

在验证部分,HiAR-ICL 采用了过程奖励模型(PRM)、输出奖励模型(ORM)和自我一致性(SC)三种方法。实验结果显示,即使是简单的一致性基础方法也能有效地选择最精确的推理链,展现出强大的性能。这也展示了这个方法的有效性,可能通过更加精细设计的验证方法,能够实现更好的性能。

▲ 表4:不同验证方法对比



总结

综上所述,HiAR-ICL 通过其高级自动推理范式和 MCTS 的应用,在推理性能和计算效率上都取得了显著的成果,证明了其在复杂推理任务中的潜力和价值。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章