导读/Intro
近年来,随着模型参数规模和训练数据量的提升,大语言模型在数学、符号、常识推理等复杂任务上表现出突出性能。大模型的这种通用推理能力被认为是构建类人智能体的核心要素,是智能体进行决策、分析等复杂任务的基本前提。
概念和研究背景
相关研究梳理
围绕着大模型推理这一研究问题,相关工作可主要分为理论分析和算法设计。理论分析型研究基于发现的规律与理论推导结合的方式,对大模型推理能力的来源以及推理方法的有效性进行解析。算法型研究主要包含智能体式工作流设计、小模型微调增强、多模态推理框架等研究方向。
图3. 大模型推理相关研究分类框架
面向大模型推理的理论分析
早期对大模型推理能力的分析多基于规律发现,比如在各类推理任务上观察到模型规模与推理能力之间的规模效应(scaling law),以及对思维链(CoT)提示方法进行损伤实验,结果指出影响思维链提升方法有效性的两个重要因素:思维链过程与输入问题的相关性以及自身条理性,而具体的思维过程正确性无足轻重。
图4.思维链提示下大模型推理能力的规模效应 [1]
随着对大模型推理能力研究的不断深入,陆续出现基于理论推导的大模型推理解释框架。典型工作包括基于Transformer的结构特性分析思维链对提升大模型推理能力的作用,以及将大模型推理建模为预训练知识图上的推理路径聚合过程,并通过KL散度分析验证该解释框架的合理性。
图5. 基于带权推理路径聚合的大模型推理解释框架 [4]
参考文献:
[1] Wei, Jason, et al. "Emergent Abilities of Large Language Models." TMLR 2022.
[2] Wang, Boshi, et al. "Towards understanding chain-of-thought prompting: An empirical study of what matters." ACL 2023.
[3] Feng, Guhao, et al. "Towards revealing the mystery behind chain of thought: a theoretical perspective." NeurIPS 2023.
[4] Wang, Xinyi, et al. "Understanding the Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation." ICML 2024.
面向大模型推理的算法设计
智能体式工作流设计 随着思维链工作流(workflow)在大模型推理上取得重要突破,通过设计更先进的工作流来增强大模型推理性能成为热点研究方向。此类研究的出发点包括(1)使用更为复杂的数据结构建模中间思维步骤,如思维树(ToT)、思维图(GoT)等;(2)从人类自身推理过程获得启发,设计类人推理框架改进工作流,如引入反思(Self-refine)、类比推理(Thought Propagation)等机制。
图6.多种提示策略设计对比示意图 [6]
小模型微调增强 尽管当前大模型推理取得了显著成效,然而却面临着模型部署带来的巨大计算资源压力,为此有研究致力于将大模型的推理能力迁移至小规模模型,提升其应用价值。此类研究多基于“大模型产生推理知识数据->小模型微调”的范式进行。通过推理知识微调,小模型在专门领域的推理能力可获得有效提升。
图7.基于推理知识微调的小模型推理增强框架 [8]
多模态推理框架此外,随着大模型推理在文本数据上的重要突破,逐渐有研究尝试将相关思想拓展至更多模态数据(如图像,视频)。其中多模态思维链(Multimodal-CoT)首先将视觉信息与文本信息进行特征融合,随后解码得到中间推理过程,最后结合多模态信息和中间过程得到推理结果。近期也有相关工作(Video-of-Thoughts)关注视频内容理解与推理任务,受思维链启发设计了面向视频的逐步推理流程。
图8.多模态思维链框架示意图 [9]
参考文献:
[5] Yao, Shunyu, et al. "Tree of thoughts: Deliberate problem solving with large language models.“ NeurIPS 2023.
[6] Yu, Junchi, Ran He, and Rex Ying. "Thought propagation: An analogical approach to complex reasoning with large language models." ICLR 2024.
[7] Madaan, Aman, et al. "Self-refine: Iterative refinement with self-feedback." NeurIPS 2023.
[8] Ho, Namgyu, et al. "Large language models are reasoning teachers." ACL 2023.
[9] Zhang, Zhuosheng, et al. "Multimodal chain-of-thought reasoning in language models." arXiv 2023.
[10] Fei, Hao, et al. “Video-of-thought: step-by-step video reasoning from perception to cognition.” ICML 2024.
近期成果:
大小模型协作的高效推理(SoT)
为解决大模型推理成本与准确性之间的冲突挑战,课题组近期提出一种基于大小模型协作的高效推理框架 (SoT)。当下大模型推理技术研究多以推理准确率的提升为目标,在推理性能增强的同时往往会带来推理成本的显著上升。已有研究表明,通过提升模型规模可提升推理性能。此外,以思维树(ToT)为代表的研究,通过探索多种不同的推理路径,在更大的解空间中进行搜索,进一步提升了推理性能。然而上述方法都具有推理开销高昂的缺陷,比如在24点推理任务上ToT的推理成本会高达CoT的100倍左右。面对更复杂的推理任务(如开放式推理)这些方法带来的推理开销将进一步加重,从而严重制约了LLM的推理效率与实用价值。
为解决当前存在的高效推理和准确推理之间的冲突问题,我们提出了一种基于大小模型协作的高效推理框架(Synergy-of-Thoughts, SoT)。该方法受人类认知双过程(Dual Process)理论启发,即人类认知过程由两个系统协作完成,系统一(System 1)可以提供快速响应的直觉但是存在一定误差风险,系统二(System 2)进行缓慢、高成本的反思性推理,可获得更为准确的决策结果。人类在决策时通过两个相互竞争系统的协同,实现高效且准确的推理。受此启发,我们设计了一种类人双系统协同高效推理框架,与模型无关且无需任何额外训练/微调。
图9.人类双系统推理与SoT设计框架示意图
具体而言,在执行每一推理步骤时,SoT默认依靠基于过往经历的直觉(系统一,通过多个小规模LLM实现)进行推理,而当直觉出现冲突时引入反思性推理(系统二,通过大规模LLM实现)进行推理步骤的干预和修正。双系统之间的协作通过直觉置信度评估模块进行控制,其中系统一的多个小模型首先进行交叉评估打分,而后通过一个可调节的置信度阈值决定是否调用系统二进行干预。
图10.SoT实现框架示意图
我们在六个复杂推理任务上进行推理性能和成本比较,包含封闭式推理(如Game of 24,GSM8K等)和开放式推理(如Creative Writing,Open-ended QA等)任务。实验结果显示SoT在这些任务上均实现了SOTA推理性能,与此同时相比于基线模型能够节省38.3%∼75.1%的推理成本。其中在开放性推理任务上平均能够节省69.1%的推理成本。
图11.SoT实现了推理准确度和成本的最优权衡
论文原文链接:
https://arxiv.org/pdf/2402.02563v2
未来展望