Reinforced LLM Reasoning
【主题】Reinforced LLM Reasoning
【时间】2024年11月1日13:30-17:30
【地点】电子工程馆7层咖啡厅
非城市科学与计算研究中心人员请扫码填写个人信息报名后于研讨会现场签到入场
城市科学与计算研究中心第45次技术研讨会将于11月1日周五13:30举办。
大语言模型的快速发展涌现出了具有强泛化性的常识推理(Commonsense Reasoning)能力,其被认为是支撑从智能模型到自主智能体演进的核心技术能力之一,将使得大模型的技术突破能辐射到智能个人助理、具身机器人、自动科学发现等诸多前沿研究领域。然而,当前大模型普遍采用自回归拟合的Transformer结构,具有从左向右、逐词元(token)解码的特性,其被认为无法支持反思性、非线性的复杂逻辑思维结构,在根本上限制了大模型的推理能力。
另一方面,近期学者提出了在更高抽象层级的“想法”(Thought)层面实现更复杂的逻辑推理搜索,其中最具代表性的是OpenAI近期发布的o1推理大模型,其通过在推断阶段(inference stage)消耗更多token实现更为复杂、精细的想法搜索,大幅提升语言模型的思维能力。在这一框架下,大模型推理能力和强化搜索算法的深度融合成为了亟待研究的前沿技术问题。
在本次研讨会中,我们将按照大模型的推断(inference)、后训练(post-training)、数据构建(data construction)三个阶段,梳理总结强化搜索技术在增强大模型推理能力方面的近期研究。在推断阶段,我们将重点探讨基于智能体工作流(agentic workflow)的强化搜索技术,基于大模型的指令跟随能力实现在解空间内的强化搜索和迭代优化;在后训练阶段,我们将分别介绍单轮和多轮强化学习微调方法,重点关注结果奖励模型和过程奖励模型的当前研究重点;在数据构建阶段,我们将聚焦高质量推理过程数据难获得的难题,探讨大模型推理与强化搜索结合的自动化数据标注方法,重点关注Weak-to-strong、Self-improvement的技术路线。
最后,针对目前学术界和工业界广泛关注的推理大模型,我们将详细整理国内外诸多团队对于GPT-o1可能采用的架构与技术路线的推测,梳理当前复现实验取得的进度,探讨有潜力的未来研究方向。
Part.1 / 推断阶段的语言强化搜索
与传统AI算法不同,大语言模型的一个显著特征是其通过指令微调(Instruction Tuning)获得的强大指令跟随能力。这使得大模型可被按智能体工作流的形式加以编程,在推断阶段模拟强化学习经典算法,实现在目标问题解空间的高效搜索,这一策略在逻辑推理、数学求解、图结构挖掘等问题上被广泛验证有效。在这部分的分享中,我们将分为(1)模拟强化学习的解空间搜索(2)模拟记忆机制的智能体增强和(3)智能体工作流自我强化三个部分,梳理介绍大语言模型在推断阶段的语言强化搜索研究。
图1 模拟强化学习的智能体工作流(Reflexion)
参考文献
[1] Romera-Paredes, Bernardino, et al. "Mathematical discoveries from program search with large language models." Nature 625.7995 (2024): 468-475.
[2] Chen, Lin, et al. "Large language model-driven meta-structure discovery in heterogeneous information network." Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2024.
[3] Shinn, Noah, et al. "Reflexion: Language agents with verbal reinforcement learning." Advances in Neural Information Processing Systems 36 (2024).
[4] Zhao, Andrew, et al. "Expel: Llm agents are experiential learners." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 17. 2024.
[5] Shang, Yu, et al. "AgentSquare: Automatic LLM Agent Search in Modular Design Space." arXiv preprint arXiv:2410.06153 (2024).
[6] Zhuge, Mingchen, et al. "GPTSwarm: Language Agents as Optimizable Graphs." Forty-first International Conference on Machine Learning.
Part.2 / 基于RL的LLM post-training
基于强化学习的大语言模型后训练技术在对齐人类偏好、提升推理能力方面起到了关键作用。本部分首先介绍以人类反馈强化学习(RLHF)为代表的相关工作,这类工作的优化过程通常基于单轮对话,等效于强化学习中的单步决策,因而限制了LLM在多轮对话和复杂推理任务中的表现。随后,我们将介绍旨在通过多轮对话和多步推理对LLM进行微调的工作,这些方法通过强化学习的多步决策优化长期收益。此类方法依据奖励函数的不同形式可分为基于结果的奖励和基于过程的奖励两大类。虽然基于过程的奖励在标注上成本较高,但在提升模型推理能力方面具有显著优势。
图 2 人类反馈强化学习的框架图
参考文献
[1] Training language models to follow instructions with human feedback. Neurips, 2022.
[2] Aligning Language Models with Offline Reinforcement Learning from Human Feedback. ArXiv, 2023.
[3] VinePPO: Unlocking RL Potential for LLM Reasoning Through Refined Credit Assignment. ArXiv, 2024.
[4] CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks. ArXiv, 2024.
Part.3 / 基于强化搜索的训练数据构造
大模型的训练是基于大量的数据进行的,高质量的数据是提升大模型性能的关键。在这一部分,我们将深入讨论如何利用强化学习及其衍生技术为提升大模型推理能力准备数据基础。首先,利用自动化方法为大模型推理的中间步骤做标注成为近期研究热点。基于这些标注训练过程奖励函数(PRM)来微调大模型,是提升其推理能力的关键方法。其次,数据评估与数据增强技术在构造数据基础中同样重要,对于已有的数据,前者评价每条数据的质量并筛选高质量数据;而后者关注如何改进数据质量,基于已有数据得到更高质量的数据。最后,我们将关注数据合成技术,讨论基于合成数据训练大模型的收益与风险。
图 3 利用自动化方法标注推理中间步骤数据
参考文献
[1] Lightman H, Kosaraju V, Burda Y, et al. Let's verify step by step[J]. arXiv preprint arXiv:2305.20050, 2023.
[2] Wang P, Li L, Shao Z, et al. Math-shepherd: Verify and reinforce llms step-by-step without human annotations[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024: 9426-9439.
[3] Yang Y, Ma Y, Liu P. Weak-to-strong reasoning[J]. arXiv preprint arXiv:2407.13647, 2024.
[4] Yoon J, Arik S, Pfister T. Data valuation using reinforcement learning[C]//International Conference on Machine Learning. PMLR, 2020: 10842-10851.
[5] Schick T, Dwivedi-Yu J, Dessì R, et al. Toolformer: Language models can teach themselves to use tools[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6] Tian Y, Peng B, Song L, et al. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing[J]. arXiv preprint arXiv:2404.12253, 2024.
Part.4 / GPT-o1技术路径解读与学习
随着GPT-o1的横空出世,在如何在传统大模型训练的基础上融入强化学习并充分发挥CoT的能力引发了诸多思考。GPT-o1的架构能够更加充分的发挥大模型的推理能力,从而胜任更复杂的推理任务,并在诸如数学,代码比赛以及专业问答等多个领域表现出了高超水平。
在这部分中,我们首先广泛调研国内外诸多团队对于GPT-o1可能采用的架构与技术,进行总体梳理。其次,我们进一步详细介绍当前两个声称已经复现出GPT-o1的具体工作,并针对其中技术细节展开详细讨论和思考交流。
图 4 GPT-o1可能采用的PRM过程奖励函数
参考文献
[1] Wang et al., OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models. Arxiv, 2024.
[2] Qin et al. O1 Replication Journey: A Strategic Progress Report – Part 1. ArXiv, 2024.
[3] OpenAI, https://openai.com/index/learning-to-reason-with-llms/4.
[4] OpenAI o1原理逆向工程图解.