[论文分享]NeurIPS 2023 ICPI:语言模型可以实现强化学习领域内的策略迭代

文摘   2024-10-29 22:52   北京  
标题Large Language Models Can Implement Policy Iteration
作者Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh
机构University of Michigan
邮箱{ethanbro,logwalls,rickl,baveja}@umich.edu
论文https://proceedings.neurips.cc//paper_files/paper/2023/hash/60dc7fa827f5f761ad481e2ad40b5573-Abstract-Conference.html
代码https://github.com/ethanabrooks/icpi

摘要 Abstract

在这项工作中,我们展示了一种利用大语言模型(Large Language Model,LLM)实现策略迭代的方法。虽然基础模型在强化学习(Reinforcement Learning, RL)中的应用受到了广泛关注,但大多数方法都依赖于:

(1) 专家示范的策划(通过人工设计或特定任务的预训练)。缺点:难以收集数据、结果并不会优于专家数据。

(2) 使用梯度方法(微调或训练adapter层)以适应相关任务。缺点:速度慢、成本。

该论文提出了一种利用LLM上下文学习(context-learning)机制实现策略迭代的方法,称为ICPI(In-Context Policy Iteration),使得可以在没有专家信息或梯度的情况下学习执行RL任务。该方法通过与 RL 环境的试错互动,迭代更新prompt内容,并据此制定策略。使用 Codex 模型演示了我们的方法,其对评估的领域没有任何先验知识。

In this work, we demonstrate a method for implementing policy iteration using a large language model. While the application of foundation models to RL has received considerable attention, most approaches rely on either (1) the curation of expert demonstrations (either through manual design or task-specific pretraining) or (2) adaptation to the task of interest using gradient methods (either fine-tuning or training of adapter layers). Both of these techniques have drawbacks. Collecting demonstrations is labor-intensive, and algorithms that rely on them do not outperform the experts from which the demonstrations were derived. All gradient techniques are inherently slow, sacrificing the “few-shot” quality that makes in-context learning attractive to begin with. Our method demonstrates that a large language model can be used to implement policy iteration using the machinery of in-context learning, enabling it to learn to perform RL tasks without expert demonstrations or gradients. Our approach iteratively updates the contents of the prompt from which it derives its policy through trial-and-error interaction with an RL environment. In order to eliminate the role of in-weights learning (on which approaches like Decision Transformer rely heavily), we demonstrate our method using Codex (M. Chen et al. 2021b), a language model with no prior knowledge of the domains on which we evaluate it.

方法 Method

方法中包括两个部分:

基础模型:确定展开策略(rollout-policy),通过使用从当前的行为策略生成的轨迹作为提示词,诱导基础模型得到推出策略。

世界模型:从历史经验中提取的变化来提示基础模型。

变量说明:

  • a: action 动作

  • o: observation 观察

  • b: termination 终止状态

  • r: reward 奖励

  • Q: Quality 采取某个动作的预期奖励值

  • D: buffer 历史经验池


如上图,展示了策略的改进过程。在与环境交互过程中,贪心地选择可以从当前状态获得最大化预期Q值的动作(第6行)。


如上图,展示了Q值的计算过程。在训练过程中,维护agent经历的历史经验池。其中提示词包含了从经验池中采样得到的数据,首先从经验池中选择部分子集,打乱后转为提示词文本,并裁剪至4000个token的大小(是Codex模型支持的上下文上限)。对于提示词使用随机轨迹子序列,其他过程同理。

为了提高提示词内容与当前推理的相关性,使用以下方法构建提示词,其中包括包括并且其应该满足即终止状态相同;包括并且其应该满足,因为只有非终止状态需要计算后续观察。

由于非结束状态的时间步远多于结束状态的时间步,容易出现在随机采样的提示词中只存在非结束状态时间步的情况,进而导致 LLM 无法预测非终止时间步。应采用以下方式以平衡其数量:取较小的集合并重复随机选择的成员,直到大小相等。

策略的改进:在训练阶段,采用贪心策略,选择能在当前状态下最大化预期Q值的动作。优化后的行为存储在缓冲区D中,以便进一步调整rollout策略,从而提高LLM在规划rollout过程中生成的奖励。这些经过改进的rollout提高了对每个动作的Q值估计。通过这种循环过程,选取的动作逐步优化。由于该过程具有自我反馈的特性,能够持续推动策略改进,直到达到最优状态。

需要注意的是,该过程依赖于上下文学习特有的特性,尤其基于以下假设:当rollout策略以混合策略生成的轨迹为提示时,rollout策略会逼近这些策略的平均效果。基于此假设,随着提示轨迹来源的混合策略不断优化,rollout策略也会随之提升。这使得策略改进过程无需依赖梯度,从而实现快速的策略提升。

实验 Experiences

论文设计了六个简单的任务,包括一个8状态的链条(Chain)、有扰乱信息的8状态链条(Distractor Chain)、3x3迷宫(Maze)、接球(Mini Catch)、操作一艘飞船击落敌人(Mini Invaders)、控制一个质点的速度以停留在原点附近(Point-Mass)。

ICPI算法与三个基线算法进行了对比,以展示ICPI的优越性。第一个基线算法为“No ArgMax”,它通过随机探索学习策略,并模仿成功策略的示例。该算法假设每个领域都有一个“成功阈值”,即轨迹的累积回报需超过此阈值才被视为成功。在此基线算法中,只有超过成功阈值的轨迹会被包含在提示中,随着成功轨迹数量的增加,策略逐步改进。然而,在学习初期,由于缺乏足够的成功轨迹,代理会在达到3次成功之前采取随机动作以促进探索。

第二个基线算法是“Tabular Q”,这是一个标准的表格Q学习算法,使用固定的学习率并乐观地初始化Q值。该算法通过表格形式存储每个状态-动作对的Q值,并通过反复更新来逐步逼近最优策略。由于这种方法直接使用表格存储并更新Q值,适用于较小规模的问题,但对于复杂场景可能存在局限。

第三个基线算法是“Matching Model”,它利用轨迹历史进行建模,而非依赖于LLM。该模型通过在轨迹缓冲区中查找当前状态的最近匹配项来选择动作,若找到匹配项,则输出该历史值;否则,则随机选择动作。虽然这种方法基于历史数据,但在遇到未匹配的情况时会导致回合提前终止,从而可能影响策略质量。

实验结果显示,ICPI算法在所有领域中都表现出色,能够生成更优的策略。ICPI凭借上下文泛化能力,能够将已学信息有效应用于未见过的状态和状态/动作对,远优于“Tabular Q”和“Matching Model”。此外,与“No ArgMax”不同,ICPI无需预先经验成功轨迹就能逐步改进策略。

总结 Conclusion

本文的主要贡献在于利用大语言模型(LLM)和上下文学习机制实现了一种策略迭代算法。该算法将基础模型用作世界模型和策略生成器,通过滚动(rollout)过程计算 Q 值。这种方法不仅限于文本生成领域的应用,而是具有广泛的通用性,适用于任何能通过提示操作的基础模型。

在实验中,这一算法在六个示例领域中得到了测试,每个领域都为 ICPI 提出了不同的挑战。结果表明,基于 LLM-rollout 的策略改进具有明显的优势。这些领域的测试验证了该方法的有效性,展示了其在不同情境下的适应性和灵活性。尽管这些实验结果是初步的,但它们表明了使用 LLM 进行策略改进的潜力。随着基础模型的不断增强,这种方法的表现预计也会逐步提升,进一步拓宽了 LLM 在更复杂任务中的应用前景。


EvoIGroup
Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学,机器学习,优化和实际(工业)应用上的研究进展。欢迎投稿推文等。联系方式:evoIgroup@163.com。
 最新文章