[论文分享]NeurIPS 2023 ICPI：语言模型可以实现强化学习领域内的策略迭代

文摘 2024-10-29 22:52 北京

标题	Large Language Models Can Implement Policy Iteration
作者	Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh
机构	University of Michigan
邮箱	{ethanbro,logwalls,rickl,baveja}@umich.edu
论文	https://proceedings.neurips.cc//paper_files/paper/2023/hash/60dc7fa827f5f761ad481e2ad40b5573-Abstract-Conference.html
代码	https://github.com/ethanabrooks/icpi

摘要 Abstract

在这项工作中，我们展示了一种利用大语言模型（Large Language Model，LLM）实现策略迭代的方法。虽然基础模型在强化学习（Reinforcement Learning, RL）中的应用受到了广泛关注，但大多数方法都依赖于：

(1) 专家示范的策划（通过人工设计或特定任务的预训练）。缺点：难以收集数据、结果并不会优于专家数据。

(2) 使用梯度方法（微调或训练adapter层）以适应相关任务。缺点：速度慢、成本。

该论文提出了一种利用LLM上下文学习（context-learning）机制实现策略迭代的方法，称为ICPI（In-Context Policy Iteration），使得可以在没有专家信息或梯度的情况下学习执行RL任务。该方法通过与 RL 环境的试错互动，迭代更新prompt内容，并据此制定策略。使用 Codex 模型演示了我们的方法，其对评估的领域没有任何先验知识。

In this work, we demonstrate a method for implementing policy iteration using a large language model. While the application of foundation models to RL has received considerable attention, most approaches rely on either (1) the curation of expert demonstrations (either through manual design or task-specific pretraining) or (2) adaptation to the task of interest using gradient methods (either fine-tuning or training of adapter layers). Both of these techniques have drawbacks. Collecting demonstrations is labor-intensive, and algorithms that rely on them do not outperform the experts from which the demonstrations were derived. All gradient techniques are inherently slow, sacrificing the “few-shot” quality that makes in-context learning attractive to begin with. Our method demonstrates that a large language model can be used to implement policy iteration using the machinery of in-context learning, enabling it to learn to perform RL tasks without expert demonstrations or gradients. Our approach iteratively updates the contents of the prompt from which it derives its policy through trial-and-error interaction with an RL environment. In order to eliminate the role of in-weights learning (on which approaches like Decision Transformer rely heavily), we demonstrate our method using Codex (M. Chen et al. 2021b), a language model with no prior knowledge of the domains on which we evaluate it.

方法 Method

方法中包括两个部分：

基础模型：确定展开策略（rollout-policy），通过使用从当前的行为策略生成的轨迹作为提示词，诱导基础模型得到推出策略。

世界模型：从历史经验中提取的变化来提示基础模型。

变量说明：

a: action 动作
o: observation 观察
b: termination 终止状态
r: reward 奖励
Q: Quality 采取某个动作的预期奖励值
D: buffer 历史经验池

如上图，展示了策略的改进过程。在与环境交互过程中，贪心地选择可以从当前状态获得最大化预期Q值的动作（第6行）。

如上图，展示了Q值的计算过程。在训练过程中，维护agent经历的历史经验池。其中提示词包含了从经验池中采样得到的数据，首先从经验池中选择部分子集，打乱后转为提示词文本，并裁剪至4000个token的大小（是Codex模型支持的上下文上限）。对于提示词使用随机轨迹子序列，其他过程同理。

为了提高提示词内容与当前推理的相关性，使用以下方法构建提示词，其中包括；包括并且其应该满足即终止状态相同；包括并且其应该满足，因为只有非终止状态需要计算后续观察。

由于非结束状态的时间步远多于结束状态的时间步，容易出现在随机采样的提示词中只存在非结束状态时间步的情况，进而导致 LLM 无法预测非终止时间步。应采用以下方式以平衡其数量：取较小的集合并重复随机选择的成员，直到大小相等。

策略的改进：在训练阶段，采用贪心策略，选择能在当前状态下最大化预期Q值的动作。优化后的行为存储在缓冲区D中，以便进一步调整rollout策略，从而提高LLM在规划rollout过程中生成的奖励。这些经过改进的rollout提高了对每个动作的Q值估计。通过这种循环过程，选取的动作逐步优化。由于该过程具有自我反馈的特性，能够持续推动策略改进，直到达到最优状态。

需要注意的是，该过程依赖于上下文学习特有的特性，尤其基于以下假设：当rollout策略以混合策略生成的轨迹为提示时，rollout策略会逼近这些策略的平均效果。基于此假设，随着提示轨迹来源的混合策略不断优化，rollout策略也会随之提升。这使得策略改进过程无需依赖梯度，从而实现快速的策略提升。

实验 Experiences

论文设计了六个简单的任务，包括一个8状态的链条（Chain）、有扰乱信息的8状态链条（Distractor Chain）、3x3迷宫（Maze）、接球（Mini Catch）、操作一艘飞船击落敌人（Mini Invaders）、控制一个质点的速度以停留在原点附近（Point-Mass）。

ICPI算法与三个基线算法进行了对比，以展示ICPI的优越性。第一个基线算法为“No ArgMax”，它通过随机探索学习策略，并模仿成功策略的示例。该算法假设每个领域都有一个“成功阈值”，即轨迹的累积回报需超过此阈值才被视为成功。在此基线算法中，只有超过成功阈值的轨迹会被包含在提示中，随着成功轨迹数量的增加，策略逐步改进。然而，在学习初期，由于缺乏足够的成功轨迹，代理会在达到3次成功之前采取随机动作以促进探索。

第二个基线算法是“Tabular Q”，这是一个标准的表格Q学习算法，使用固定的学习率并乐观地初始化Q值。该算法通过表格形式存储每个状态-动作对的Q值，并通过反复更新来逐步逼近最优策略。由于这种方法直接使用表格存储并更新Q值，适用于较小规模的问题，但对于复杂场景可能存在局限。

第三个基线算法是“Matching Model”，它利用轨迹历史进行建模，而非依赖于LLM。该模型通过在轨迹缓冲区中查找当前状态的最近匹配项来选择动作，若找到匹配项，则输出该历史值；否则，则随机选择动作。虽然这种方法基于历史数据，但在遇到未匹配的情况时会导致回合提前终止，从而可能影响策略质量。

实验结果显示，ICPI算法在所有领域中都表现出色，能够生成更优的策略。ICPI凭借上下文泛化能力，能够将已学信息有效应用于未见过的状态和状态/动作对，远优于“Tabular Q”和“Matching Model”。此外，与“No ArgMax”不同，ICPI无需预先经验成功轨迹就能逐步改进策略。

总结 Conclusion

本文的主要贡献在于利用大语言模型（LLM）和上下文学习机制实现了一种策略迭代算法。该算法将基础模型用作世界模型和策略生成器，通过滚动（rollout）过程计算 Q 值。这种方法不仅限于文本生成领域的应用，而是具有广泛的通用性，适用于任何能通过提示操作的基础模型。

在实验中，这一算法在六个示例领域中得到了测试，每个领域都为 ICPI 提出了不同的挑战。结果表明，基于 LLM-rollout 的策略改进具有明显的优势。这些领域的测试验证了该方法的有效性，展示了其在不同情境下的适应性和灵活性。尽管这些实验结果是初步的，但它们表明了使用 LLM 进行策略改进的潜力。随着基础模型的不断增强，这种方法的表现预计也会逐步提升，进一步拓宽了 LLM 在更复杂任务中的应用前景。

http://mp.weixin.qq.com/s?__biz=MzkxODQ0MTQzMg==&mid=2247489915&idx=1&sn=5ca8045229e29a5978b867a7af2e771d

EvoIGroup

Evolutionary Intelligence (EvoI) Group。主要介绍进化智能在网络科学，机器学习，优化和实际（工业）应用上的研究进展。欢迎投稿推文等。联系方式：evoIgroup@163.com。

最新文章

ICLR2025与演化计算

[论文分享]NeurIPS 2024 用于时间序列预测的检索增强扩散模型

本周进化领域文章更新

[论文分享] ICML 2024 一种解决无监督组合优化中普遍条件：基数约束、最小值、覆盖等的方法

[论文分享]NIPS 2024 CycleNet：通过对周期性模式建模增强时间序列预测

[论文分享]NeurIPS 2024 TIME-FFM：面向基于语言模型的联邦基础模型的时间序列预测

本周进化领域文章更新

[论文分享]IEEE TEVC 2023 穷尽式符号回归

[论文分享]NeurIPS 2023 ICPI：语言模型可以实现强化学习领域内的策略迭代

本周进化领域文章更新

[论文分享]IEEE TEVC 2024 基于自回归学习的自动化元启发式算法设计

[论文分享]NIPS 2024 Oral ChaosBench：多通道、基于物理的次季节-季节气候预测benchmark

[论文分享]ICCAD 2024 基于边的可微分OPC

本周进化领域文章更新

[论文分享]ICML 2024 Leddam: 具有序列间依赖性和序列内变化建模的可学习时间序列分解

[论文分享]Arxiv速递 TSI-Bench: 时间序列填补基准测试

[项目成果]PySDKit：信号分解算法的Python库

[论文分享]Arxiv 2024 Quiet-STaR: 语言模型可以学会先思考后回答

遗传算法的应用（来自2024诺贝尔化学奖得主David Baker）

本周进化领域文章更新

[成果分享]刘静教授团队研究成果入选机器学习顶级会议NeurIPS 2024

[论文分享]ICLR 2024 SNIP:桥接数学符号和数字领域与统一的预训练

[论文分享]TEVC 2024 一种多样性增强的三阶段框架用于约束多目标优化

本周进化领域文章更新

[论文分享]Arxiv 2024 PhaseEvo: 迈向统一的大型语言模型上下文提示优化

本周进化领域文章更新

[论文分享]ICLR 2024 ModernTCN：用于通用时间序列分析的现代纯卷积结构

[论文分享] ICML 2024 MVMoE: 基于混合专家模型的多任务车辆路径规划求解器

本周进化领域文章更新

[论文分享]ICML 2024 Timer：生成式预训练Transformer是大型时间序列模型

[论文分享]NeurIPS 2022 STaR：语言模型使用推理引导推理

[论文分享]ICLR 2024 DYVAL：大语言模型在推理任务中的动态评估

本周进化领域文章更新

[论文分享]Arxiv速递用于高效探索性景观分析的希尔伯特曲线邻域采样

[论文分享]ICLR 2023 MICN：用于长时间序列预测的多尺度局部和全局上下文建模

Nature正刊（演化深度持续学习）Loss of plasticity in deep continual learning

本周进化领域文章更新

[论文分享]AAAI 2024 高维偏微分方程解的可解释方法

[论文分享]ICML 2024 长期时间序列预测的损失整形约束

[论文分享]GECCO 2024 深度神经交叉：一种利用基因相关性的多亲本算子

本周进化领域文章更新

[论文分享] NeurIPS 2020 POMO：用于强化学习的多优化策略优化

[论文分享]Arxiv 2023 使用AlphaZero式的树形搜索指导LLM推理

本周进化领域文章更新

[论文分享]ESWA 2023 SAITS：基于自注意力的时间序列插补

WCCI2024最佳论文！

GECCO2024最佳论文出炉！

[论文分享]Arxiv2024 针对图神经网络后门攻击的鲁棒性启发防御

[论文分享] ICLR 2022 用于分布漂移时间序列准确预测的可逆实例标准化

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉