离线强化学习概述

文摘科技 2024-04-01 17:13 广东

作者：刘博

图1 强化学习（图片来自于网络）

研究背景

离线强化学习（Offline Reinforcement Learning），作为强化学习领域的一个重要分支，主要研究如何从预先收集的固定数据集中学习最优决策策略，而不依赖于与环境的实时交互。这种方法在实时交互成本高昂或存在安全风险的情境中尤为关键。其主要挑战为由数据集与当前策略的真实状态-动作访问之间的不匹配引起的外推误差（Extrapolation error）。离线强化学习在多个领域展现出广泛的应用潜力，包括医疗决策、推荐系统、自动驾驶和金融策略等，它通过有效利用现有数据，提升决策质量并降低实施风险。

离线强化学习的优点

1. 数据利用率高：能够有效利用已经收集的历史数据，包括那些在其他任务或过程中生成的数据，从而降低对新数据的需求。

2. 降低探索成本：在许多实际应用中，如医疗或金融领域，实时探索新策略可能成本高昂且风险较大。离线强化学习通过从现有数据中学习，避免了这些成本和风险。

3. 提高安全性：由于不需要与实际环境交互，因此在探索潜在的决策策略时，可以避免对环境或智能体自身造成伤害，特别是在初期阶段可能采取的高风险行为。

4. 加速训练过程：相比于需要实时环境反馈的在线强化学习，离线强化学习可以通过并行处理和优化现有数据集的使用，加速模型训练和策略学习过程。

5. 方便评估与调试：由于环境和输入数据是固定和可重复的，因此在已知的数据集上的学习可以使研究者更容易地评估不同策略的效果，并调试模型。

综上，离线强化学习使得强化学习更像有监督学习。

图2 离线强化学习与有监督学习

离线强化学习的主要挑战

外推误差（Extrapolation Error）是离线强化学习的主要挑战之一，其指的是模型在面对训练数据集未覆盖的状态-动作对（即分布外状态-动作对）时，预测的不准确性。这种误差源于离线数据集的局限性，因为这些数据集通常无法覆盖所有可能的状态和动作组合，特别是在高维空间和复杂环境中。当模型试图基于有限的、有偏差的数据进行学习并应用于整个决策空间时，就可能产生外推误差。

图3 外推误差示意图（红色虚线为真实值，蓝线为预测值）

外推误差的解决方法（无模型方法）

在离线强化学习中，无模型（Model-Free）方法直接从经验数据中学习决策策略或价值函数，而不需要建立环境模型。这种方法在解决外推误差时采取了一些策略，以提高策略的泛化能力和减少对未见数据的依赖。以下是几种常见的无模型方法来解决外推误差的策略：

1. 策略正则化与约束

行为克隆（Behavior Cloning）：一种简单的策略学习方法，直接从离线数据中模仿决策。通过在策略优化过程中添加正则化项（如KL散度），从而鼓励策略不要偏离数据分布太远，减少外推误差。

保守的Q-Learning（如CQL, Conservative Q-Learning）：CQL通过显式地惩罚那些在离线数据集中观测到的动作之外的动作值，来减少对这些未见动作的过度估计，从而降低外推误差。

2. 重要性采样

重要性采样技术可以用来调整策略评估过程中的偏差，通过给予在当前策略下更可能采取的动作更大的权重，减少对离线数据集中不常见动作的依赖，从而降低外推误差。

3. 离线数据筛选与增强

数据筛选（Data Pruning）：通过筛选离线数据集中的一部分数据，仅保留那些对当前学习任务更有价值的样本。这有助于减少噪声数据和不相关数据的影响，从而降低外推误差。

数据增强：虽然直接的数据增强在无模型方法中不常见（因为无法直接在状态-动作空间进行操作），但可以通过技巧性的重新加权或重新采样技术来模拟增强效果，提高数据的利用效率和代表性。

图4 无模型离线强化学习示意图

外推误差的解决方法（有模型方法）

有模型（Model-Based）方法在离线强化学习中通过构建环境的模型来解决外推误差问题。这些方法首先尝试学习一个环境模型，即一个可以预测环境状态转移和奖励的模型，然后利用这个模型来生成新的数据或直接进行策略优化。有模型方法通过模拟未见过的状态-动作对，提高策略在面对未探索区域时的表现，减少外推误差。以下是几种通过有模型方法解决外推误差的策略：

1. 动态模型学习：通过学习一个动态模型来预测给定当前状态和动作后的下一个状态和可能的奖励，这使得算法能够在模拟的环境中“探索”未见过的状态-动作对。

2. 不确定性建模：在模型中显式地建模不确定性，例如使用概率模型或贝叶斯方法，来估计状态转移和奖励的不确定性。这种方法有助于识别那些模型不够确信的区域，从而减少在这些区域的外推误差。

3. 生成式模型：使用学习到的环境模型生成新的训练数据，这些数据覆盖了可能的状态-动作对，即使这些对在原始离线数据集中未出现。这有助于策略学习在更广泛的情境下做出决策。

图5 有模型离线强化学习示意图

总结

离线强化学习，作为强化学习的一个分支，允许智能体从预先收集的数据中学习决策策略，而无需与环境进行实时交互。这种学习模式的优点在于其高数据利用率、低探索成本、提高的安全性，以及加速的训练过程。然而，离线强化学习面临的一个主要挑战是外推误差，即智能体在遇到训练数据未覆盖的状态-动作对时的预测不准确性。为了解决这个问题，研究者提出了有模型方法和无模型方法。有模型方法通过构建环境模型来模拟未见过的状态-动作对，而无模型方法直接从数据中学习策略或价值函数，采用策略正则化、重要性采样等技术来降低外推误差。这两种方法各有优势，为离线强化学习在各种应用场景中的成功实施提供了可行的解决方案。

参考文献

[1] Levine S, Kumar A, Tucker G, et al. Offline reinforcement learning: Tutorial, review, and perspectives on open problems[J]. arXiv preprint arXiv:2005.01643, 2020.

[2] Gulcehre C, Wang Z, Novikov A, et al. Rl unplugged: Benchmarks for offline reinforcement learning[J]. arXiv preprint arXiv:2006.13888, 2020, 394.

[3] Fujimoto S, Meger D, Precup D. Off-policy deep reinforcement learning without exploration[C]//International conference on machine learning. PMLR, 2019: 2052-2062.

[4] Peng X B, Kumar A, Zhang G, et al. Advantage-weighted regression: Simple and scalable off-policy reinforcement learning[J]. arXiv preprint arXiv:1910.00177, 2019.

[5] Chen X, Zhou Z, Wang Z, et al. Bail: Best-action imitation learning for batch deep reinforcement learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18353-18363.

[6] Kidambi R, Rajeswaran A, Netrapalli P, et al. Morel: Model-based offline reinforcement learning[J]. Advances in neural information processing systems, 2020, 33: 21810-21823.

写在最后

我们的文章可以转载了呢~欢迎转载与转发呦

想了解更多前沿科技与资讯？

点击上方入口关注我们！

欢迎点击右上方分享到朋友圈

香港中文大学（深圳）

网络通信与经济实验室

微信号 : ncel_cuhk

http://mp.weixin.qq.com/s?__biz=MzU5NDIyODY4Ng==&mid=2247489173&idx=1&sn=f4f2536b81adce59c39660cdc9f349f6

网络通信与经济

介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学（深圳）网络通信与经济学实验室

最新文章

基于年龄奖励机制: 提升信息的新鲜度

利用大语言模型进行差分隐私数据生成

以隐贝叶斯推理解释上下文学习

基于多主体动态博弈视角的深度神经网络训练优化

2024年夏季网络通信与经济学实验室（NCEL）研讨会

解耦知识蒸馏

如何激励去中心化系统的资源池化？

通过数据交易提升在线算法决策的公平性

模型间博弈提升大语言模型输出易读性

借助大语言模型评估文本信息

大语言模型挑战众包工人

基于联合选址和可修复库存模型的城市电车换电服务的规模化布局与运营研究

面向生产环境的大语言模型联邦学习

Galaxy：面向边缘大模型协同推理的分布式边缘智能系统

能量感知年龄优化：基于能量采集的多源更新网络系统中的AoI分析

差分隐私联邦学习中用户选择和隐私补偿机制设计

活动回顾｜李葆春教授：实证联邦学习的数据隐私保护

活动回顾｜文勇刚教授：GPU数据中心大规模深度学习负载调度

差分隐私在机器学习中的实施

联邦遗忘学习概述

神经网络中的特征学习

基于大语言模型的电力系统通用人工智能展望：理论与应用

离线强化学习概述

竞合：数据共享在电子商务中的新策略

众筹中的策略性定价与信息披露

联邦学习在无线网络中的异构用户自适应采样优化算法

对抗性机器学习中的博弈论

大语言模型的机制设计

如何让同行评审更加科学

联邦学习与模型服务提供共存：一种模型训练和模型推理联合优化方法

网络通信与经济实验室（NCEL）2023研讨会暨成立十五周年团建活动回顾

活动回顾 | 牛志升教授：突发流量下节能服务的最佳休眠策略

车对车通信下的信息机制设计

活动回顾 | 香港中文大学（深圳）深圳市群体智能驱动的低碳能源网络重点实验室揭牌仪式暨启动会成功举办

考虑数据新鲜度的移动群智感知激励机制

预测策略性储能行为

边缘内容缓存与分享的经济分析

隐私资源：如何在差分隐私联邦学习中合理分配

2023年夏季网络通信与经济学实验室（NCEL）研讨会

香港中文大学（深圳）黄建伟教授招聘博士生、博士后！

8月18日9:00，Junshan Zhang教授介绍热启动强化学习相关研究

喜讯 | IEEE TNSE 2022年度影响因子攀升至6.6！

喜讯 | 理工学院12位教授获Research.com评为其学术领域内2023顶尖科学家

当数据源耦合时，我们如何优化信息新鲜度？

高精度地图众包中高效车辆选择的轨迹穿透表征

基于模型分解训练的异构多模态联邦学习

基于排序特征学习的多智能体少样本感知

能源区块链系统中提升交易吞吐量的机制设计

基于众包数据标注的联邦学习激励机制设计

【讲座通知】Insights from the Editor-in-Chief: My Recent Experiences

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉