作者:刘博
图1 强化学习(图片来自于网络)
研究背景
离线强化学习(Offline Reinforcement Learning),作为强化学习领域的一个重要分支,主要研究如何从预先收集的固定数据集中学习最优决策策略,而不依赖于与环境的实时交互。这种方法在实时交互成本高昂或存在安全风险的情境中尤为关键。其主要挑战为由数据集与当前策略的真实状态-动作访问之间的不匹配引起的外推误差(Extrapolation error)。离线强化学习在多个领域展现出广泛的应用潜力,包括医疗决策、推荐系统、自动驾驶和金融策略等,它通过有效利用现有数据,提升决策质量并降低实施风险。
离线强化学习的优点
1. 数据利用率高:能够有效利用已经收集的历史数据,包括那些在其他任务或过程中生成的数据,从而降低对新数据的需求。
2. 降低探索成本:在许多实际应用中,如医疗或金融领域,实时探索新策略可能成本高昂且风险较大。离线强化学习通过从现有数据中学习,避免了这些成本和风险。
3. 提高安全性:由于不需要与实际环境交互,因此在探索潜在的决策策略时,可以避免对环境或智能体自身造成伤害,特别是在初期阶段可能采取的高风险行为。
4. 加速训练过程:相比于需要实时环境反馈的在线强化学习,离线强化学习可以通过并行处理和优化现有数据集的使用,加速模型训练和策略学习过程。
5. 方便评估与调试:由于环境和输入数据是固定和可重复的,因此在已知的数据集上的学习可以使研究者更容易地评估不同策略的效果,并调试模型。
综上,离线强化学习使得强化学习更像有监督学习。
图2 离线强化学习与有监督学习
离线强化学习的主要挑战
外推误差(Extrapolation Error)是离线强化学习的主要挑战之一,其指的是模型在面对训练数据集未覆盖的状态-动作对(即分布外状态-动作对)时,预测的不准确性。这种误差源于离线数据集的局限性,因为这些数据集通常无法覆盖所有可能的状态和动作组合,特别是在高维空间和复杂环境中。当模型试图基于有限的、有偏差的数据进行学习并应用于整个决策空间时,就可能产生外推误差。
图3 外推误差示意图(红色虚线为真实值,蓝线为预测值)
外推误差的解决方法(无模型方法)
在离线强化学习中,无模型(Model-Free)方法直接从经验数据中学习决策策略或价值函数,而不需要建立环境模型。这种方法在解决外推误差时采取了一些策略,以提高策略的泛化能力和减少对未见数据的依赖。以下是几种常见的无模型方法来解决外推误差的策略:
1. 策略正则化与约束
行为克隆(Behavior Cloning):一种简单的策略学习方法,直接从离线数据中模仿决策。通过在策略优化过程中添加正则化项(如KL散度),从而鼓励策略不要偏离数据分布太远,减少外推误差。
保守的Q-Learning(如CQL, Conservative Q-Learning):CQL通过显式地惩罚那些在离线数据集中观测到的动作之外的动作值,来减少对这些未见动作的过度估计,从而降低外推误差。
2. 重要性采样
重要性采样技术可以用来调整策略评估过程中的偏差,通过给予在当前策略下更可能采取的动作更大的权重,减少对离线数据集中不常见动作的依赖,从而降低外推误差。
3. 离线数据筛选与增强
数据筛选(Data Pruning):通过筛选离线数据集中的一部分数据,仅保留那些对当前学习任务更有价值的样本。这有助于减少噪声数据和不相关数据的影响,从而降低外推误差。
数据增强:虽然直接的数据增强在无模型方法中不常见(因为无法直接在状态-动作空间进行操作),但可以通过技巧性的重新加权或重新采样技术来模拟增强效果,提高数据的利用效率和代表性。
图4 无模型离线强化学习示意图
外推误差的解决方法(有模型方法)
有模型(Model-Based)方法在离线强化学习中通过构建环境的模型来解决外推误差问题。这些方法首先尝试学习一个环境模型,即一个可以预测环境状态转移和奖励的模型,然后利用这个模型来生成新的数据或直接进行策略优化。有模型方法通过模拟未见过的状态-动作对,提高策略在面对未探索区域时的表现,减少外推误差。以下是几种通过有模型方法解决外推误差的策略:
1. 动态模型学习:通过学习一个动态模型来预测给定当前状态和动作后的下一个状态和可能的奖励,这使得算法能够在模拟的环境中“探索”未见过的状态-动作对。
2. 不确定性建模:在模型中显式地建模不确定性,例如使用概率模型或贝叶斯方法,来估计状态转移和奖励的不确定性。这种方法有助于识别那些模型不够确信的区域,从而减少在这些区域的外推误差。
3. 生成式模型:使用学习到的环境模型生成新的训练数据,这些数据覆盖了可能的状态-动作对,即使这些对在原始离线数据集中未出现。这有助于策略学习在更广泛的情境下做出决策。
图5 有模型离线强化学习示意图
总结
离线强化学习,作为强化学习的一个分支,允许智能体从预先收集的数据中学习决策策略,而无需与环境进行实时交互。这种学习模式的优点在于其高数据利用率、低探索成本、提高的安全性,以及加速的训练过程。然而,离线强化学习面临的一个主要挑战是外推误差,即智能体在遇到训练数据未覆盖的状态-动作对时的预测不准确性。为了解决这个问题,研究者提出了有模型方法和无模型方法。有模型方法通过构建环境模型来模拟未见过的状态-动作对,而无模型方法直接从数据中学习策略或价值函数,采用策略正则化、重要性采样等技术来降低外推误差。这两种方法各有优势,为离线强化学习在各种应用场景中的成功实施提供了可行的解决方案。
参考文献
[1] Levine S, Kumar A, Tucker G, et al. Offline reinforcement learning: Tutorial, review, and perspectives on open problems[J]. arXiv preprint arXiv:2005.01643, 2020.
[2] Gulcehre C, Wang Z, Novikov A, et al. Rl unplugged: Benchmarks for offline reinforcement learning[J]. arXiv preprint arXiv:2006.13888, 2020, 394.
[3] Fujimoto S, Meger D, Precup D. Off-policy deep reinforcement learning without exploration[C]//International conference on machine learning. PMLR, 2019: 2052-2062.
[4] Peng X B, Kumar A, Zhang G, et al. Advantage-weighted regression: Simple and scalable off-policy reinforcement learning[J]. arXiv preprint arXiv:1910.00177, 2019.
[5] Chen X, Zhou Z, Wang Z, et al. Bail: Best-action imitation learning for batch deep reinforcement learning[J]. Advances in Neural Information Processing Systems, 2020, 33: 18353-18363.
[6] Kidambi R, Rajeswaran A, Netrapalli P, et al. Morel: Model-based offline reinforcement learning[J]. Advances in neural information processing systems, 2020, 33: 21810-21823.
写在最后
我们的文章可以转载了呢~欢迎转载与转发呦
想了解更多前沿科技与资讯?
点击上方入口关注我们!
欢迎点击右上方分享到朋友圈
香港中文大学(深圳)
网络通信与经济实验室
微信号 : ncel_cuhk