王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化
文摘
科技
2024-12-14 12:00
北京
研究团队
王常虹,余旭东:哈尔滨工业大学航天学院
白辰甲,张乔生:上海人工智能实验室
王震:西北工业大学光电与智能研究院
文章下载
Changhong WANG, Xudong YU, Chenjia BAI, Qiaosheng ZHANG & Zhen WANG. Ensemble successor representations for task generalization in offline-to-online reinforcement learning. Sci China Inf Sci, 2024, 67(7): 172203, doi: 10.1007/s11432-023-4028-1
在人工智能领域,强化学习(RL)是一种让智能体通过与环境的交互学习如何做出决策的方法。然而,当环境变化或需要快速适应新任务时,传统的RL方法往往需要大量的在线交互和探索,这在现实世界中可能代价昂贵或不可行。本研究通过提出一种新颖的离线到在线强化学习方法,有效解决了这一难题,为智能体在多变环境中的快速适应和决策提供了新的可能性。本文首先分析了现有方法在离线到在线任务泛化中的局限性,尤其是它们利用离线数据和在线微调时的不足。我们提出了一种基于集成后继表征(ESR-O2O)的新方法,该方法通过以下步骤实现任务泛化:首先利用离线数据集获得代表环境状态转移的后继表征,同时初始化策略和价值函数,并采用集成架构增强后继表征的多样性。在线微调阶段,固定后继表征,仅更新与新任务相关的奖励部分,以快速适应新任务。通过理论分析和实验验证,我们的方法在不同覆盖率的离线数据集上展现了有效性和鲁棒性,对于离线数据分布偏移和奖励函数变化也有更强的适应性。(1) 集成后继表示:引入了集成的后继表征来捕获环境的多模态动态,增强了从离线数据集中学习的能力。(2) 在线微调的鲁棒性:在在线微调阶段表现出对离线数据分布的鲁棒性,即使在数据覆盖率较低的情况下也能快速适应新任务。 (3) 理论分析:不仅提出了算法框架,还提供了对在线微调过程中性能界限的理论分析,为算法的稳定性和有效性提供了理论支撑。我们的实验在多个具有不同奖励差距的环境中进行,包括迷宫导航任务和复杂的机器人运动任务。实验结果表明:(1) 在离线学习阶段,我们的方法在不同的数据集上均展现出了优越的性能,与现有的离线RL算法相比,具有更低的回报方差和更高的稳定性。(2) 在在线微调阶段,即使在面临大奖励差距的情况下,我们的方法也能有效地学习新任务,并显著提高策略的性能。 (3) 通过与多个基线方法的比较,我们的方法在任务泛化方面表现出色,无论是在小奖励差距还是大奖励差距的场景中,都能实现快速且有效的适应。