王常虹,余旭东,王震等 | 基于集成后继表征的离线到在线任务泛化

文摘   科技   2024-12-14 12:00   北京  

研究团队

王常虹,余旭东:哈尔滨工业大学航天学院

白辰甲,张乔生:上海人工智能实验室

王震:西北工业大学光电与智能研究院


文章下载

Changhong WANG, Xudong YU, Chenjia BAI, Qiaosheng ZHANG & Zhen WANGEnsemble successor representations for task generalization in offline-to-online reinforcement learning. Sci China Inf Sci, 2024, 67(7): 172203, doi: 10.1007/s11432-023-4028-1



研究意义

在人工智能领域,强化学习(RL)是一种让智能体通过与环境的交互学习如何做出决策的方法。然而,当环境变化或需要快速适应新任务时,传统的RL方法往往需要大量的在线交互和探索,这在现实世界中可能代价昂贵或不可行。本研究通过提出一种新颖的离线到在线强化学习方法,有效解决了这一难题,为智能体在多变环境中的快速适应和决策提供了新的可能性

本文工作

本文首先分析了现有方法在离线到在线任务泛化中的局限性,尤其是它们利用离线数据和在线微调时的不足。我们提出了一种基于集成后继表征(ESR-O2O)的新方法,该方法通过以下步骤实现任务泛化:首先利用离线数据集获得代表环境状态转移的后继表征,同时初始化策略和价值函数,并采用集成架构增强后继表征的多样性。在线微调阶段,固定后继表征,仅更新与新任务相关的奖励部分,以快速适应新任务。通过理论分析和实验验证,我们的方法在不同覆盖率的离线数据集上展现了有效性和鲁棒性,对于离线数据分布偏移和奖励函数变化也有更强的适应性。
本文的创新点如下:
(1) 集成后继表示:引入了集成的后继表征来捕获环境的多模态动态,增强了从离线数据集中学习的能力。
(2) 在线微调的鲁棒性:在在线微调阶段表现出对离线数据分布的鲁棒性,即使在数据覆盖率较低的情况下也能快速适应新任务。
(3) 理论分析:不仅提出了算法框架,还提供了对在线微调过程中性能界限的理论分析,为算法的稳定性和有效性提供了理论支撑。

实验结果

我们的实验在多个具有不同奖励差距的环境中进行,包括迷宫导航任务和复杂的机器人运动任务。实验结果表明:
(1) 在离线学习阶段,我们的方法在不同的数据集上均展现出了优越的性能,与现有的离线RL算法相比,具有更低的回报方差和更高的稳定性。
(2) 在在线微调阶段,即使在面临大奖励差距的情况下,我们的方法也能有效地学习新任务,并显著提高策略的性能。
(3) 通过与多个基线方法的比较,我们的方法在任务泛化方面表现出色,无论是在小奖励差距还是大奖励差距的场景中,都能实现快速且有效的适应。





中国科学信息科学
《中国科学:信息科学》及其英文版《Science China Information Sciences》的宣传平台。
 最新文章