AUGUST
18
9:00-10:00
针对强化学习(Reinforcement Learning,RL)较高的采样复杂度和计算负荷的问题,热启动强化学习(Warm-Start RL)正成为一种有前途的新范式。热启动强化学习的基本思想是通过离线训练初始策略来加速在线学习。目前,热启动强化学习已成功应用于AlphaZero和ChatGPT,这些应用展示了热启动策略在加速在线学习方面的巨大潜力。为了深入理解热启动强化学习,研究量化函数逼近误差对热启动强化学习次优差距的影响是至关重要的。
第九期 IEEE TNSE 杰出讲座系列活动,我们有幸邀请到加州大学戴维斯分校的Junshan Zhang教授介绍热启动强化学习,并分享他在这个领域内的相关研究成果与有趣发现。
执行主席
Executive Chair
黄建伟
香港中文大学(深圳)校长讲座教授、协理副校长
AIRS 副院长兼群体智能中心主任
IEEE TNSE 主编
IEEE Fellow
AAIA Fellow
报告嘉宾
Speaker
Junshan Zhang
加州大学戴维斯分校电子与计算机工程系教授
IEEE Fellow
报告介绍
Topic & Abstract
Warm-Start Reinforcement Learning: From Function Approximation Error to Sub-optimality Gap
Conventional reinforcement learning (RL) techniques face the formidable challenge of high sample complexity and intensive computation load, which hinders RL's applicability in real-world tasks. To tackle this challenge, Warm-Start RL is emerging as a promising new paradigm, with the basic idea being to accelerate online learning by starting with an initial policy trained offline. Indeed, owing to the knowledge transfer from an initial policy, Warm-Start RL has been successfully applied in AlphaZero and ChatGPT, demonstrating its great potential to speed up online learning. Despite these remarkable successes, a fundamental understanding of Warm-Start RL is lacking. The primary objective of this study is to quantify the impact of function approximation errors on the sub-optimality gap for Warm-Start RL. We consider the widely used ‘Actor-Critic’ method for RL. For the unbiased case, we give sufficient conditions on the question ‘how good the warm-start policy needs to be’ to achieve fast convergence. For the biased case, our findings reveal that a ‘good’ warm-start policy (obtained by offline training) may be insufficient, and bias reduction in online learning also plays an essential role to lower the suboptimality gap. We then investigate bias reduction using adaptive ensemble learning and planning.
活动时间
2023年8月18日(周五) 9:00-10:00
参与方式
本次活动设多个直播渠道,观众可通过以下任一渠道观看直播。
本期活动指导单位
深圳市科学技术协会
AIRS-TNSE 联合杰出讲座系列
AIRS-TNSE Joint Distinguished Seminar Series
IEEE Transactions on Network Science and Engineering(简称 IEEE TNSE)是位于 JCR 1 区的网络科学领域顶级期刊,致力于探讨网络科学的理论和应用,以及构成网络系统中各元素之间的相互联系。IEEE TNSE 被 SCIE 数据库收录,位于 JCR 1 区,2022年影响因子为6.6。
AIRS-TNSE 联合杰出讲座系列由 IEEE TNSE 期刊和深圳市人工智能与机器人研究院(AIRS)联合主办,香港中文大学(深圳)、网络通信与经济学实验室(NCEL)、IEEE 联合支持。该系列活动旨在汇聚网络科学与工程领域的国际顶级专家学者分享前沿科技成果。
*特别鸣谢成锦提供相关内容
相关阅读
IEEE TNSE 杰出讲座系列第八期回顾
IEEE TNSE 杰出讲座系列第七期回顾
IEEE TNSE 杰出讲座系列第六期回顾