【视频专栏】异策略深度强化学习中的经验回放研究综述

文摘   科技   2024-01-18 17:00   北京  

点击上方蓝字关注我们


胡子剑, 高晓光, 万开方, 张乐天, 汪强龙NERETIN Evgeny. 异策略深度强化学习中的经验回放研究综述. 自动化学报, 2023, 49(11): 2237−2256

1

摘要

       作为一种不需要事先获得训练数据的机器学习方法, 强化学习(Reinforcement learning, RL)在智能体与环境的不断交互过程中寻找最优策略, 是解决序贯决策问题的一种重要方法. 通过与深度学习(Deep learning, DL)结合, 深度强化学习(Deep reinforcement learning, DRL)同时具备了强大的感知和决策能力, 被广泛应用于多个领域来解决复杂的决策问题. 异策略强化学习通过将交互经验进行存储和回放, 将探索和利用分离开来, 更易寻找到全局最优解. 如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键. 首先对强化学习的基本理论进行介绍; 随后对同策略和异策略强化学习算法进行简要介绍; 接着介绍经验回放(Experience replay, ER)问题的两种主流解决方案, 包括经验利用和经验增广; 最后对相关的研究工作进行总结和展望.


2

引言

强化学习(Reinforcement learning, RL) 的来源通常被认为是心理学中的行为主义理论, 即有机体能获得最大利益的习惯性行为是在环境给予的奖励或惩罚的不断刺激下, 逐步形成的对刺激的预期. 直到20世纪末, RL才开始得到研究者们的重视并迅速发展, 并被认为是设计智能体的核心技术之一[1-2].

RL通过 “试错” (Trail-and-error)[2]的方式与环境进行交互并获得奖励, 并依据奖励不断调整智能体的行为策略. 这种符合人类的经验性思维与直觉推理的一般决策过程使得其在人工智能领域得到了广泛的应用[3]. 随着应用环境复杂程度的不断提升, “维度灾难”[4]限制了RL的进一步发展. 为了更好地表征复杂任务场景中高维度的状态空间, 谷歌人工智能团队Deepmind创新性地将深度学习(Deep learning, DL) 与RL相结合, 提出了人工智能领域的一个新的研究热点 —— 深度强化学习(Deep reinforcement learning, DRL)[5]. DRL同时具备了DL的特征感知能力和RL的决策能力, 能够学习大规模输入数据的抽象表征, 并以此表征为依据进行自我激励, 优化解决问题的策略[6]. 目前, DRL这种端对端(End-to-end) 的学习方式已经在游戏博弈[5, 7-9]、机器人控制[10-12]、自动驾驶[13-15]、金融贸易[16-18]、医疗保健[19-20]等多个领域取得了显著的进展, 其训练的智能体的表现已经接近甚至超越了人类水平.

不同于监督学习和无监督学习, RL通过智能体与环境的不断交互来对环境进行探索进而获得经验(样本), 并根据所获得的经验对智能体的策略不断更新, 最终找到一个适应环境的最优策略. 由于RL在学习过程中没有固定的数据集, 其需要智能体消耗大量的时间成本来获取交互经验. 在一些复杂的环境尤其是现实环境中(例如自动驾驶) 会承担很多的风险与代价. 除此之外, 损耗、响应时延等问题也会使得智能体能够收集的经验数量是有限的. 如何合理利用有限的经验来训练出策略尽可能好的智能体已然成为国内外研究者的一个关注重点.

经验回放(Experience replay, ER) 是一种存储过去的连续经验并对其进行采样以重复使用进而更新智能体行动策略的技术, 其概念于1992年被Lin等[21]率先提出. 2015年, 随着深度Q网络算法(Deep Q-network, DQN)[5]的提出, 经验回放被证明在DRL的突破性成功中发挥了重要的作用. 这一新的研究热点迅速吸引了大量研究者的关注, 到目前为止, 经验回放已成为提高异策略DRL算法稳定性和收敛速度的一种主要技术. 在现有文献中, 还没有研究尝试将DRL中的经验回放算法进行分类和总结. 本综述以RL的基本理论为出发点, 首先介绍了RL的基本概念. 随后对RL算法依据行为策略与目标策略的一致性进行了分类, 并对其中异策略DRL的典型算法进行了介绍. 然后结合近年来公开文献详细梳理了国内外成熟的异策略DRL中的经验回放方法, 并将其分为两个大类, 即经验利用和经验增广. 最后, 对异策略DRL中的经验回放方法进行了总结与展望.


3

正文框架

1. 深度强化学习理论基础

  1.1 强化学习

  1.2 强化学习算法

2. 经验回放机制

  2.1 经验利用

  2.2 经验增广

3. 总结与展望


部分文献


[1] 高阳, 陈世福, 陆鑫. 强化学习研究综述. 自动化学报, 2004, 30(1): 86-100

Gao Yang, Chen Shi-Fu, Lu Xin. Research on reinforcement learning technology: A review. Acta Automatica Sinica, 2004, 30(1): 86-100


[2] Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.


[3] 李晨溪, 曹雷, 张永亮, 陈希亮, 周宇欢, 段理文. 基于知识的深度强化学习研究综述. 系统工程与电子技术, 2017, 39(11): 2603-2613 doi: 10.3969/j.issn.1001-506X.2017.11.30

Li Chen-Xi, Cao Lei, Zhang Yong-Liang, Chen Xi-Liang, Zhou Yu-Huan, Duan Li-Wen. Knowledge-based deep reinforcement learning: A review. Systems Engineering and Electronics, 39(11): 2603-2613 doi: 10.3969/j.issn.1001-506X.2017.11.30


[4] Bellman R. Dynamic Programming. Princeton: Princeton University Press, 1957.


[5] Mnih V, Kavukcuoglu K, Silver D, Rusu A A, Veness J, Bellemare M G, et al. Human-level control through deep reinforcement learning. Nature, 2015, 518(7540): 529-533 doi: 10.1038/nature14236


[6] 刘全, 翟建伟, 章宗长, 钟珊, 周倩, 章鹏, 等. 深度强化学习综述. 计算机学报, 2018, 48(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001

Liu Quan, Zhai Jian-Wei, Zhang Zong-Chang, Zhong Shan, Zhou Qian, Zhang Peng, et al. A survey on deep reinforcement learning. Chinese Journal of Computers, 2018, 48(1): 1-27 doi: 10.11897/SP.J.1016.2019.00001


[7] Mnih V, Kavukcuoglu K, Silver D, Graves A, Antonoglou I, Wierstra D, et al. Playing Atari with deep reinforcement learning. arXiv preprint arXiv: 1312.5602, 2013.


[8] Cheng Y H, Chen L, Chen C L P, Wang X S. Off-policy deep reinforcement learning based on Steffensen value iteration. IEEE Transactions on Cognitive and Developmental Systems, 2021, 13(4): 1023-1032 doi: 10.1109/TCDS.2020.3034452


[9] Silver D, Huang A, Maddison C J, Guez A, Sifre L, Driessche G V D, et al. Mastering the game of Go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489 doi: 10.1038/nature16961


[10] Chen P Z, Lu W Q. Deep reinforcement learning based moving object grasping. Information Sciences, 2021, 565: 62-76. doi: 10.1016/j.ins.2021.01.077


[11] Jin Z H, Wu J H, Liu A D, Zhang W A, Yu L. Policy-based deep reinforcement learning for visual servoing control of mobile robots with visibility constraints. IEEE Transactions on Industrial Electronics, 2022, 69(2): 1898-1908 doi: 10.1109/TIE.2021.3057005


[12] Li X J, Liu H S, Dong M H. A general framework of motion planning for redundant robot manipulator based on deep reinforcement learning. IEEE Transactions on Industrial Informatics, 2022, 18(8): 5253-5263 doi: 10.1109/TII.2021.3125447


[13] Chen S Y, Wang M L, Song W J, Yang Y, Li Y J, Fu M Y. Stabilization approaches for reinforcement learning-based end-to-end autonomous driving. IEEE Transactions on Vehicular Technology, 2020, 69(5): 4740-4750 doi: 10.1109/TVT.2020.2979493


[14] Qi Q, Zhang L X, Wang J Y, Sun H F, Zhuang Z R, Liao J X, et al. Scalable parallel task scheduling for autonomous driving using multi-task deep reinforcement learning. IEEE Transactions on Vehicular Technology, 2020, 69(11): 13861-13874 doi: 10.1109/TVT.2020.3029864


[15] Kiran B R, Sobh I, Talpaert V, Mannion P, Sallab A A A, Yogamani S, et al. Deep reinforcement learning for autonomous driving: A survey. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(6): 4909-4926 doi: 10.1109/TITS.2021.3054625


[16] Taghian M, Asadi A, Safabakhsh R. Learning financial asset-specific trading rules via deep reinforcement learning. Expert Systems with Applications, 2022, 195: Article No. 116523 doi: 10.1016/j.eswa.2022.116523


[17] Tsantekidis A, Passalis N, Tefas A. Diversity-driven knowledge distillation for financial trading using Deep Reinforcement Learning. Neural Networks, 2021, 140: 193-202 doi: 10.1016/j.neunet.2021.02.026


[18] Park H, Sim M K, Choi D G. An intelligent financial portfolio trading strategy using deep Q-learning. Expert Systems with Applications, 2020, 158: Article No. 113573 doi: 10.1016/j.eswa.2020.113573


[19] Tan W S, Ryan M L. A single site investigation of DRLs for CT head examinations based on indication-based protocols in Ireland. Journal of Medical Imaging and Radiation Sciences, DOI: 10.1016/j.jmir.2022.03.114


[20] Allahham M S, Abdellatif A A, Mohamed A, Erbad A, Yaacoub E, Guizani M. I-SEE: Intelligent, secure, and energy-efficient techniques for medical data transmission using deep reinforcement learning. IEEE Internet of Things Journal, 2021, 8(8): 6454-6468 doi: 10.1109/JIOT.2020.3027048


[21] Lin L J. Self-improving reactive agents based on reinforcement learning, planning and teaching. Machine Learning, 1992, 8: 293-321


作者简介



胡子剑,西北工业大学电子信息学院博士研究生. 2018 年获得西北工业大学探测制导与控制技术学士学位. 主要研究方向为强化学习理论与应用.

高晓光,西北工业大学电子信息学院教授. 1989 年获得西北工业大学系统工程博士学位. 主要研究方向为机器学习理论, 贝叶斯网络理论和多智能体控制应用.

万开方,西北工业大学电子信息学院副研究员. 2016 年获得西北工业大学系统工程博士学位. 主要研究方向为多智能体理论, 近似动态规划和强化学习. 本文通信作者.

张乐天,西安电子科技大学外国语学院硕士研究生. 主要研究方向为科技翻译, 翻译理论和机器翻译. 

汪强龙,西北工业大学电子信息学院博士研究生. 主要研究方向为深度学习, 强化学习.

NERETIN Evgeny,莫斯科航空学院教授. 2011年获得莫斯科航空学院技术科学博士学位. 主要研究方向为航空电子, 智能决策.

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章