【视频专栏】逆强化学习算法、理论与应用研究综述

文摘   科技   2024-03-21 18:32   北京  

点击上方蓝字关注我们


宋莉, 李大字, 徐昕. 逆强化学习算法、理论与应用研究综述. 自动化学报, DOI: 10.16383/j.aas.c230081

1

摘要

       随着深度强化学习的研究与发展, 强化学习在博弈与优化决策、智能驾驶等现实问题中的应用也取得显著进展. 然而强化学习在智能体与环境的交互中存在人工设计奖励函数难的问题, 因此研究者提出了逆强化学习这一研究方向. 如何从专家演示中学习奖励函数和进行策略优化是一个新颖且重要的研究课题, 在人工智能领域具有十分重要的研究意义. 本文综合介绍了逆强化学习算法的最新进展, 首先介绍了逆强化学习在理论方面的新进展, 然后分析了逆强化学习面临的挑战以及未来的发展趋势, 最后讨论了逆强化学习的应用进展和应用前景.


2

引言

随着人工智能技术的不断发展, 智能决策与控制技术变得越来越重要, 促进了机器学习另一个领域 — 强化学习(Reinforcement learning, RL)的发展. 目前, 强化学习的理论体系日趋完善, 已经广泛应用于各个领域, 具有巨大的发展前景, 吸引了学术界和工业界的学者对该领域进行深入地探索研究[1-4]. 强化学习算法将策略优化问题建模为马尔科夫决策过程(Markov decision process, MDP), 其主要目标是通过智能体与环境的试错交互, 最大化累积奖励函数和优化策略. 奖励函数作为MDP的重要组成部分, 因此MDP的求解与奖励密切相关[5]. 人为设计奖励函数具有很强的主观性和经验性, 奖励函数的差异会影响强化学习的策略优化. 因此, 如何设计准确的奖励函数是一项非常重要的工作. 然而, 在复杂环境中, 需要考虑多种因素对奖励函数的影响, 很难人为设定准确的奖励函数, 这成为制约强化学习算法发展的瓶颈, 影响了强化学习算法的理论研究和应用发展. 新南威尔士大学Bain等[6]首次较系统地给出了基于行为克隆(Behavior cloning, BC) 的模仿学习(Imitation leaning) 的定义, 该方法采用监督学习的方式, 通过模仿人类专家的动作来学习随机或确定性策略网络. 然而该方法无需学习奖励和推理行为背后产生的内在原因[7], 只能在专家演示下学习最优策略, 无法突破和超越专家演示的最优策略[8]. 因此, 针对如何设计准确的奖励函数的问题, 2000年加州大学伯克利分校Ag等[9]首次提出逆强化学习(Inverse reinforcement learning, IRL) 的概念. 该算法的基本思想是首先利用专家演示反向推导MDP的奖励函数, 然后根据学习的奖励函数去优化策略, 进行正向的强化学习[10].

逆强化学习随着人工智能技术的不断成熟表现出强大的发展潜力, 逆强化学习算法的理论和应用领域不断被完善. 从解决问题的方面来看, 逆强化学习算法可以分为三大分支. 第一个分支是最早的逆强化学习算法, 主要包括2004年斯坦福大学Abbeel等[11]提出的学徒学习逆强化学习(Apprenticeship learning inverse reinforcement learning, ALIRL)、2006年Ratliff等[12]提出的最大边际规划逆强化学习(Maximum margin planning inverse reinforcement learning, MMPIRL)等算法. 然而, 这类算法存在模糊性问题, 即不同的奖励对应相同的策略. 进而衍生出第二个分支, 基于熵的逆强化学习算法, 主要包括2008年卡内基梅隆大学Ziebart等[13]提出的最大熵逆强化学习(Maximum entropy inverse reinforcement learning, MEIRL)、2011年马克斯−普朗克智能系统研究所Boularias等[14]提出的相对熵逆强化学习(Relative entropy inverse reinforcement learning, REIRL)等. 基于熵的逆强化学习最初实现的是特征到奖励的线性映射, 随着环境复杂度的增大, 2016年牛津大学Wulfmeier等[15]提出深度逆强化学习算法, 借助神经网络能拟合任意非线性函数的能力来学习非线性奖励函数[16-17]. 在专家演示下, 虽然基于熵的逆强化学习算法一定程度上提高了奖励函数的学习精度, 但有限和非最优的专家演示依然影响着奖励函数的学习. 因此, 2016年, 斯坦福大学Ho等[18]给出了生成对抗逆强化学习(Generative adversarial inverse reinforcement learning, GAIRL)的基本定义, 通过RL和IRL的学习迭代不断优化专家演示, 提高奖励的学习精度. 此外, 在复杂的非线性环境下, 2011年斯坦福大学Levine等[19]提出基于高斯过程的逆强化学习(Inverse reinforcement learning with Gaussian processes, GPIRL), 利用高斯函数的高度非线性确定每个特征与策略的相关性, 求解奖励函数. 三个分支既相互独立又相互补充, 基于以上探讨, 如何构建高效可靠的奖励函数和求得最优策略是逆强化学习研究的重点. 在求解的过程中, 针对出现的模糊性和专家演示非最优的问题, 研究者们提出了不同的应对策略, 在一定程度上解决了这些问题. 本文首先介绍逆强化学习算法的发展历程, 然后重点介绍和讨论了逆强化学习算法的应用进展及算法面临的挑战.

本文内容安排如下: 第1节介绍了马尔科夫决策过程、逆强化学习、强化学习、行为克隆等算法的基本概念和知识; 第2节介绍解决MDP问题的逆强化学习算法的研究进展; 第3节介绍了逆强化学习算法的应用进展; 第4节介绍逆强化学习算法面临的挑战及解决方案; 第5节对逆强化学习算法的未来进行展望; 第6节对本文内容进行总结.


3

正文框架

1. 逆强化学习的背景与提出

2. 逆强化学习算法研究进展

  2.1 线性逆强化学习算法

  2.2 非线性逆强化学习算法

3. 逆强化学习的应用进展

  3.1 智能驾驶与停车场导航

  3.2 智能机器人控制

  3.3 无人机

  3.4 目标检测

  3.5 游戏

  3.6 金融贸易和工业过程

4. 逆强化学习算法面临的问题及解决思路

  4.1 逆强化学习的模糊性问题及解决思路

  4.2 专家演示次优问题及解决思路

  4.3 博弈问题及解决思路

  4.4 逆强化学习理论分析不完善问题

5. 逆强化学习算法的讨论和未来技术展望

6. 结束语


部分文献


[1] 柴天佑. 工业人工智能发展方向. 自动化学报, 2020, 46(10): 2005-2012 doi: 10.16383/j.aas.c200796

Chai Tian-You. Development directions of industrial artificial intelligence. Acta Automatica Sinica, 2020, 46(10): 2005-2012 doi: 10.16383/j.aas.c200796


[2] Dai X Y, Zhao C, Li X S, Wang X, Wang F Y. Traffic signal control using offline reinforcement learning. In: Proceedings of the China Automation Congress (CAC). Beijing, China: IEEE, 2021. 8090−8095


[3] Li J N, Ding J L, Chai T Y, Lewis F L. Nonzero-sum game reinforcement learning for performance optimization in large-Scale industrial processes. IEEE Transactions on Cybernetics, 2020, 50(9): 4132-4145 doi: 10.1109/TCYB.2019.2950262


[4] 赵冬斌, 邵坤, 朱圆恒, 李栋, 陈亚冉, 王海涛, 等. 深度强化学习综述: 兼论计算机围棋的发展. 控制理论与应用, 2016, 33(6): 701-717

Zhao Dong-Bin, Shao Kun, Zhu Yuan-Heng, Li Dong, Chen Ya-Ran, Wang Hai-Tao, et al. Review of deep reinforcement learning and discussions on the development of computer Go. Control Theory & Applications, 2016, 33(6): 701-717


[5] Song T H, Li D Z, Yang W M, Hirasawa K. Recursive least-squares temporal difference with gradient correction. IEEE Transactions on Cybernetics, 2021, 51(8): 4251-4264 doi: 10.1109/TCYB.2019.2902342


[6] Bain M, Sammut C. A framework for Behavioural cloning. Machine Intelligence 15: Intelligent Agents, 1995: 103−129


[7] Couto G C K, Antonelo E A. Generative adversarial imitation learning for end-to-end autonomous driving on urban environments. In: Proceedings of the IEEE Symposium Series on Computational Intelligence (SSCI). Orlando, USA: IEEE, 2021. 1−7


[8] Samak T V, Samak C V, Kandhasamy S. Robust behavioral cloning for autonomous vehicles using end-to-end imitation learning. SAE International Journal of Connected and Automated Vehicles, 2021, 4(3): 279-295


[9] Ng A Y, Russell S J. Algorithms for inverse reinforcement learning. In: Proceedings of the 17th International Conference on Machine Learning (ICML). Stanford, USA: Morgan Kaufmann Publishers Inc, 2000. 663−670


[10] Imani M, Ghoreishi S F. Scalable inverse reinforcement learning through multifidelity Bayesian optimization. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(8): 4125-4132 doi: 10.1109/TNNLS.2021.3051012


[11] Abbeel P, Ng A Y. Apprenticeship learning via inverse reinforcement learning. In: Proceedings of the 21st International Conference on Machine Learning (ICML). Ban, Canada: ACM, 2004. 1−8


[12] Ratliff N D, Bagnell J A. Zinkevich M A. Maximum margin planning. In: Proceedings of the 23rd International Conference on Machine Learning (ICML). Pittsburgh, USA: ACM, 2006. 729−736


[13] Ziebart B D, Maas A, Bagnell J A, Dey A K. Maximum entropy inverse reinforcement learning. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence (AAAI). Chicago, USA: AAAI, 2008. 1433−1438


[14] Boularias A, Kober J, Peters J. Relative entropy inverse reinforcement learning. In: Proceedings of the 14th International Conference on Artificial Intelligence and Statistics (AISTATS). Fort Lauderdale, USA: 2011. 182−189


[15] Wulfmeier M, Wang D Z, Posner I. Watch this: Scalable cost-function learning for path planning in urban environments. In: Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Daejeon, Korea (South): IEEE, 2016. 2089−2095


[16] Guo H Y, Chen Q X, Xia Q, Kang C Q. Deep inverse reinforcement learning for objective function identification in bidding models. IEEE Transactions on Power Systems, 2021, 36(6): 5684-5696 doi: 10.1109/TPWRS.2021.3076296


[17] Shi YC, Jiu B, Yan J K, Liu H W, Li K. Data-driven simultaneous multibeam power allocation: When multiple targets tracking meets deep reinforcement learning. IEEE Systems Journal, 2021, 15(1): 1264-1274 doi: 10.1109/JSYST.2020.2984774


[18] Ho J, Ermon S. Generative adversarial imitation learning. In: Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS). Barcelona, Spain: Curran Associates Inc, 2016. 4572−4580


[19] Levine S, Popović Z, Koltun V. Nonlinear inverse reinforcement learning with Gaussian processes. In: Proceedings of the 24th International Conference on Neural Information Processing Systems (NIPS). Granada, Spain: Curran Associates Inc, 2011. 19−27


作者简介



宋莉,北京化工大学信息科学与技术学院博士研究生. 主要研究方向为强化学习, 深度学习, 逆强化学习.

李大字,北京化工大学信息科学与技术学院教授. 主要研究方向为机器学习与人工智能, 先进控制, 分数阶系统, 复杂系统建模与优化. 本文通信作者.

徐昕,国防科技大学智能科学学院教授. 主要研究方向为智能控制, 强化学习, 机器学习, 机器人和智能车辆.


【视频专栏】基于注意力机制和循环域三元损失的域适应目标检测

【视频专栏】基于语境辅助转换器的图像标题生成算法

【视频专栏】数据驱动的间歇低氧训练贝叶斯优化决策方法

【视频专栏】无控制器间通信的线性多智能体一致性的降阶协议

【视频专栏】异策略深度强化学习中的经验回放研究综述

2023年度自动化领域国家自然科学基金申请与资助情况

【视频专栏】基于距离信息的追逃策略:信念状态连续随机博弈

【视频专栏】城市固废焚烧过程智能优化控制研究现状与展望

【视频专栏】深度对比学习综述

【视频专栏】视网膜功能启发的边缘检测层级模型

【视频专栏】一种新的分段式细粒度正则化的鲁棒跟踪算法

【视频专栏】基于自适应多尺度超螺旋算法的无人机集群姿态同步控制

【视频专栏】基于分层控制策略的六轮滑移机器人横向稳定性控制

【视频专栏】基于改进YOLOX的移动机器人目标跟随方法

自动化学报创刊60周年专刊| 孙长银教授等:基于因果建模的强化学习控制: 现状及展望

【视频专栏】基于多尺度变形卷积的特征金字塔光流计算方法

自动化学报创刊60周年专刊| 柴天佑教授等:端边云协同的PID整定智能系统

【视频专栏】一种同伴知识互增强下的序列推荐方法

自动化学报创刊60周年专刊| 桂卫华教授等:复杂生产流程协同优化与智能控制

【视频专栏】 基于跨模态实体信息融合的神经机器翻译方法

自动化学报创刊60周年专刊| 王耀南教授等:机器人感知与控制关键技术及其智能制造应用

【视频专栏】机器人运动轨迹的模仿学习综述

自动化学报创刊60周年专刊| 于海斌研究员等:无线化工业控制系统: 架构、关键技术及应用

自动化学报创刊60周年专刊| 王飞跃教授等:平行智能与CPSS: 三十年发展的回顾与展望

自动化学报创刊60周年专刊| 陈杰教授等:非线性系统的安全分析与控制: 障碍函数方法

自动化学报创刊60周年专刊| 乔俊飞教授等:城市固废焚烧过程数据驱动建模与自组织控制

自动化学报创刊60周年专刊| 姜斌教授等:航天器位姿运动一体化直接自适应容错控制研究

自动化学报创刊60周年专刊| 王龙教授等:多智能体博弈、学习与控制

》自动化学报创刊60周年专刊| 刘成林研究员等:类别增量学习研究进展和性能评价

《自动化学报》创刊60周年专刊|杨孟飞研究员等:空间控制技术发展与展望

城市固废焚烧过程数据驱动建模与自组织控制

面向全量测点耦合结构分析与估计的工业过程监测方法

《自动化学报》多篇论文入选高影响力论文

》复杂网络能控性鲁棒性研究进展

》解耦表征学习综述

》考虑输出约束的冗余驱动绳索并联机器人预设性能控制 

》面向网络空间防御的对抗机器学习研究综述

【虚拟专题】机器人

》基于事件相机的机器人感知与控制综述

》《自动化学报》广受关注论文合集

2022年第01-07期综述

》【热点专题】多目标优化

》【热点专题】目标检测

》异构集群系统分布式自适应输出时变编队跟踪控制

》深海起重机系统的实时轨迹规划方法

》数据和知识驱动的城市污水处理过程多目标优化控制

》基于池的无监督线性回归主动学习

》基于非线性干扰观测器的飞机全电刹车系统滑模控制设计

综合集成研讨厅体系

传感器饱和的非线性网络化系统模糊H∞滤波

基于区块链的数字货币发展现状与展望
比特驱动的瓦特变革—信息能源系统研究综述

》《自动化学报》致谢审稿人(2023年度)

》《自动化学报》兼职编辑招聘启事

》《自动化学报》创刊六十周年学术研讨会第六期

》《自动化学报》创刊六十周年学术研讨会第五期

》自动化学报蝉联百种中国杰出期刊称号

》《自动化学报》20篇文章入选2023“领跑者5000”顶尖论文

》《自动化学报》创刊六十周年学术研讨会第三期

》《自动化学报》创刊六十周年学术研讨会第二期

》《自动化学报》创刊六十周年学术研讨会第一期

》《自动化学报》致谢审稿人(2022年度)

》《自动化学报》13篇文章入选2022“领跑者5000”顶尖论文

》自动化学报连续11年入选国际影响力TOP期刊榜单

》《自动化学报》影响因子6.627,影响因子和影响力指数排名第1

》JAS最新影响因子7.847,排名全球前10%

《自动化学报》17篇文章入选2021“领跑者5000”顶尖论文

》自动化学报多名作者入选爱思唯尔2021中国高被引学者

》自动化学报(英文版)和自动化学报入选计算领域高质量科技期刊T1类

》自动化学报多篇论文入选中国百篇最具影响国内论文和中国精品期刊顶尖论文

》JAS进入中科院分区工程技术和计算机科学类1区、Top期刊

》自动化学报蝉联百种中国杰出期刊称号,入选中国精品科技期刊
》《自动化学报》挺进世界期刊影响力指数Q1区
》《自动化学报》多名作者入选科睿唯安2020年度高被引科学家
》自动化学报排名第一,被评定为中国中文权威期刊
》2024年第02期
》2024年第01期
》2023年第11期
》2023年第10期
》2023年第09期
》2023年第08期
》2023年第07期
》2023年第06期
》2023年第05期
》2023年第04期
》《自动化学报》创刊60周年专刊
2023年第01期
2022年第10期
》2022年第09期
2022年第08期
》2022年第07期
2022年第01-06期
2021年第11期
2021年第10期

》2021年第09期

》2021年第08期
》2021年第07期
》2021年第06期
》2021年第05期
》2021年第04期
》2021年第03期
》2021年第02期
》2021年第01期



长按二维码|关注我们

IEEE/CAA Journal of Automatica Sinica (JAS)

长按二维码|关注我们

《自动化学报》服务号

联系我们

网站: 

http://www.aas.net.cn

https://www.ieee-jas.net

投稿: 

https://mc03.manuscriptcentral.com/aas-cn 

https://mc03.manuscriptcentral.com/ieee-jas 

电话:  010-82544653(日常咨询和稿件处理) 

           010-82544677(录用后稿件处理)

邮箱:  aas@ia.ac.cn(日常咨询和稿件处理)

           aas_editor@ia.ac.cn(录用后稿件处理)

博客: 

http://blog.sina.com.cn/aasedit

点击阅读原文 了解更多

自动化学报
《自动化学报》是由中国自动化学会、中国科学院自动化研究所共同主办的高级学术期刊。该公众服务号旨在发布学报网刊、期刊动态,为读者提供在线网刊、为作者提供在线查稿、为审者提供在线送审的服务。
 最新文章