【清华大学】当鲁棒控制遇到强化学习:零和博弈视角的非线性拓展

文摘   2024-12-07 09:56   新加坡  
来自:清华大学

强化学习方法被广泛用于无人机、机械臂、双足机器人和智能汽车等机器人控制领域。然而,仿真环境和真实环境的差异,制约了强化学习方法的落地应用。以智能汽车为例,车辆行驶过程面临多源不确定性的挑战,包括周车行为难以预测所引入的外部干扰、模型参数难以估计所引入的模型误差和环境感知所带来的观测噪声等。这些不确定性将耦合影响机器人的运动控制性能,运动控制策略的鲁棒性是制约强化学习技术落地应用的关键挑战。

诞生于上世纪70年代末的鲁棒控制旨在解决被控对象模型的不确定性。1988年,Doyle等人发表著名的DGKF论文[1],为状态空间线性鲁棒控制奠定了理论基础。鲁棒控制的设计目标是抑制不确定性对控制性能的影响,其中控制输入和不确定性存在博弈关系。据此,Başar透过零和博弈视角,将线性鲁棒控制拓展到非线性系统[2]

根据动态规划原理,求解零和博弈问题或干扰抑制问题的充分必要条件是哈密顿-雅可比-艾萨克斯(Hamilton-Jacobi-IsaacsHJI)方程

或哈密顿-雅可比(Hamilton-JacobiHJ)不等式[3]。因为这是典型的非线性偏微分方程,其解析解难以获得,因此,通常采用策略迭代等数值方法进行求解。现有数值迭代求解框架包含干扰策略、控制策略和值函数3个元素的交替迭代,其难题是迭代架构容易振荡失稳。此外,现有研究工作聚焦于处理单一类型的不确定性。当不同类型的不确定性同时存在时,外部干扰与模型误差将耦合影响鲁棒稳定性和干扰抑制性能,难以实现同时处理。
针对迭代求解易失稳的难题,清华大学李升波教授课题组发现,值函数求解误差是影响迭代框架收敛速度的关键因素(如 1)。

l论文地址:https://ieeexplore.ieee.org/document/10098871

l论文标题:Relaxed Policy Iteration Algorithm for Nonlinear Zero-Sum Games with Application to H-Infinity Control

为此,研究提出松弛求解机制,将值函数求解的等式方程松弛为如下不等式,作为策略评估终止条件

其中松弛参数用于设置策略评估误差或值函数求解误差。当松弛参数等于0时,值函数没有发生变化,训练停滞,迭代振荡;当松弛参数等于1时,策略评估得到了严格求解,迭代求解的收敛性加快,但是单步求解的计算负担重。实际求解结果一般介于二者之间,即松弛参数在01之间。最终,根据松弛策略评估,构建了实现迭代稳定的松弛策略迭代(Relaxed Policy IterationRPI)框架,如 2所示。

理论分析中,值函数的迭代过程等效于变步长的牛顿法

其中,松弛参数恰好等价于牛顿法步长。为了进一步分析迭代过程的收敛性,研究根据共享步长构造了辅助迭代过程,通过归纳法证明了迭代框架的线性收敛速度。以电子电路中最常见的二维振荡器作为研究对象,该问题的最优值函数恰好具有解析形式。经过50步策略迭代后,值函数平均误差可小于0.2%(如 1),该结果与理论分析结果相契合[4]

针对不确定性耦合的挑战,研究建立了保障干扰抑制性能的模型误差对消机制,如 3所示。当非线性系统存在模型误差时,保障干扰抑制性能的HJ不等式被动地引入了误差项。为了对消影响,向HJI方程中主动添加对消项,建立确定性的增广HJI方程。根据模型误差边界,设计误差项和对消项的大小关系

使得增广HJI方程的值函数解满足包含误差项的HJ不等式,从而保障干扰抑制性能对有界模型误差成立。

以此为基础,进一步设计了求解增广HJI方程的鲁棒强化学习(Robust Reinforcement LearningRRL)方法

其中,第一部分使用历史状态和当前状态作为批次数据,通过梯度下降法,近似增广HJI方程的解,同时实现持续学习。第二部分通过最小化径向无界李雅普诺夫函数的导数,增强训练过程中闭环系统的稳定性。面向值函数权重误差和系统状态,分析算法的收敛性和稳定性。设计包含值函数权重误差和径向无界李雅普诺夫函数的联合函数

为推动权重误差和系统状态趋向原点,推导联合函数的导数小于0的充分条件,得到权重误差或系统状态需大于等于某个边界。根据李雅普诺夫扩展定理,权重误差和系统状态最终收敛到如 4所示的方形集合内,由此证明了算法的收敛性和稳定性[5]

考虑同时包含模型误差和外部干扰的非线性振荡器。将不同干扰信号应用于振荡器系统,并对两组模型不确定参数分别均匀采样9组结果。正交组合后,记录81组动力学模型的实际干扰抑制水平如 5所示。结果表明,不同近似函数训练得到的控制器具有相同的控制效果。和不考虑对消项的OLA方法对比,RRL的干扰抑制能力更强,且模型误差对其干扰抑制性能的影响更小,RRL的鲁棒性能更优。

综上所述,研究建立了一种容忍策略评估误差的松弛策略迭代框架,保障了有界模型误差内干扰抑制性能和鲁棒稳定性,对非线性系统的鲁棒控制策略设计具有重要价值,为强化学习技术的落地应用奠定了理论基础。未来的研究将面向工程应用实际,针对多源不确定性导致智能汽车运动控制策略的鲁棒性能不足,设计算法同时应对外部干扰、模型误差和观测噪声,实现神经网络的鲁棒运动控制,并通过实车测试验证鲁棒运动控制策略的有效性。

参考文献

[1]J. Doyle, K. Glover, P. Khargonekar, and B. Francis, State-space solutions to standard  and  control problems, in 1988 American Control Conference, pp. 1691-1696, 1988.

[2]T. Basar and P. Bernhard,  optimal control and related minimax design problems: a dynamic game approach. Springer Science & Business Media, 2008.

[3]A. J. Van Der Schaft, -gain analysis of nonlinear systems and nonlinear state feedback  control, IEEE Transactions on Automatic Control, vol. 37, no. 6, pp. 770-784, 1992.

[4]J. Li, S. E. Li, J. Duan, Y. Lyu, W. Zou, Y. Guan, and Y. Yin, “Relaxed policy iteration algorithm for nonlinear zero-sum games with application to H-infinity control,” IEEE Transactions on Automatic Control, vol. 69, no. 1, pp. 426-433, 2024.

[5]J. Li, R. Nagamune, Y. Zhang, and S. E. Li, “Robust approximate dynamic programming for nonlinear systems with both model error and external disturbance,” IEEE Transactions on Neural Networks and Learning Systems, 2023.

深度强化学习实验室
【开源开放、共享共进】强化学习社区\x26amp;实验室,分享推动DeepRL技术落地与社区发展,社区 deeprlhub.com
 最新文章