其中松弛参数用于设置策略评估误差或值函数求解误差。当松弛参数等于0时,值函数没有发生变化,训练停滞,迭代振荡;当松弛参数等于1时,策略评估得到了严格求解,迭代求解的收敛性加快,但是单步求解的计算负担重。实际求解结果一般介于二者之间,即松弛参数在0到1之间。最终,根据松弛策略评估,构建了实现迭代稳定的松弛策略迭代(Relaxed Policy Iteration,RPI)框架,如图 2所示。
其中,松弛参数恰好等价于牛顿法步长。为了进一步分析迭代过程的收敛性,研究根据共享步长构造了辅助迭代过程,通过归纳法证明了迭代框架的线性收敛速度。以电子电路中最常见的二维振荡器作为研究对象,该问题的最优值函数恰好具有解析形式。经过50步策略迭代后,值函数平均误差可小于0.2%(如图 1),该结果与理论分析结果相契合[4]。
使得增广HJI方程的值函数解满足包含误差项的HJ不等式,从而保障干扰抑制性能对有界模型误差成立。
以此为基础,进一步设计了求解增广HJI方程的鲁棒强化学习(Robust Reinforcement Learning,RRL)方法
其中,第一部分使用历史状态和当前状态作为批次数据,通过梯度下降法,近似增广HJI方程的解,同时实现持续学习。第二部分通过最小化径向无界李雅普诺夫函数的导数,增强训练过程中闭环系统的稳定性。面向值函数权重误差和系统状态,分析算法的收敛性和稳定性。设计包含值函数权重误差和径向无界李雅普诺夫函数的联合函数
为推动权重误差和系统状态趋向原点,推导联合函数的导数小于0的充分条件,得到权重误差或系统状态需大于等于某个边界。根据李雅普诺夫扩展定理,权重误差和系统状态最终收敛到如图 4所示的方形集合内,由此证明了算法的收敛性和稳定性[5]。
考虑同时包含模型误差和外部干扰的非线性振荡器。将不同干扰信号应用于振荡器系统,并对两组模型不确定参数分别均匀采样9组结果。正交组合后,记录81组动力学模型的实际干扰抑制水平如图 5所示。结果表明,不同近似函数训练得到的控制器具有相同的控制效果。和不考虑对消项的OLA方法对比,RRL的干扰抑制能力更强,且模型误差对其干扰抑制性能的影响更小,RRL的鲁棒性能更优。
综上所述,研究建立了一种容忍策略评估误差的松弛策略迭代框架,保障了有界模型误差内干扰抑制性能和鲁棒稳定性,对非线性系统的鲁棒控制策略设计具有重要价值,为强化学习技术的落地应用奠定了理论基础。未来的研究将面向工程应用实际,针对多源不确定性导致智能汽车运动控制策略的鲁棒性能不足,设计算法同时应对外部干扰、模型误差和观测噪声,实现神经网络的鲁棒运动控制,并通过实车测试验证鲁棒运动控制策略的有效性。
参考文献
[1]J. Doyle, K. Glover, P. Khargonekar, and B. Francis, “State-space solutions to standard and control problems,” in 1988 American Control Conference, pp. 1691-1696, 1988.
[2]T. Basar and P. Bernhard, optimal control and related minimax design problems: a dynamic game approach. Springer Science & Business Media, 2008.
[3]A. J. Van Der Schaft, “-gain analysis of nonlinear systems and nonlinear state feedback control,” IEEE Transactions on Automatic Control, vol. 37, no. 6, pp. 770-784, 1992.
[4]J. Li, S. E. Li, J. Duan, Y. Lyu, W. Zou, Y. Guan, and Y. Yin, “Relaxed policy iteration algorithm for nonlinear zero-sum games with application to H-infinity control,” IEEE Transactions on Automatic Control, vol. 69, no. 1, pp. 426-433, 2024.
[5]J. Li, R. Nagamune, Y. Zhang, and S. E. Li, “Robust approximate dynamic programming for nonlinear systems with both model error and external disturbance,” IEEE Transactions on Neural Networks and Learning Systems, 2023.