安徽大学何舒平团队 | 基于策略迭代的马尔可夫跳变系统自适应优化控制:不依赖转移概率的异步方法
文摘
科技
2024-11-10 12:02
中国
研究团队
程纬地,任乘乘,何舒平,孙长银:安徽大学
文章下载
Weidi CHENG, Chengcheng REN, Shuping HE & Changyin SUN. Policy iteration-based adaptive optimal control for Markov jump systems: a transition-probability-free asynchronous approach. Sci China Inf Sci, 2024, 67(11): 219203, doi: 10.1007/s11432-024-4139-6
基于隐马尔可夫模型的跳变系统是一种具有多个隐藏状态且状态之间的跳变是基于马尔可夫链决定的随机系统。这些隐藏状态是不可直接观测的,可通过条件概率来观测隐藏状态的变化。随着强化学习技术的发展,如何将学习和优化策略应用于隐马尔可夫跳变系统设计中是一个值得探讨的问题。主要挑战包括:1. 转移概率矩阵的存在,使得Riccati方程存在新的耦合项,如何设计基于迭代策略的优化数值求解方法呢?2. 如何在控制器设计中,解决系统模态和控制器模态的非同步特性?这就需要考虑如何充分利用在线测量的系统模态信息来迭代设计优化控制方案。因此,针对隐马尔可夫跳变系统,设计基于策略迭代的异步优化控制策略,使系统可以在不依赖转移概率信息情况下求解耦合Riccati方程具有重要的理论意义与潜在的应用价值。本文针对一类具有隐马尔可夫模型的连续时间跳变系统,提出了基于策略迭代的自适应优化控制方法。针对系统模态和控制器模态之间的非同步特性,采用了异步控制设计方案。考虑到系统内部动态无法直接获得,直接求解耦合代数Riccati方程存在极大困难。本文提出了一种新的异步控制算法,利用off-policy自适应动态规划技术迭代求解耦合代数Riccati方程。该算法通过建立折扣性能函数,利用状态和输入的异步在线信息,迭代求解耦合代数Riccati方程而不需要系统信息的先验知识。本文证明了所提算法的收敛性。最后,通过一个RLC电路系统的仿真示例验证了所设计算法的有效性。(1) 针对连续时间隐马尔可夫跳变系统,设计了不依赖模型的异步自适应优化镇定控制方法。(2) 建立了异步无限域性能指标函数,其中权重矩阵和控制策略的跳变是基于条件概率下的观测模态。 (3) 提出了一种异步off-policy强化学习技术,利用在线测量的状态和输入信息,通过迭代求解耦合代数Riccati方程得到优化控制器增益,不需要系统信息的先验知识。本文所提出的自适应优化控制方案在RLC电路中进行了仿真验证。结果表明,所提出的策略迭代方法是可行且有效的,可在不需要获知系统动态信息和耦合转移概率信息情况下迭代求解优化控制器增益。图1. RLC电路模型
图2. 系统模态ρ(t)和观测模态η(t)
图3. 转移概率矩阵P1和P2的收敛性
图4. 被控状态的镇定性