在人工智能领域,强化学习(RL)一直被视为解决复杂序列决策问题的有力工具。这项技术不仅在电子游戏、棋类智能、机器人控制、自动驾驶等前沿领域大放异彩,还在大语言模型(LLM)的微调、对齐、推理等关键阶段发挥着重要作用。
然而,在深度神经网络作为函数近似器的背景下,RL训练常常表现出显著的不稳定性,面临诸如过拟合、值高估和策略发散等一系列挑战。这些问题不仅影响了RL算法的最终性能,也限制了其在真实物理场景中大规模应用的潜力。
面对这一挑战,清华大学的研究团队提出了RL专用的神经网络优化方法——RAD优化器(Relativistic Adaptive gradient Descent)。相较于9个主流神经网络优化器(包括SGD-M,Adam和AdamW等),RAD优化器在12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)及5种主流RL算法(包括DQN、DDPG、TD3、SAC和ADP)下,综合性能均排名第一。特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%。
论文标题:Conformal Symplectic Optimization for Stable Reinforcement Learning
论文地址:https://ieeexplore.ieee.org/document/10792938
代码仓库:https://github.com/TobiasLv/RAD
神经网络作为RL价值函数和策略函数的核心载体,其训练过程通常依赖于神经网络优化器以实现参数更新。然而,目前主流的神经网络优化器(如SGD-M、Adam和AdamW等)虽然在缓解局部最优和加速收敛方面有所帮助,但其算法设计和参数选择均依赖于人工经验和实用技巧,缺乏对优化动态特性的解释与分析,难以从理论上保障RL训练的稳定性。
研究者从动力学视角出发,将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,从理论上抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应能力,有力保障了RL训练的长时域稳定性和收敛速率。
神经网络参数优化=动力学系统状态演变
本质上,RL的神经网络优化要求迭代求解以下标准形式的非凸随机优化问题:
其中,
研究者提出了一种全新视角,将神经网络参数的离散优化过程对偶为共形哈密顿系统状态的离散演变过程,通过分析和保留动力学系统的关键特征,向神经网络优化过程引入稳定性和收敛性等重要性能。
共形哈密顿系统(Conformal Hamiltonian system)是一类特殊的能量耗散系统,其哈密顿量(即总能量)和辛形式(即相空间面积)随时间单调收敛,从而使得系统趋向于稳定点。这类系统的正则方程具有特殊的反对称结构,保证了系统的长期稳定性:
其中
这一工作的研究者发现,神经网络的收敛条件与共形哈密顿系统的收敛条件呈现出高度相似性:
1)神经网络收敛条件:目标函数极小且参数更新速度为0,即
2)共形哈密顿系统收敛条件:系统势能极小且系统动量为0,即
因此,通过将网络参数
研究者据此开发了一个用于设计神经网络离散优化方法的全新框架,包括两个核心步骤:
1)确定动能形式:选取合适的系统动能形式
2)采用保辛离散化:选取合适的保辛离散方法实现特定精度的动力学近似,确保优化方法的稳定性和收敛性。
在这一框架下,神经网络离散优化方法将自然继承共形哈密顿系统的长时域迭代稳定性。然而,研究者特别强调,动能
具有相对论约束的自适应梯度下降机制
经典动能
为有效防止训练中的参数发散现象,受狭义相对论光速最大原理启发,研究者指出通过对相对论系统进行保辛离散化,可向神经网络优化过程中自然引入参数更新速度的限制。
研究者进一步指出,通过构建由大量独立1维粒子组成的相对论共形哈密顿系统模型,并将每个网络参数
具体而言,由
对该系统进行保辛离散化,并引入变量替换以适应深度学习领域常用的符号体系,可以得到如下网络参数离散优化方法:
其中
由于建模为多粒子相对论系统,每个网络参数的有效学习率
同时,
研究者进一步引入了二阶动量
其中,
研究者观察到,遵循原始退火机制的保辛因子
最终,研究者提出了既具备稳定动力学特性又适用于深度神经网络非凸随机优化的RAD优化器(伪代码见算法3)。
值得注意的是,当速度系数
1)优化初期:RAD类似于Adam,迅速引导网络参数接近最优解空间;
2)优化后期:随着保辛性质的恢复,RAD保持原系统动态特性,确保长时域稳定训练。
研究者进一步指出,在Adam优化器中,
这些发现不仅深化了对Adam优化器的理解,同时也为从动力学视角探究其他主流自适应梯度优化方法(如AdaGrad、NAdam、AdamW和Lion等)开辟了全新路径。
标准测试任务的实验分析
研究者在5种主流RL算法(包括DQN、DDPG、TD3、SAC和ADP)和12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)中对RAD优化器进行了广泛测试,并与9种主流神经网络优化器(包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW)进行了比较。实验主要聚焦三方面验证:
1)长期训练稳定性:RAD具备长时域训练稳定性,有助于RL策略收敛后达到高性能;
2)速度系数
3)保辛因子的作用:通过调节有效学习率自适应能力,有助于减弱训练振荡情况。
性能对比
研究者首先在经典控制任务CartPole上展开了实验。结果表明,RAD呈现出最平滑的哈密顿量下降趋势(见图1右侧),这一结果证实了RAD有效保持了原动力学系统的耗散特性。在策略性能(Total Average Return,TAR)方面,RAD曲线迅速平稳上升,而Adam曲线波动较大。
研究者接着在MuJoCo多关节机器人控制任务和Atari游戏环境中进行了广泛测试。结果表明,RAD在所有基准测试中均展现出卓越的收敛速度和性能。与RL领域广泛使用的Adam优化器相比,RAD在Walker2d任务中的性能提升了5.4%(见表I),而在Seaquest任务中的性能提升更是达到了显著的155.1%(见表II)。
与其他SOTA自适应梯度优化器相比,RAD在保持计算效率和内存占用相当的情况下(均维护一阶动量
为评估RAD在受扰动环境中的鲁棒性,研究者进一步在Walker2d任务中针对不同观测噪声水平进行了对比实验。结果表明(见图5),RAD因其出色的保辛性质(保留原动力学系统的稳定演化和收敛特性),展现出对噪声的显著抵抗力。即使在最高噪声水平下,RAD性能下降也相对较小,仅为3.4%;相比之下,NAdam的性能下降达到了10.9%。
最后,为了验证RAD在处理复杂现实世界任务中的有效性,研究者在模拟城市路口的自动驾驶任务中进行了测试。结果显示,使用RAD训练出的自动驾驶汽车通过率达93.2%,显著优于使用Adam优化器的89.5%。
以上结果证明了RAD优化器在RL基准测试中达到SOTA性能,且适用于复杂现实世界应用,RAD的这一特性使其成为解决各类RL训练任务(特别是那些对长期稳定性和收敛性能有高要求的复杂任务)的一个强有力的优化工具。
速度系数消融实验
为探究速度系数
研究者指出,
保辛因子消融实验
为研究保辛因子
研究者强调,较大的
参考链接
https://ieeexplore.ieee.org/document/10792938
https://arxiv.org/abs/2412.02291