清华团队提出RL专用神经网络优化器，性能位居榜首

文摘 2024-12-25 09:00 北京

转载自：RLChina

在人工智能领域，强化学习（RL）一直被视为解决复杂序列决策问题的有力工具。这项技术不仅在电子游戏、棋类智能、机器人控制、自动驾驶等前沿领域大放异彩，还在大语言模型（LLM）的微调、对齐、推理等关键阶段发挥着重要作用。

然而，在深度神经网络作为函数近似器的背景下，RL训练常常表现出显著的不稳定性，面临诸如过拟合、值高估和策略发散等一系列挑战。这些问题不仅影响了RL算法的最终性能，也限制了其在真实物理场景中大规模应用的潜力。

面对这一挑战，清华大学的研究团队提出了RL专用的神经网络优化方法——RAD优化器（Relativistic Adaptive gradient Descent）。相较于9个主流神经网络优化器（包括SGD-M，Adam和AdamW等），RAD优化器在12个测试环境（包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务）及5种主流RL算法（包括DQN、DDPG、TD3、SAC和ADP）下，综合性能均排名第一。特别在图像类标准测试环境Seaquest任务中，RAD性能达到Adam优化器的2.5倍，得分提升了155.1%。

论文标题：Conformal Symplectic Optimization for Stable Reinforcement Learning
论文地址：https://ieeexplore.ieee.org/document/10792938
代码仓库：https://github.com/TobiasLv/RAD

神经网络作为RL价值函数和策略函数的核心载体，其训练过程通常依赖于神经网络优化器以实现参数更新。然而，目前主流的神经网络优化器（如SGD-M、Adam和AdamW等）虽然在缓解局部最优和加速收敛方面有所帮助，但其算法设计和参数选择均依赖于人工经验和实用技巧，缺乏对优化动态特性的解释与分析，难以从理论上保障RL训练的稳定性。

研究者从动力学视角出发，将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程，通过引入狭义相对论的光速最大原理，从理论上抑制了网络参数的异常更新速率，同时提供了各网络参数的独立自适应能力，有力保障了RL训练的长时域稳定性和收敛速率。

神经网络参数优化=动力学系统状态演变

本质上，RL的神经网络优化要求迭代求解以下标准形式的非凸随机优化问题：

其中， $J$ 为目标函数， $\mathcal{L}$ 为损失函数， $\mathcal{P}$ 为样本 $x$ 的分布， $\theta$ 为可训练网络参数。然而，该优化过程的稳定性通常难以直接分析，那么是否存在可行的替代方案呢？

研究者提出了一种全新视角，将神经网络参数的离散优化过程对偶为共形哈密顿系统状态的离散演变过程，通过分析和保留动力学系统的关键特征，向神经网络优化过程引入稳定性和收敛性等重要性能。

共形哈密顿系统（Conformal Hamiltonian system）是一类特殊的能量耗散系统，其哈密顿量（即总能量）和辛形式（即相空间面积）随时间单调收敛，从而使得系统趋向于稳定点。这类系统的正则方程具有特殊的反对称结构，保证了系统的长期稳定性：

其中 $q$ 为系统状态， $p$ 为系统动量， $r$ 为耗散因子，哈密顿量 $H$ 由系统动能 $T(p)$ 和系统势能 $U(q)$ 组成，即 $H(q,p)=T(p)+U(q)$ 。此外，大量研究表明，使用保辛离散方法得到的离散系统能够在长时域下以高精度近似原始连续系统，从而具备后者的稳定性和收敛速度。

这一工作的研究者发现，神经网络的收敛条件与共形哈密顿系统的收敛条件呈现出高度相似性：

1）神经网络收敛条件：目标函数极小且参数更新速度为0，即 $\nabla J(\theta) = 0$ 且 $\dot{\theta} = 0$ ；

2）共形哈密顿系统收敛条件：系统势能极小且系统动量为0，即 $\nabla U(q) = 0$ 且 $p = 0$ 。

因此，通过将网络参数 $\theta$ 类比为系统状态 $q$ ，目标函数 $J(\theta)$ 类比为系统势能 $U(q)$ ，可直接建立二者间的对偶关系：

研究者据此开发了一个用于设计神经网络离散优化方法的全新框架，包括两个核心步骤：

1）确定动能形式：选取合适的系统动能形式 $T(p)$ 构建动力学系统，向优化方法引入恰当的动态特性；
2）采用保辛离散化：选取合适的保辛离散方法实现特定精度的动力学近似，确保优化方法的稳定性和收敛性。

在这一框架下，神经网络离散优化方法将自然继承共形哈密顿系统的长时域迭代稳定性。然而，研究者特别强调，动能 $T(p)$ 对于优化动力学具有决定性作用，选择合适的动能形式对于实现高效优化至关重要。

具有相对论约束的自适应梯度下降机制

经典动能 $T(p) = \| p \|^2 / (2m)$ 是一个直观的选择，但其对应于牛顿力学系统，该类系统速度（即参数更新速度 $\dot{\theta}$ ）没有上限，从而可能在异常梯度影响下产生不受控制的训练行为。

为有效防止训练中的参数发散现象，受狭义相对论光速最大原理启发，研究者指出通过对相对论系统进行保辛离散化，可向神经网络优化过程中自然引入参数更新速度的限制。

研究者进一步指出，通过构建由大量独立1维粒子组成的相对论共形哈密顿系统模型，并将每个网络参数 $\theta_i$ 对应于一个1维粒子 $q_i$ ，可以在优化过程中实现参数的个体自适应性。该性质使得优化方法能够更灵活地应对参数空间的复杂性，进而加速收敛。

具体而言，由 $n$ 个具有相同质量 $m$ 的1维粒子组成的相对论系统具有以下哈密顿量：

对该系统进行保辛离散化，并引入变量替换以适应深度学习领域常用的符号体系，可以得到如下网络参数离散优化方法：

其中 $v$ 为一阶动量， $\beta_1$ 为一阶动量系数， $\alpha$ 为学习率， $\delta$ 为速度系数。

由于建模为多粒子相对论系统，每个网络参数的有效学习率 $\alpha_{k, i} = \alpha / (\delta^2 v_{k+1, i}^2 + 1)^{1/2}$ 可以根据其二阶动量 $v_{k+1, i}^2$ 自适应调节，这有助于在非凸随机优化设定下实现快速收敛。

同时， $|\theta_{k+1, i} - \theta_{k, i}| \leq \alpha / \delta$ 总成立，参数更新速度受到了预设限制。当 $\delta \to 0$ 时（即系统趋向于牛顿力学系统），参数更新将不再受到限制，优化过程容易受到异常梯度的影响。

研究者进一步引入了二阶动量 $y = v^2$ 的指数移动平均估计和动量估计偏差修正技术，从而得到了适用于深度神经网络非凸随机优化场景的离散迭代方法：

其中， $\beta_2$ 为二阶动量系数，保辛因子 $\zeta_k = 1 - \beta_2^{k+1}$ ，所有运算均逐元素进行。

研究者观察到，遵循原始退火机制的保辛因子 $\zeta_k$ 会导致有效学习率 $\alpha_k$ 始终低于初始学习率 $\alpha$ 。鉴于训练初期较高的有效学习率有利于网络参数迅速接近最优解空间，他们提出了一种改进方案：对 $\zeta_k$ 的退火过程进行人为调整，使其在训练初期尽量小，然后随训练进行逐渐恢复到 $1 - \beta_2^{k+1}$ 。这种调整策略旨在平衡初期的收敛速度和后期的训练稳定性。

最终，研究者提出了既具备稳定动力学特性又适用于深度神经网络非凸随机优化的RAD优化器（伪代码见算法3）。

值得注意的是，当速度系数 $\delta$ 设为1且保辛因子 $\zeta_k$ 固定为小常数 $\epsilon$ 时，RAD优化器将退化为深度学习中广泛采用的Adam优化器。研究者据此阐明了RAD优化器能够无缝切换的两阶段优化过程：

1）优化初期：RAD类似于Adam，迅速引导网络参数接近最优解空间；
2）优化后期：随着保辛性质的恢复，RAD保持原系统动态特性，确保长时域稳定训练。

研究者进一步指出，在Adam优化器中， $\epsilon$ 是一个为避免数值运算中分母为零而人为加入的小常数。与之相比，RAD中的保辛因子 $\zeta$ 与系统的“质量 $\times$ 质能”（即 $m^2 c^2$ ）相关，具有明确的物理根源。该发现一定程度上阐释了为何在以往研究中，适度增加 $\epsilon$ （使得优化过程更贴近原始系统动力学）总能提升Adam优化器的性能。

这些发现不仅深化了对Adam优化器的理解，同时也为从动力学视角探究其他主流自适应梯度优化方法（如AdaGrad、NAdam、AdamW和Lion等）开辟了全新路径。

标准测试任务的实验分析

研究者在5种主流RL算法（包括DQN、DDPG、TD3、SAC和ADP）和12个测试环境（包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务）中对RAD优化器进行了广泛测试，并与9种主流神经网络优化器（包括SGD、SGD-M、DLPF、RGD、NAG、Adam、NAdam、SWATS和AdamW）进行了比较。实验主要聚焦三方面验证：

1）长期训练稳定性：RAD具备长时域训练稳定性，有助于RL策略收敛后达到高性能；

2）速度系数 $\delta$ 的影响：通过控制网络参数更新速度，有助于减轻异常梯度不利影响；
3）保辛因子的作用：通过调节有效学习率自适应能力，有助于减弱训练振荡情况。

性能对比

研究者首先在经典控制任务CartPole上展开了实验。结果表明，RAD呈现出最平滑的哈密顿量下降趋势（见图1右侧），这一结果证实了RAD有效保持了原动力学系统的耗散特性。在策略性能（Total Average Return，TAR）方面，RAD曲线迅速平稳上升，而Adam曲线波动较大。

研究者接着在MuJoCo多关节机器人控制任务和Atari游戏环境中进行了广泛测试。结果表明，RAD在所有基准测试中均展现出卓越的收敛速度和性能。与RL领域广泛使用的Adam优化器相比，RAD在Walker2d任务中的性能提升了5.4％（见表I），而在Seaquest任务中的性能提升更是达到了显著的155.1%（见表II）。

与其他SOTA自适应梯度优化器相比，RAD在保持计算效率和内存占用相当的情况下（均维护一阶动量 $v$ 和二阶动量 $y$ ），同样表现出优越性（见图4）。研究者还指出，诸如NAdam和AdamW等Adam变体所采用技术与RAD互补，未来工作将探索将这些技术整合到RAD中，以期进一步提高性能。

为评估RAD在受扰动环境中的鲁棒性，研究者进一步在Walker2d任务中针对不同观测噪声水平进行了对比实验。结果表明（见图5），RAD因其出色的保辛性质（保留原动力学系统的稳定演化和收敛特性），展现出对噪声的显著抵抗力。即使在最高噪声水平下，RAD性能下降也相对较小，仅为3.4%；相比之下，NAdam的性能下降达到了10.9%。

最后，为了验证RAD在处理复杂现实世界任务中的有效性，研究者在模拟城市路口的自动驾驶任务中进行了测试。结果显示，使用RAD训练出的自动驾驶汽车通过率达93.2%，显著优于使用Adam优化器的89.5%。

以上结果证明了RAD优化器在RL基准测试中达到SOTA性能，且适用于复杂现实世界应用，RAD的这一特性使其成为解决各类RL训练任务（特别是那些对长期稳定性和收敛性能有高要求的复杂任务）的一个强有力的优化工具。

速度系数消融实验

为探究速度系数 $\delta$ 对RAD训练稳定性的影响，研究者选择在Humanoid任务中进行消融实验，该任务在训练过程中易出现异常大的梯度值。如图6所示，当 $\delta$ 设为1时，RAD相较于Adam展现出较小波动。当 $\delta$ 增加至5时，RAD在训练初期的振荡抑制作用更加显著。

研究者指出， $\delta$ 控制了参数更新的最大速度，即 $\| \theta_{k+1} - \theta_k \|_{\infty} \leq \alpha / \delta$ 。因此，选择较大的 $\delta$ 可有效防止参数发生剧烈变化，从而增强RAD在面对异常梯度时的鲁棒性和恢复能力。

保辛因子消融实验

为研究保辛因子 $\zeta$ 对RAD自适应能力的影响，研究者在Hopper任务上开展了消融实验，该任务在训练过程中易产生方差异常大的梯度序列。如图7所示，当RAD采取固定的保辛因子 $\zeta = 1 \times 10^{-16}$ （即退化为Adam优化器）时，训练曲线出现了严重振荡。然而，将 $\zeta$ 增加到 $1 \times 10^{-6}$ 后，这种不稳定现象得到显著改善。

研究者强调，较大的 $\zeta$ 能够通过降低二阶动量 $y_{k+1}$ 对有效学习率 $\alpha_k$ 的影响来抑制RAD的自适应性，从而使参数更新对具有显著方差的梯度序列更加稳健。因此，考虑到RAD内置 $\zeta$ 的退火机制，其自然具备了稳定训练过程的能力。

参考链接
https://ieeexplore.ieee.org/document/10792938
https://arxiv.org/abs/2412.02291

深度强化学习实验室

【开源开放、共享共进】强化学习社区\x26amp;实验室，分享推动DeepRL技术落地与社区发展，社区 deeprlhub.com

清华团队提出RL专用神经网络优化器，性能位居榜首

【第二弹】强化微调，用少量样本训练专家模型

【清华大学】当鲁棒控制遇到强化学习：零和博弈视角的非线性拓展

【重磅】阿尔伯塔大学提出“Stream-X”强化学习新范式，无需经验重放、目标网络或批量更新。

强化学习之父Sutton万字采访：炮轰深度学习只是瞬时学习，持续学习才是智能突破的关键

开放式物理RL环境空间，智能体零样本解决未见过人类设计环境！

控制系统可控性检验理论的变革：从模型驱动到数据驱动

【图灵奖得主Yoshua Bengio】提出强化学习新策略，解决策略KL正则化漏洞问题。

【NeurlPS2024分享】北航提出“结构信息原理指导的高效智能体探索”(末尾附开源代码)

【Nature重磅】AlphaChip，谷歌用强化学习设计多代TPU芯片速度超越人类，开源预训练代码

【清华北大腾讯等】联合综述OpenAI o1背后的自博弈(Self-Play)方法原理与技术细节

【重磅发布】OpenAI o1模型(草莓)问世，五级AGI再突破！使用「强化学习」再立大功。

【Nature重磅】RL教父Rich. S. Sutton提出持续反向传播算法，Mujoco中效果良好，深度学习还不如浅层网络？

【清华大学】李升波教授团队总结“强化学习和模型预测控制的区别与联系”

【顶会速递】RLC2024—128篇Accept论文汇总

【首届RL领域会议】Barto、Sutton、Sliver师徒3代，7篇杰出论文奖，独有论文评审机制公布。

【重磅头条】Agent Q智能体发布，利用自我对弈和强化学习, 实现自我纠正和自主改进！

【人物观点】RLHF 只是勉强 RL，前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别

【滴滴实习生招聘】强化学习项目落地(有转正机会)

【重磅快讯】强化学习大牛John Schulman离职OpenAI, 曾开发PPO|TRPO等, 领导OpenAI强化学习团队！

【重磅最新】OpenAI为RL设计出新的奖励机制

【字节招聘】强化学习智能体研究员

【顶会速递】清华大学提出“利用强化学习破解火箭回收过程的控制难题”

【粉丝福利】抽奖赠书《GPT图解：大模型是怎样构建的》

【腾讯招聘】游戏AI强化学习算法研究员

从文字模型到世界模型！Meta新研究让AI Agent理解物理世界

【重磅开源】LeCun新作Puppeteer=基于强化学习+数据驱动+视觉全身人形控制方法

【好书力荐】大规模语言模型与强化学习：从理论到实践(文末抽奖赠送5本)

【最新综述！】「大模型+强化学习」详解四条主流技术路线

【今日头条招聘】机器人强化学习研究员(2024届优先)

重磅 | 南栖仙策发布强化学习工业决策软件REVIVE 1.0

【开放源码】强化学习经典教材《RL for Sequential Decision and Optimal Control》

【腾讯招聘】强化学习岗位汇总

【吴恩达来信】AI智能体的黎明时刻

【LSTM之父Schmidhuber总结博客】利用循环世界模型和人工好奇心进行强化学习和规划

Richard Sutton ||智能决策器通用模型的探索

【Nature重磅】DeepMind数学模型AlphaGeometry，做对25道几何题，GPT-4惨败得0分

2023计算机科学7项重大突破！「P与NP」50年经典难题，大模型密集涌现上榜

论文分享| AAAI 2024 北航开源社交机器人行为对抗仿真计算平台SIASM，高效提升网络行为对抗能力

【真伪鉴别】OpenAI内幕文件惊人曝出，Q*疑能破解加密！是否具有元认知能力？

新书《面向工业控制的强化学习理论与方法》

【书籍推荐】清华大学李升波教授撰写《面向工业控制的强化学习理论与方法》

OpenAI神秘Q*项目解密！诞生30+年「Q学习」算法引全球网友终极猜想

【官方公布】2023中国科学院院士、中国工程院增选当选院士名单公布

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉