NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

科技 2024-12-29 22:00 广东

↑ 点击蓝字关注极市平台

作者丨智能驾驶课题组

来源丨智能驾驶课题组

编辑丨极市平台

极市导读

清华大学智能驾驶课题组在NeurIPS 2024上发表的研究成果DACER，这是一种结合扩散模型和在线强化学习的算法，能够产生多模态动作分布，并提出了基于高斯混合模型的熵正则化方法来提升性能。DACER通过将扩散模型的反向过程作为策略函数，显著提升了在线强化学习算法的整体性能，并在MuJoCo基准测试中取得了优异的结果。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

本文介绍清华大学智能驾驶课题组（iDLab）在 NeurIPS 2024 发表的最新研究成果《Diffusion Actor-Critic with Entropy Regulator》。该算法创新性地将扩散模型的反向过程作为策略函数，使在线强化学习算法能够产生多模态动作分布。此外，本文提出了基于高斯混合模型的熵正则化方法，显著提升了算法的整体性能。该研究工作由清华大学2023级研究生王以诺在李升波教授指导下完成。

Arxiv地址：https://arxiv.org/pdf/2405.15177

代码链接：https://github.com/happy-yan/DACER-Diffusion-with-Online-RL

1 背景

在线强化学习（Online Reinforcement Learning, Online RL） 作为人工智能领域解决复杂序列决策问题的核心方法之一，其应用范围持续扩展。在智能博弈、机器人控制及自动驾驶等传统应用领域取得显著成果的同时，强化学习技术正在大语言模型（Large Language Models, LLM）的微调优化、价值对齐及推理增强等关键环节发挥重要作用。然而在大多数传统的在线强化学习算法中，策略函数通常被参数化为可学习的高斯分布，这限制了它们表达复杂策略的能力。

扩散模型作为一种生成模型因其强大的拟合多模态分布能力而广为人知。它通过逐步添加和移除噪声来学习原始数据分布，在图像和视频生成领域表现出色。在RL中，策略网络可以被视为一种状态条件生成模型。Online RL通过与环境交互来学习控制策略，而Offline RL无需与环境互动，主要从先前收集的数据中学习策略[1]。在实际应用中，许多控制问题都有优秀的模拟器，使用Offline RL并不合适，因为具有互动能力的Online RL表现更佳。然而，扩散模型直接用于Online RL可能遇到的问题包括：

扩散模型的损失函数项本质上是一种模仿学习损失项，但与Offline RL不同，Online RL中并不存在可供模仿的数据；
扩散模型的反向过程无法进行解析求熵，这使得其难以与最大熵强化学习框架相结合，从而导致算法收敛性能不佳。

为了解决上述的问题，清华大学研究团队提出了一种基于扩散模型的在线强化学习算法DACER（Diffusion Actor-Critic with Entropy Regulator） 。我们将DACER建立在去噪扩散概率模型（DDPM）[2]的基础上。受到Kaiming He[3]启发，扩散模型的表示能力主要来源于反向扩散过程而非正向，因此我们将扩散模型的反向过程重新概念化为一种新的策略近似函数，利用其强大的表示能力来提升RL算法的性能。这个新策略函数的优化目标是最大化期望Q值。在RL中，最大化熵对于策略探索至关重要，但扩散策略的熵难以解析确定。因此，我们选择在固定间隔处采样动作，并使用高斯混合模型（GMM） 来拟合动作分布，可计算每个状态下策略的近似熵。这些熵的平均值之后被用作当前扩散策略熵的近似。最后，我们使用估计的熵来平衡扩散策略在训练过程中的探索与利用。

2 DACER的关键技术

2.1 扩散策略表征

将条件扩散模型的反向过程用作参数化策略：

采样过程可以重新表述为：

2.2 扩散策略学习

在Online RL中，由于没有可供模仿的数据集，我们放弃了行为克隆项和模仿学习框架。策略学习的目标是最大化由扩散网络在给定状态下生成的动作的期望Q值：

此外，我们使用课题组提出的分布式Q学习[4]的方法来缓解值函数的过估计问题。然而，直接使用上述扩散策略学习方法进行训练时，会因策略动作过于确定性而导致性能不佳。

2.3 扩散策略与熵调节器

对于每个状态，我们使用扩散策略来采样N个动作，然后使用高斯混合模型（GMM）来拟合策略分布。我们可以通过以下方式估计对应于该状态的动作分布的熵[3]：

类似于最大化熵的RL，我们根据估计的熵学习一个参数α：

最终，我们使用下式在训练的采样阶段调整扩散策略的熵。熵调节机制是解锁探索潜能的关键。

综上所述，DACER算法的整体流程为

3 实验结果

下图为DACER与其他强化学习算法在MuJoCo[6]上的表现对比。图1和表1分别展示了学习曲线和性能策略。在所有评估的任务中，DACER算法始终与所有竞争基准算法的性能相匹配或超越。特别是在Humanoid-v3场景中，DACER相较于DDPG、TD3、PPO、SAC、DSAC和TRPO分别提升了124.7%、111.1%、73.1%、27.3%、9.8%和1131.9%。

为评估策略表征能力，我们将DACER与DSAC、TD3和PPO的性能进行了比较，结果如图2所示。可以看出，DACER的动作倾向于指向不同状态下的最近峰值。DACER的价值函数曲线显示了四个对称的峰值，与之前的分析相符合。相比于DSAC，我们的方法学习到了更优的策略表示，这主要得益于采用扩散模型来参数化策略，而非传统的MLP。相比之下，TD3和PPO的价值函数曲线难以学得四个对称的峰值[7]。总体而言，DACER展示了极佳的策略表征能力。

为展示DACER的多模态能力，我们选择了五个需要多模态策略的点：(0.5, 0.5)、(0.5, -0.5)、(-0.5, -0.5)、(-0.5, 0.5)和(0, 0)。对每个点采样100条轨迹，在图3中绘制。结果显示与DSAC相比，DACER展现了显著的多模态特性。这也解释了为什么只有DACER的Q函数能够学习到几乎完美对称的四个峰值。

在Humanoid-v3任务上，DACER、DSAC、SAC训练收敛后的可视化：

4 总结

本研究中我们提出了一种基于扩散模型的在线强化学习算法DACER（Diffusion Actor-Critic with Entropy Regulator），旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程，DACER能够有效地学习多模态分布，使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵，使其难以与最大熵强化学习结合，导致性能不佳。为了解决这一问题，我们采用高斯混合模型（GMM）来估计熵，从而促进了关键参数α的学习，该参数通过调节动作输出中的噪声方差来实现探索和利用的平衡。在MuJoCo基准测试和多模态任务上的实证测试显示了DACER的优越性能。

5 参考文献

[1] S Eben Li. Reinforcement Learning for Sequential Decision and Optimal Control. Springer Verlag, Singapore, 2023.

[2] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33:6840–6851, 2020.

[3] Saining Xie Xinlei Chen, Zhuang Liu and Kaiming He. Deconstructing denoising diffusion models for self-supervised learning. arXiv preprint arXiv:2401.14404, 2024.

[4] Marco F Huber, Tim Bailey, Hugh Durrant-Whyte, and Uwe D Hanebeck. On entropy approximation for gaussian mixture random vectors. In 2008 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems, pages 181–188. IEEE, 2008.

[5] Jingliang Duan, Yang Guan, Shengbo Eben Li, Yangang Ren, Qi Sun, and Bo Cheng. Distributional soft actor-critic: Off-policy reinforcement learning for addressing value estimation errors. IEEE Transactions on Neural Networks and Learning Systems, 33(11):6584–6598, 2021.

[6] Emanuel Todorov, Tom Erez, and Yuval Tassa. Mujoco: A physics engine for model-based control. In Intelligent Robots and Systems, 2012.

[7] Long Yang, Zhixiong Huang, Fenghao Lei, Yucun Zhong, Yiming Yang, Cong Fang, Shiting Wen, Binbin Zhou, and Zhouchen Lin. Policy representation via diffusion probability model for reinforcement learning. arXiv preprint arXiv:2305.13122, 2023.

公众号后台回复“数据集”获取100+深度学习各方向资源整理

极市干货

技术专栏：多模态大模型超详细解读专栏｜搞懂Tranformer系列｜大视觉模型 (LVM) 解读｜扩散模型系列｜极市直播

技术综述：小目标检测那点事｜大模型面试八股含答案｜万字长文！人体姿态估计(HPE)入门教程

点击阅读原文进入CV社区

收获更多技术干货

极市平台

为计算机视觉开发者提供全流程算法开发训练平台，以及大咖技术分享、社区交流、竞赛实践等丰富的内容与服务。

ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

深度强化学习中SAC算法：数学原理、网络架构及其PyTorch实现

聊一聊大模型六小虎和四大厂的2024！

NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一（昆仑万维等）

AAAI'25开源 | SUTrack：简单的模型，统一全部单目标跟踪任务！

AAAI 2025｜腾讯优图10篇论文入选！深度伪造检测、图像编辑等研究方向

每月都有重磅研究，2024全年值得一读的论文都在这了

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

CUDA-MODE课程笔记｜GPU集合通信(NCCL)

DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

当红炸子鸡 LoRA，是当代微调 LLMs 的正确姿势？

大模型轻量化解读系列 (五)：QuaRot：基于 Rotation 的 4-bit LLM 量化

谈谈DeepSeek-v3在算力约束下的出色工作

我与vLLM的2024：清华大佬的vLLM开发之路

NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA！

实践教程｜图解NumPy，这是理解数组最形象的一份教程了

谷歌劈柴立军令状：必斩OpenAI，夺回第一！

AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

位置编码背后的理论解释——傅里叶特征 (Fourier Feature）与核回归

超越ControlNet++！腾讯优图提出动态条件选择新架构

【CUDA编程】手撸一个大模型推理框架 FasterLLaMA

写代码的时候，请心疼一下读代码的同事

文生图击败所有扩散SOTA方案！智源研究院等提出NOVA：迈向统一的多任务大模型

大模型轻量化系列解读 (四)：LLM.int8()：大语言模型 8-bit 量化初探

AAAI 2025｜多场景行人属性识别基准数据集MSP60K：57个类别和8个特定场景

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

深度学习工作：从追求 SoTA 到揭示新现象

[vLLM vs TensorRT-LLM] #5 动态序列长度场景对比

Meta、斯坦福等：AI的下一个前沿，正是陶哲轩说的形式化数学推理

超越YOLO11和D-FINE！DEIM：最强实时目标检测算法

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

使用 PyTorch 加速生成式 AI 之 GPT Fast

我在 NeurIPS’24 上感受到了焦虑和挫败

NIPS 2024 最佳论文 VAR 深度解读：下一尺度预测为何能超越扩散模型？

统一视觉理解与生成，MetaMorph模型问世，LeCun、谢赛宁、刘壮等参与

使用OpenCV测量图像中物体之间的距离

李飞飞曾入选的AI2050最新名单出炉！清华校友等25位Fellow上榜

恺明新作Fluid：文生图质量刷新纪录

低空经济万字综述｜基于深度学习的无人机检测和识别研究

刚刚，OpenAI元老级研究员Alec Radford离职，他主导了GPT-1、GPT-2的研发

首次实现8K图像生成！南洋理工&阿里&复旦提出FreeScale：让扩散模型解锁更高分辨率

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

[vLLM vs TensorRT-LLM] #4 系统调度schedule比较

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉