ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

教育 2024-07-22 15:00 广东

关注“FightingCV”公众号

回复“AI”即可获得超100G人工智能的教程

吴翼，清华大学交叉信息院助理教授，曾任 OpenAI 全职研究员，研究领域为强化学习，大模型对齐，人机交互，机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位，师从 Stuart Russell 教授；2014 年本科毕业于清华大学交叉信息院（姚班）。其代表作包括：NIPS2016 最佳论文，Value Iteration Network；多智能体深度强化学习领域最高引用论文，MADDPG 算法；OpenAI hide-and-seek 项目等。

如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。

对齐技术中，最重要的算法框架就是根据人类反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）。RLHF 根据人类对大模型输出的偏好反馈，来学习基于人类反馈的奖励函数（Reward Model），并进一步对大模型进行强化学习训练，让大模型在反复迭代中学会辨别回复的好坏，并实现模型能力提升。目前世界上最强的语言模型，比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型，都极其强调 RLHF 训练的重要性。OpenAI 和 Anthropic 内部也都开发了基于大规模 PPO 算法的 RLHF 训练系统进行大模型对齐。

然而，由于 PPO 算法流程复杂，算力消耗大，美国 AI 公司的大规模 RLHF 训练系统也从不开源，所以尽管 PPO 算法非常强大，学术界的对齐工作却一直很少采用复杂的 PPO 算法进行 RLHF 研究，转而普遍使用 SFT（监督微调）或者 DPO（Direct Policy Optimization）等更简化、更直接、对训练系统要求更低的对齐算法。

那么，简单的对齐算法一定效果更好吗？吴翼团队发表在 ICML 2024 的工作 “Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study” 仔细探讨了 DPO 与 PPO 算法的特点，并指出提升 RLHF 算法效果的关键点。在该工作中，吴翼团队基于自研的大规模 RLHF 训练系统，首次采用 PPO 算法及参数量更少的开源模型，在公认最困难的挑战 —— 代码生成任务 CodeContest—— 上超过闭源大模型 AlphaCode 41B。

相关成果被 ICML 2024 录用为 Oral Presentation，并将在 7 月 23 日于 ICML 2024 第一个 Oral session Alignment-1 上和 OpenAI、Anthropic 等知名机构的工作一起进行公开汇报。

接下来让我们对比一下 GPT-4 和经过 PPO 算法训练的 CodeLlama 34B 模型在代码生成上的效果，在例子 1 中，经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型生成了质量相当的代码。

在示例 2 中，可以看到经过 PPO 算法训练的 CodeLlama 34B 模型与 GPT-4 模型都能生成完整并且可运行的 python 代码。然而，在这个例子下，GPT-4 生成了错误的代码，在测试数据上无法正确输出。而经过 PPO 算法训练的 CodeLlama 34B 模型生成的代码可以通过测试。

在 ICML 2024 的这篇论文中，研究团队详细探讨了 DPO 与 PPO 算法的特点，并指出提升 DPO 和 PPO 能力的关键点。

论文标题：Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study
论文地址：https://arxiv.org/pdf/2404.10719

DPO 算法的局限性

相比于 PPO，DPO 使用离线数据而非在线采样数据训练。经分析，DPO 算法会导致训练出的模型对训练数据分布之外的输出产生偏好，在某些情况下产生不可预料的回复。

于是，为了提升 DPO 算法的能力，研究团队总结了两个关键技术：在 RLHF 训练前进行额外的 SFT 训练，以及使用在线采样数据而非离线数据。

实验表明，使用额外的 SFT 训练可以使 base 模型以及 reference 模型更偏向于数据集内的分布，大大提升 DPO 算法效果；另一方面，使用在线采样数据进行迭代训练的 DPO 算法可以得到稳步提升，表现远远优于基础的 DPO 算法。

PPO 算法的关键点

除去 DPO，论文中也总结了发挥 PPO 最大能力的三个关键点：

使用大的批大小（large batch size）
优势归一化（advantage normalization）
以及对 reference model 使用指数移动平均进行更新（exponential moving average for the reference model）。

研究团队成功使用 PPO 算法在对话任务 Safe-RLHF/HH-RLHF 以及代码生成任务 APPS/CodeContest 上达到了 SOTA 的效果。

在对话任务上，研究团队发现综合了三个关键点的 PPO 算法显著优于 DPO 算法以及在线采样的 DPO 算法 DPO-Iter。

在代码生成任务 APPS 和 CodeContest 上，基于开源模型 Code Llama 34B，PPO 算法也达到了最强的水平，在 CodeContest 上超越了之前的 SOTA，AlphaCode 41B。

想要实现效果较好的大模型对齐，高效率的训练系统是不可缺少的，在实现大规模强化学习训练上，吴翼团队有长期的积累，从 2021 年开始就搭建了专属的分布式强化学习框架。

NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games [1]：提出并开源了用于多智能体的强化学习并行训练框架 MAPPO，支持合作场景下的多智能体训练，该工作被大量多智能体领域工作采用，目前论文引用量已超过 1k。
ICLR 2024 Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [2]: 提出了用于强化学习的分布式训练框架，可轻松扩展至上万个核心，加速比超越 OpenAI 的大规模强化学习系统 Rapid。
ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation [3]: 最近，吴翼团队进一步实现了分布式 RLHF 训练框架 ReaLHF。吴翼团队的 ICML Oral 论文正是基于 ReaLHF 系统产出的。ReaLHF 系统经过长时间的开发，经历大量的细节打磨，达到最优性能。相比于之前的开源工作，ReaLHF 可以在 RLHF 这个比预训练更复杂的场景下达到近乎线性的拓展性，同时具有更高的资源利用率，在 128 块 A100 GPU 上也能稳定快速地进行 RLHF 训练，相关工作已开源：https://github.com/openpsi-project/ReaLHF

除了提升大语言模型代码能力之外，吴翼团队还采用多种将强化学习算法和大模型结合的方式，实现了多种复杂 LLM Agent，并可以和人类进行复杂交互。

在 MiniRTS 中使用强化学习既能听从人类指令也能做出最优决策的语言智能体 [4]。

在狼人杀中训练策略多样化的强化学习策略以提升大模型的决策能力 [5]。

在 Overcooked 游戏中结合小模型与大模型实现能进行实时反馈的合作 Language Agent [6]。

结合强化学习训练的机器人控制策略与大语言模型推理能力让机器人能够执行一系列复杂任务 [7]。

为了使大模型能真正走进千家万户，对齐技术是至关重要的，对于学术界和大模型从业者来说，好的开源工作和论文无疑会大大降低实验成本和开发难度，也期待随着技术发展，会有更多服务于人类的大模型出现。

[1] Yu, Chao, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, and Yi Wu. "The surprising effectiveness of ppo in cooperative multi-agent games."

[2] Mei, Zhiyu, Wei Fu, Guangju Wang, Huanchen Zhang, and Yi Wu. "SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores."

[3] Mei, Zhiyu, Wei Fu, Kaiwei Li, Guangju Wang, Huanchen Zhang, and Yi Wu. "ReaLHF: Optimized RLHF Training for Large Language Models through Parameter Reallocation."

[4] Xu, Shusheng, Huaijie Wang, Jiaxuan Gao, Yutao Ouyang, Chao Yu, and Yi Wu. "Language-guided generation of physically realistic robot motion and control."

[5] Xu, Zelai, Chao Yu, Fei Fang, Yu Wang, and Yi Wu. "Language agents with reinforcement learning for strategic play in the werewolf game."

[6] Liu, Jijia, Chao Yu, Jiaxuan Gao, Yuqing Xie, Qingmin Liao, Yi Wu, and Yu Wang. "Llm-powered hierarchical language agent for real-time human-ai coordination."

[7] Ouyang, Yutao, Jinhan Li, Yunfei Li, Zhongyu Li, Chao Yu, Koushil Sreenath, and Yi Wu. "Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models."

往期回顾

基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇（超多图警告）

【CV知识点汇总与解析】| 技术发展篇 (超详细！！！)

ECCV2022 Oral | 微软提出UNICORN，统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE：南大&腾讯联合提出第一个视频版MAE框架，遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP，基于序数提示学习的语言引导有序回归

SlowFast Network：用于计算机视觉视频理解的双模CNN

WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

CVPR2022 | Attention机制是为了找最相关的item？中科大团队反其道而行之！

ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

如何训练用于图像检索的Vision Transformer？Facebook研究员解决了这个问题！

ICLR22 Workshop | 用两个模型解决一个任务，意大利学者提出维基百科上的高效检索模型

See Finer, See More！腾讯&上交提出IVT，越看越精细，进行精细全面的跨模态对比！

MM2022｜兼具低级和高级表征，百度提出利用显式高级语义增强视频文本检索

MM2022 | 用StyleGAN进行数据增强，真的太好用了

MM2022 | 在特征空间中的多模态数据增强方法

ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者

ECCV2022｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

CVPR2022|比VinVL快一万倍！人大提出交互协同的双流视觉语言预训练模型COTS，又快又好！

CVPR2022 Oral｜通过多尺度token聚合分流自注意力，代码已开源

CVPR Oral | 谷歌&斯坦福（李飞飞组）提出TIRG，用组合的文本和图像来进行图像检索

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247530429&idx=1&sn=a6e721bedd92c86fcd7b311cc6a72376

FightingCV

一个专注于解析计算机视觉、多模态方向前沿论文，解答科研问题，分享科研时事的公众号！

最新文章

211本二战字节视觉算法岗，拿下70k offer!!!

字节Chunyuan Li团队提出LLaVA-Critic:学习评估多模态模型

Video-ChatGPT：通过大型视觉语言模型实现详细的视频理解

多注意力深度伪造检测

Infinity-MM：利用大规模高质量指令数据扩展多模态性能

跨模态3D目标检测SOTA！易复现！

Apple提出《对比局部化语言-图像预训练》

TaskCLIP：扩展大型视觉-语言模型以用于面向任务的目标检测

Janus: 解耦视觉编码以实现统一的多模态理解与生成

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

ECCV24 ｜ ControlNet+⁣+: 通过高效一致性反馈改进条件控制

YOLO核心架构的演变路线

BLIP：用于统一视觉语言理解和生成的引导语言图像预训练

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

MMEvol：赋能多模态大型语言模型的 Evol-Instruct

NTU提出Text4Seg: 重塑图像分割为文本生成

BLIP-2作者新作Aria : 一个开放的多模态原生专家混合模型

华为天才少年面试大厂被怼：怎么连Attention都不会？

Mistral发布了其首款多模态模型Pixtral 12B

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

堪比理科博士生的最强AI大模型：GPT-o1技术解析

Google Deepmind提出SigLIP，用于语言图像预训练的 Sigmoid 损失

Apple提出MM1.5：多模态大型语言模型微调的方法、分析和见解

最优大语言模型模型架构深度解析

NeurIPS2024即插即用模块论文合集！

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习

LLaVA-OneVision｜更加高级的LLaVA，轻松的视觉任务转移

对齐器: 通过学习校正实现高效对齐

Emo-DPO：通过直接偏好优化实现可控的情绪语音合成

Jiaya Jia团队提出LLaMA-VID ：一张图片在大型语言模型中值两个token

mamba和Tranformer融合：通过混合架构高效扩展多模态大语言模型到 1000 张图像

小米提出MobileVLM：一种用于增强UI内部和跨UI理解的视觉语言模型

T2I-CompBench：一个用于开放式世界组合式文本到图像生成的综合基准

Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

Llama 3.2全文翻译：通过开放、可定制的模型彻底改变边缘 AI 和视觉

如何提升多模态大模型视觉推理能力？浙大杰青团队的新型自指导方案给出答案

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM：实时应对任意分辨率的时空理解

SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

AAA24 ｜震撼发布！95.3% 像素级 AUC：最强异常检测模型 SOTA 现已开源！

Google推出MaskGIT：革新图像生成的掩码式Transformer

英伟达发布NVLM：超越GPT4o，开源先锋塑造多模态AI新时代

TG-LLaVA｜沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

SAM4MLLM | 增强多模态大型语言模型用于指称表达式分割

CVPR2025投稿规定再次更新

ECCV2024 ｜一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

SpaceX再创历史，人类首次商业太空行走成就达成！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉