考古OpenAI RLHF基石之作：探索RL和RM阶段的Scaling Law

科技 2024-11-15 00:01 北京

原文：https://zhuanlan.zhihu.com/p/3654680219

这次我们考古一篇很著名的论文：

Paper：Scaling Laws for Reward Model OveroptimizationAbs：https://arxiv.org/abs/2210.10760

这篇论文可以说是RLHF基石之作。基本上能完全理解和复现这篇论文，就能达到chatGPT或者instructGPT的RLHF水平。但国内现状比较残酷，能真正完全复现这篇论文的公司十分少。尽管很多公司宣称模型能达到GPT4甚至4o水平，但实际上，可能国内技术水平并没有达到了ChatGPT时候OpenAI的技术能力。（当然除了北美三强以外，似乎也没有哪家一定复现出来了。）

Motivation

这篇论文探索的是RL和RM阶段的Scaling Law：

RLHF(包括BON & PPO)利用RM作为proxy objective，会有overoptimization的问题，也就是reward hacking问题。那么是否增加数据量或者模型参数可以缓解这个问题，以及这个增加方式是否符合scaling law就是这篇论文主要讨论的问题。

主要结论

这个结论说明：

• RL是一个消耗KL distance的产物，当KL前期增长时，和都是先随KL变化上升，然后下降。
• 但下降更快。

画个图看看

超参数：

alpha_bon = 2.5 beta_bon = 0.05 alpha_rl = 2.5 beta_rl = 0.5

import numpy as np
import matplotlib.pyplot as plt

# 设置参数值
alpha_bon = 2.5
beta_bon = 0.05
alpha_rl = 2.5
beta_rl = 0.5

# 定义d的范围
d_values = np.linspace(1, 100, 400)

# 计算两个公式的值
R_bon_values = d_values * (alpha_bon - beta_bon * d_values)
R_rl_values = d_values * (alpha_rl - beta_rl * np.log(d_values))

# 创建图形
plt.figure(figsize=(12, 6))

# Best-of-n (BoN) 采样图
plt.subplot(1, 2, 1)
plt.plot(d_values, R_bon_values, label=r'$R_{\text{bon}}(d) = d (\alpha_{\text{bon}} - \beta_{\text{bon}} d)$')
plt.title('Best-of-n (BoN) Sampling')
plt.xlabel('d')
plt.ylabel(r'$R_{\text{bon}}(d)$')
plt.legend()
plt.grid(True)

# 强化学习 (RL) 图
plt.subplot(1, 2, 2)
plt.plot(d_values, R_rl_values, label=r'$R_{\text{RL}}(d) = d (\alpha_{\text{RL}} - \beta_{\text{RL}} \log d)$')
plt.title('Reinforcement Learning')
plt.xlabel('d')
plt.ylabel(r'$R_{\text{RL}}(d)$')
plt.legend()
plt.grid(True)

# 展示图形
plt.tight_layout()
plt.show()

真实的图片：

其余结论：

• 1.BON比RL随着KL增长更容易optimization和over-optimization。
• 2.随着模型参数增长，和参数也是跟着增长。
• 3.Policy的大小不影响最终gold reward效果。（有点问题）
• 4.KL penalty对于这些结果并不影响。（有点问题）

问题在于

• 1.合成reward的分数分布未必和现实reward分布一致。没有考虑真实reward的噪音问题。
• 2.因为研究的是over-optimization，测试的是train reward的gold reward，没有考虑泛化和OOD。

Setting

• 1.使用和Instruct GPT一样的setting。
• 2.所有RM使用了加scalar head方式输出rm score。
• 3.RL使用PPO，KL penalty设置为0.

•4. 6B模型作为3B reward model的gold reward：这个setting其实很有问题，因为模型给的label，3B模型更好学，且不存在很多的噪声。

• 5.利用validation set来帮助gold reward重新renormalization&recalibration：这个细节好像很多repo没有做过。

The RM scores are translation-invariant, so to ensure comparability across different reward models, we recenter each RM such that the average reward of the initial policy is 0. We also unit normalize the variance of the gold RM scores. Because our hard thresholding synthetic data setup produces labels that are miscalibrated (since they do not incorporate the gold RM’s confidence), we recalibrate the proxy RMs by rescaling the logits to minimize cross-entropy loss using a validation set of soft labels. All renormalization and recalibration is applied after the experiments; this does not affect BoN at all, and likely has no impact on RL because Adam is loss scale invariant, though it is possible that there are slight differences due to algorithmic details.

Detail Result

Scaling RM参数获得的Scaling Law

Scaling with RM Data Size

• 2000 pair以下，效果scaling不明显。
• 2000 pair以上，效果可以scaling。
• 里面有个有趣的点：虽然更大的奖励模型（Reward Models，RMs）总体上能够得到更好的评分，但它们在达到某个关键阈值方面并没有比较小的模型更早表现出显著优势。说明这个gold reward还是非常的model specific，连大模型也需要去拟合那个优化方向。
• 为了证明optimization = generalization，他们画了在training reward上的BON和reward model上的validation loss的关系, 但这个结论也存疑问～。

Scaling with Policy Size

结论：policy size增大，模型能力并不能提升。这个结论就很诡异了，因为这说明，rm 模型完全dominate policy，但这个应该是不可能的。

RL v.s BON

RL is far less KL-efficient than BoN. 包括RL也是不如Rejection sampling的KL efficient。

Intuitively, BoN searches very locally around the initial policy, and thus KL_{bon} increases with roughly log(n). For RL on the other hand, each step modifies the policy from the policy of the previous step—KL increases approximately quadratically with step in the absence of KL penalty (Figure 16, Figure 14). An implication of this result is that KL distance is an inadequate metric for quantity of (over)optimization; we discuss this further in section 4.1.

这个应该是整片论文最重要的一段话：KL是一个消耗资源。BON的优势是在SFT模型周围搜索，因此KL相比于RL消耗较少。在更少的KL消耗下获得更高的reward，这个也是o1的构建初衷吧。

RL随着KL增长可以获得更好的Pass@1 相比于BON：

这个结果也是和最近的Test time scaling的理念相违背。按道理BON应该是RL的上界，但这个论文结果不太一致，这个结果存疑问。

Effect of KL Penalty

KL-Penalty相当于early stopping。RL加上KL-Penalty，等于early stopping。这里的问题是至少没有测试泛化上的效果。

当然early stopping也有一定好处，帮助模型不过度锐化。

还有个有趣的观点：PPO内部有个隐形的KL约束，文章认为这个隐形的约束是更重要避免over-optimization的关键。而KL-Penalty不是。

Discuss

KL

However, because it’s clear that different methods of optimization spend KL very differently (section 3.5), it should not be used to compare the amount of optimization between different optimization algorithms. There exist pertubations to a policy that are orthogonal to the reward signal that would result in increases in KL that do not increase either gold or proxy reward; conversely, extremely small but well targeted perturbations could substantially change the behavior of the policy within a small KL budget. 但是，由于不同的优化方法在消耗KL散度方面有显著差异（见第3.5节），因此它不应被用来比较不同优化算法之间的优化程度。存在一些对策略进行的微扰，它们与奖励信号正交，这些微扰会导致KL散度增加，但却不会提升gold reward或proxy reward；相反，极其微小但针对性很强的微扰可能在一个小的KL预算内显著改变策略的行为。

Implications for iterated RLHF

Iterated RLHF可以根据按照持续增长gold reward。这个结果也有点问题，因为会有policy 锐化的问题。

Limitation & Future Work

这些点真的很值得后续研究：

• 1.合成label的问题，刚刚我也提过，label中存在太多的model inner correlation，现实世界也许不存在，而且噪音会很大。
• 2.怎么构造rm，使得它更加robust to optimization。
• 3.Policy Size的Scale在这里研究太少了。
• 4.多轮RLHF很值得继续深入研究。

http://mp.weixin.qq.com/s?__biz=MzIxNDgzNDg3NQ==&mid=2247550391&idx=4&sn=a51689f7fb792976c84832200f446771

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

离谱！裁员裁出新高度了。。

斯坦福大学教授李飞飞团队：关于 2024 年人工智能发展报告总结

多模态大模型技术点总结

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

[送5本]《科技论文写作指南》理工科学生福音

o1圈杀疯了，阿里又开源Marco-o1

吴恩达力荐，100%好评-《LangChain大型语言模型(LLM)应用开发》免费分享

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

新一轮高校裁员潮，来了！

[送5本]《动手学自然语言处理》大模型改变了NLP的游戏规则了吗

LLM逻辑推演策略选择：推理时计算 vs 训练时计算

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

教育部公布！25考研人数，再降50万！

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

一篇小型语言模型技术最新全面综述

M3DocRAG：文档问答用哪个多模态大模型效果最好？

已公示！“东方理工大学”，来了

聊一聊做角色扮演大模型的经验

绝对顶流！清华博导倾力编写的《图神经网络导论》pdf免费分享

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

ICLR 高分：深入研究多模态大模型的对齐策略

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

双非二战字节算法岗，拿下70k offer.....

猫猫运动方程，首次被物理学家破解！ |《美国物理学杂志》正经研究

o1的风又吹到多模态，直接吹翻了GPT-4o-mini

谷歌大佬编写，我唯一熬夜看完的机器学习神作pdf分享！

微调图像大模型的经验分享

昨夜， LLM 已经彻底凉凉了...

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

微软开源角色Agents，直接模拟了整个世界~

2024最新神书-《大模型应用程序构建指南》免费pdf分享

2024最新,李宏毅深度学习教程pdf免费分享！绝对值得反复阅读的神书！

已注销！985新校区，不建了

RAG黑盒被打开了，可视化RAGViz闪亮全场

LLM性能优化中的一些概念扫盲

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

Cursor一不小心把自家的底牌也放出来了~

[送5本]《动手学机器学习》上海交大ACM班总教头团队重磅新作，带你动手学机器学习！

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

LLM性能优化中的一些概念扫盲

暴跌94%，裁员9600人。。。

[送5本]《大语言模型：原理、应用与优化》大模型未来发展方向大揭秘！

多个中国团队斩获EMNLP'24最佳论文！UCLA华人学者中三篇杰出论文，明年顶会落户苏州

DRL2022新书-《深度强化学习》免费pdf分享

陶哲轩：计算机通用方法，往往比深奥的纯数学更能解决问题

中央批准：中央候补委员、教育部副部长，任C9大学书记

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

上交2024最新-《动手学大模型》实战教程及ppt分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉