【人物观点】RLHF 只是勉强 RL,前OpenAI大牛Andrej Karpathy全面解读与AlphaGo区别

文摘   2024-08-09 09:43   新加坡  

RLHF 只是勉强 RL

强化学习从人类反馈 (RLHF) 是 LLM 训练的第三(也是最后)个主要阶段,在预训练和监督微调 (SFT) 之后。我对 RLHF 的抱怨是,它只是勉强算是强化学习,我认为它并没有得到广泛的认可。强化学习很强大。RLHF 则不然。让我们来看看 AlphaGo 的例子。AlphaGo 是用真正的强化学习训练的。计算机玩围棋游戏,并训练最大化奖励函数(赢得比赛)的回合,最终超越了围棋领域最优秀的人类玩家。AlphaGo 不是用 RLHF 训练的。如果用 RLHF 训练,它的效果就不会这么好

用 RLHF 训练 AlphaGo 会是什么样子?首先,你要给人类标注员提供两种围棋棋盘状态,并问他们更喜欢哪一个:然后,你会收集 100,000 个这样的比较,并训练一个“奖励模型”(RM)神经网络来模仿人类对棋盘状态的“氛围检查”。你会训练它平均同意人类的判断。一旦我们有了奖励模型氛围检查,你就可以针对它运行 RL,学习如何下出能带来良好氛围的棋步。显然,这不会在围棋中产生任何太有趣的结果。这有两个根本的、独立的原因:

1. 氛围可能会产生误导——这不是真正的奖励(赢得游戏)。这是一个糟糕的替代目标。但更糟糕的是, 2. 您会发现您的 RL 优化偏离了轨道,因为它很快发现了与奖励模型相反的棋盘状态。请记住,RM 是一个庞大的神经网络,拥有数十亿个模拟氛围的参数。有些棋盘状态“超出了其训练数据的分布范围”,实际上并不是好状态,但它们却从 RM 获得了非常高的奖励。出于同样的原因,有时我有点惊讶 RLHF 竟然适用于 LLM。我们为 LLM 训练的 RM 只是以完全相同的方式进行的氛围检查。它会对人类评分者在统计上似乎喜欢的助手响应类型给出高分。它不是正确解决问题的“实际”目标,而是人类认为好的代理目标。其次,你甚至不能运行 RLHF 太长时间

因为你的模型很快就会学会以游戏奖励模型的方式做出响应。这些预测看起来很奇怪,例如,你会看到你的 LLM 助手开始对许多提示做出无意义的回应,例如“The the the the the the the”。这在你看来很荒谬,但当你查看 RM 氛围检查时,你会发现出于某种原因 RM 认为这些看起来很棒。你的 LLM 发现了一个对抗性的例子。它超出了 RM 训练数据的领域,处于一个未定义的领域。是的,您可以通过反复将这些特定示例添加到训练集中来缓解这种情况,但下次您会找到其他对抗性示例。因此,您甚至无法运行 RLHF 进行太多优化步骤。您执行了几百/几千步,然后您必须调用它,因为您的优化将开始玩 RM。这不是像 AlphaGo 那样的 RL。然而,RLHF 是构建 LLM Assistant 的一个非常有用的步骤。我认为有几个微妙的原因,但我最喜欢的一个原因是,通过它,LLM Assistant 受益于生成器-鉴别器差距。也就是说,对于许多问题类型,对于人类标注员来说,从几个候选答案中选择最佳答案要容易得多,而不是从头开始写出理想的答案。一个很好的例子是提示“生成一首关于回形针的诗”或类似的提示。普通的人类标注员很难从头开始写一首好诗作为 SFT 示例,但他们可以从几个候选中选择一首好看的诗。因此,RLHF 是一种从人类监督的“容易度”差距中获益的方式。还有其他一些原因,例如 RLHF 也有助于缓解幻觉,因为如果 RM 是一个足够强大的模型,能够在训练期间发现 LLM 编造的东西,它可以学会用低奖励来惩罚这种行为,教会模型在不确定时避免冒险获取事实知识。但对幻觉及其缓解的令人满意的治疗是另一篇完全不同的文章,所以我离题了。总之,RLHF 是*有用的*,但它不是 RL。到目前为止,还没有一个 LLM 上的生产级 *实际* RL 在开放领域得到令人信服的实现和大规模展示。直观地说,这是因为在开放式问题解决任务中获得实际奖励(即相当于赢得游戏)非常困难。在像围棋这样的封闭、类似游戏的环境中,一切都很有趣,因为动态受到限制,奖励函数的评估成本很低,不可能进行游戏。但是,你如何为总结一篇文章提供客观的奖励?或者回答关于某个 pip 安装问题的稍微模棱两可的问题?或者讲个笑话?或者将一些 Java 代码重写为 Python?实现这一点在原则上并非不可能,但也并非易事,需要一些创造性思维。但无论谁能令人信服地解决这个问题,都将能够运行真正的 RL。这种 RL 导致 AlphaGo 在围棋中击败人类。只不过这个 LLM 真的有机会在开放领域解决问题中击败人类。

深度强化学习实验室
【开源开放、共享共进】强化学习社区\x26amp;实验室,分享推动DeepRL技术落地与社区发展,社区 deeprlhub.com
 最新文章