最好的监工就是自己--用 GPT4 来给 GPT4 纠错,OpenAI 基于 GPT4 训练出 GPT4 专用纠错模型

文摘   2024-06-28 01:50   英国  

“🤖 CriticGPT 简介


我们开发了一个基于 GPT-4 的模型,称为 CriticGPT,用来捕捉 ChatGPT 代码输出中的错误。我们发现,当人们在 CriticGPT 的帮助下审查 ChatGPT 代码时,有 60% 的时间表现优于未接受帮助的人。我们正在将类似 CriticGPT 的模型集成到我们的 RLHF(从人类反馈中强化学习)标签流水线中,为我们的训练师提供明确的 AI 帮助。这有助于我们评估高级 AI 系统的输出,这些系统的输出可能难以用传统方法进行评估。


📈 什么是 RLHF?


驱动 ChatGPT 的 GPT-4 系列模型通过“从人类反馈中强化学习”(RLHF)进行了调优,以便更好地帮助和互动。RLHF 的一个关键部分是收集对比数据,AI 训练师根据这些数据对不同的 ChatGPT 响应进行评分。


🔍 发现微小错误的难题


随着我们在推理和模型行为方面的进步,ChatGPT 变得越来越准确,它的错误也变得更加微妙。这使得 AI 训练师在错误发生时难以发现,从而使得推动 RLHF 的对比任务更加困难。随着模型逐渐变得比任何提供反馈的人都更博学,这可能会使模型的调优变得越来越困难。


🛠️ 如何训练 CriticGPT?


我们训练了 CriticGPT 来撰写评论,突出 ChatGPT 答案中的不准确之处。虽然 CriticGPT 的建议并非总是正确的,但我们发现它们可以帮助训练师捕捉到比没有 AI 帮助时更多的问题。当人们使用 CriticGPT 时,AI 增强了他们的技能,产生的评论比人类单独工作时更全面,且产生的幻觉错误也比模型单独工作时更少。在我们的实验中,第二个随机训练师更喜欢人类+CriticGPT 团队的评论,而不是未接受帮助的人类的评论,超过了 60% 的时间。


🧪 CriticGPT 的训练方法


CriticGPT 也使用 RLHF 进行了训练,类似于 ChatGPT。但与 ChatGPT 不同的是,它看到大量包含错误的输入,然后必须对其进行评论。我们要求 AI 训练师手动将这些错误插入 ChatGPT 编写的代码中,然后撰写示例反馈,仿佛他们发现了自己刚插入的错误。同一个人随后对修改后的代码的多个评论进行比较,这样他们就可以轻松分辨出评论是否发现了他们插入的错误。在我们的实验中,我们研究了 CriticGPT 是否能够发现插入的错误和先前训练师发现的“自然发生的” ChatGPT 错误。我们发现,训练师更喜欢 CriticGPT 的评论,而不是 ChatGPT 的评论,在 63% 的自然发生错误案例中尤为如此,部分原因是新的评论模型产生的“吹毛求疵”(不帮助的小抱怨)和幻觉问题更少。


我们还发现,通过使用额外的测试时搜索对评论奖励模型,我们可以生成更长和更全面的评论。这个搜索过程允许我们在代码中查找问题时进行平衡,并在幻觉和检测到的错误数量之间进行精确召回权衡。这意味着我们可以生成对 RLHF 尽可能有帮助的评论。更多细节请参见我们的研究论文。


🚧 CriticGPT 的局限性


 1. 短答案训练:我们训练 CriticGPT 所用的 ChatGPT 答案都相对较短。为了监督未来的智能体,我们需要开发帮助训练师理解长而复杂任务的方法。

 2. 幻觉问题:模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯标签错误。

 3. 分散错误:有时现实世界的错误可能分布在答案的多个部分。我们的工作重点是可以在一个地方指出的错误,但未来我们需要解决分散的错误。

 4. 复杂任务评估:CriticGPT 能提供的帮助是有限的:如果任务或响应非常复杂,即使专家在模型帮助下也可能无法正确评估它。


🚀 下一步


为了对日益复杂的 AI 系统进行调优,我们需要更好的工具。在 CriticGPT 的研究中,我们发现将 RLHF 应用于 GPT-4 有助于人类生成更好的 GPT-4 RLHF 数据。我们计划进一步扩大这项工作并付诸实践。


👥 作者和致谢


作者

Nat McAleese, Maja Trębacz


致谢

Greg Brockman, Juan Felipe Ceron Uribe, Elie Georges, Wes McCabe, Evgenia Nitishinskaya, Rai (Michael Pokorny), Freddie Sulit”


原文链接:

https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

牛村木木山
鹅厂产培\x26amp;VX产品萌新@牛津大学生即刻ID:牛村木木山
 最新文章