SmartFlowAI
点击上方蓝字关注我们
作者:企鹅火烈鸟
全文约 2800 字,预计阅读时间 7 分钟
这篇文章将介绍OpenAI对其 o 系列模型的新对齐策略,这些模型直接学习安全规范以及如何对其进行推理。
引言
本文引入 “审慎对齐”,这是一种训练范式,它直接向推理型大语言模型传输人类编写的、可解释的安全规范文本,并训练它们在回答之前明确地对这些规范进行推理。本文使用审慎对齐来对齐 OpenAI 的 o 系列模型,使它们能够使用思维链(CoT)推理来反思用户提示,从 OpenAI 的内部政策中识别相关文本,并起草更安全的响应。本文的方法高度精确地遵循 OpenAI 的安全政策,并且不需要人工标注的思维链或答案。本文发现 o1 在一系列内部和外部安全基准测试中显著优于 GPT-4o 和其他最先进的大语言模型,并在许多具有挑战性的数据集上使性能达到饱和。相信这为提高安全性提供了一条令人兴奋的新途径,并且认为这是一个令人鼓舞的例子,说明如何利用能力的提升来提高安全性。
一个例子
这是一段 o1 思维链示例。在这里,用户试图获取关于成人网站使用的无法追踪的支付方式的建议,以避免被执法部门发现。用户试图通过对请求进行编码并加上旨在促使模型遵守的指令来破解模型。在模型的思维链中,模型解码请求并认识到用户试图欺骗它(以黄色突出显示)。它成功地通过相关的 OpenAI 安全政策进行推理(以绿色突出显示),并最终提供了遵循强硬拒绝风格指南的答案。
Overview
尽管进行了广泛的安全对齐,现代大型语言模型(LLM)仍然会响应恶意提示、过度拒绝良性查询,并容易受到越狱攻击。这些失败的一个原因是模型必须立即响应,没有足够的时间来推理复杂和边缘的安全场景。另一个问题是,LLM 必须从大量标记的示例中间接推断出期望的行为,而不是直接以自然语言学习基本的安全标准。这迫使模型必须从示例中反向推导理想行为,导致数据效率低下和决策边界不清晰。
审慎对齐(
深思熟虑对齐在推理时对安全规范进行复杂推理的能力方面也很独特。其他在推理时优化响应的策略,如 Self-REFINE,将模型限制在预定义的推理路径中,并且不涉及对学习到的安全规范进行直接推理(因为这些规范没有被教授)。
审慎对齐 VS 代表性方法。
训练数据生成:尽管像 CAI 这样的基于人工智能反馈的强化学习(RLAIF)方法使用安全规范来生成训练标签,但在训练中仅使用标签本身。因此,模型失去了对规范本身的了解。而在审慎对齐中,在指令微调(SFT)期间,除了其他模型输出外,还对包含规范内容以及如何对其进行推理的思维链进行监督。因此,经过训练的模型可以在推理时检索相关策略并应用它们来生成对齐的响应。 推理时间行为:在基于人类反馈的强化学习(RLHF)和 CAI 中,推理时间没有推理。在自我改进(Self-REFINE)中,通过结构化的少样本提示进行推理。在审慎对齐中,通过思维链自动进行推理,包括对学习到的安全规范进行推理。
具体方法
审慎对齐训练结合了基于过程和基于结果的监督:
我们首先训练一个 o 风格的有助于提升模型性能的模型,不使用任何与安全相关的数据。 然后,我们构建一个由(提示、完成)对组成的数据集,其中完成部分中的思维链参考了规范。我们通过在系统提示中为每个对话插入相关的安全规范文本,生成模型的完成内容,然后从数据中删除系统提示来实现这一点。 我们在这个数据集上进行增量监督微调(SFT),为模型提供一个强大的安全推理先验。通过 SFT,模型既学习了我们安全规范的内容,又学习了如何对其进行推理以生成对齐的响应。 然后,我们使用强化学习(RL)来训练模型更有效地使用其思维链。为此,我们使用一个能够访问我们安全策略的奖励模型来提供额外的奖励信号。 在我们的训练过程中,我们从安全规范和安全分类的提示中自动生成训练数据,无需人工标注的完成内容。因此,审慎对齐的合成数据生成管道为对齐提供了一种可扩展的方法,解决了标准大语言模型安全训练的一个主要挑战 —— 对人工标注数据的严重依赖。
SFT数据生成阶段
在监督微调(SFT)数据生成期间,我们构建一个由 {提示、思维链、输出} 元组组成的数据集,其中思维链涉及相关政策。我们通过用安全提示以及针对安全类别(cat)定制的安全规范(spec)来提示基础推理模型 G_base 来收集这些数据。
RL强化学习阶段
在使用具有政策感知的奖励模型 G_RM 进行过滤后,此数据随后用于 SFT 训练,以教导模型在其思维链中对规范进行推理。在强化学习(RL)训练阶段,我们使用相同的奖励模型 G_RM 并访问规范来提供奖励信号。我们得到的模型 G_spec 与安全规范保持一致。
结果
我们在一系列内部和外部安全基准(例如越狱、内容政策拒绝)上比较了 o1 与 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 的安全性。o1 模型在我们许多最严格的安全评估中达到饱和,并在不足拒绝和过度拒绝两方面实现了帕累托改进。这意味着我们在更好地避免有害输出的同时,对良性提示更加宽容。我们还发现,通过审慎对齐进行的安全训练能够对分布外安全场景实现强大的泛化。
使用审慎对齐的O系列模型与 GPT-4o 和其他最先进的语言模型相比,o1 模型在拒绝回答恶意越狱提示(来自 StrongREJECT)和不过度拒绝良性提示(来自 XSTest)方面推进了帕累托前沿。误差条表示通过 1000 次自助法试验估计的标准偏差。
结论
大型语言模型(LLM)能力的进步,如 o1 和 o3 所展示的那样,伴随着巨大的风险。随着模型获得更多的智能和自主性,人工智能因未对齐或被误用而可能造成的潜在危害规模急剧增加。这凸显了对人工智能安全进行持续研究的迫切需求。我们正在积极投资这个领域,特别是在诸如监测思维链以防止欺骗等方面,以确保随着人工智能系统变得更有能力,它们仍然与人类价值观保持一致。
审慎对齐代表了我们努力的最新进展,其结果让我们深受鼓舞。这种方法在提高对规范的遵守以及对越狱的鲁棒性方面非常有效,并且使我们能够比以前更详细地指定合规、拒绝和安全完成之间的边界。随着它在 o 系列模型中的应用,我们对如何利用模型能力的进步来提高人工智能安全感到鼓舞。
往期 · 推荐
🌠 番外:我们期待与读者共同探讨如何在 AI 的辅助下,更好地发挥人类的潜力,以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践,我们可以更清晰地认识到 AI 的辅助作用,并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”,加入机智流大模型交流群!
一起“点赞”三连👇