o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

科技 2024-12-21 21:54 北京

SmartFlowAI

点击上方蓝字关注我们

作者：企鹅火烈鸟
全文约 2800 字，预计阅读时间 7 分钟

这篇文章将介绍OpenAI对其 o 系列模型的新对齐策略，这些模型直接学习安全规范以及如何对其进行推理。

引言

本文引入 “审慎对齐”，这是一种训练范式，它直接向推理型大语言模型传输人类编写的、可解释的安全规范文本，并训练它们在回答之前明确地对这些规范进行推理。本文使用审慎对齐来对齐 OpenAI 的 o 系列模型，使它们能够使用思维链（CoT）推理来反思用户提示，从 OpenAI 的内部政策中识别相关文本，并起草更安全的响应。本文的方法高度精确地遵循 OpenAI 的安全政策，并且不需要人工标注的思维链或答案。本文发现 o1 在一系列内部和外部安全基准测试中显著优于 GPT-4o 和其他最先进的大语言模型，并在许多具有挑战性的数据集上使性能达到饱和。相信这为提高安全性提供了一条令人兴奋的新途径，并且认为这是一个令人鼓舞的例子，说明如何利用能力的提升来提高安全性。

一个例子

这是一段 o1 思维链示例。在这里，用户试图获取关于成人网站使用的无法追踪的支付方式的建议，以避免被执法部门发现。用户试图通过对请求进行编码并加上旨在促使模型遵守的指令来破解模型。在模型的思维链中，模型解码请求并认识到用户试图欺骗它（以黄色突出显示）。它成功地通过相关的 OpenAI 安全政策进行推理（以绿色突出显示），并最终提供了遵循强硬拒绝风格指南的答案。

Overview

尽管进行了广泛的安全对齐，现代大型语言模型（LLM）仍然会响应恶意提示、过度拒绝良性查询，并容易受到越狱攻击。这些失败的一个原因是模型必须立即响应，没有足够的时间来推理复杂和边缘的安全场景。另一个问题是，LLM 必须从大量标记的示例中间接推断出期望的行为，而不是直接以自然语言学习基本的安全标准。这迫使模型必须从示例中反向推导理想行为，导致数据效率低下和决策边界不清晰。

审慎对齐（Deliberativealignment）克服了这两个问题。它是第一种直接向模型传授其安全规范文本并在推理时训练模型对这些规范进行深思熟虑的方法。这会产生更安全的响应，并且能够根据给定的上下文进行适当调整。相比之下，先前的对齐方法，包括基于人类反馈的强化学习（RLHF）和基于人工智能反馈的强化学习，例如宪法人工智能（CAI），仅使用安全规范来生成训练标签。规范本身并不会提供给模型。

深思熟虑对齐在推理时对安全规范进行复杂推理的能力方面也很独特。其他在推理时优化响应的策略，如 Self-REFINE，将模型限制在预定义的推理路径中，并且不涉及对学习到的安全规范进行直接推理（因为这些规范没有被教授）。

审慎对齐 VS 代表性方法。

训练数据生成：尽管像 CAI 这样的基于人工智能反馈的强化学习（RLAIF）方法使用安全规范来生成训练标签，但在训练中仅使用标签本身。因此，模型失去了对规范本身的了解。而在审慎对齐中，在指令微调（SFT）期间，除了其他模型输出外，还对包含规范内容以及如何对其进行推理的思维链进行监督。因此，经过训练的模型可以在推理时检索相关策略并应用它们来生成对齐的响应。
推理时间行为：在基于人类反馈的强化学习（RLHF）和 CAI 中，推理时间没有推理。在自我改进（Self-REFINE）中，通过结构化的少样本提示进行推理。在审慎对齐中，通过思维链自动进行推理，包括对学习到的安全规范进行推理。

具体方法

审慎对齐训练结合了基于过程和基于结果的监督：

我们首先训练一个 o 风格的有助于提升模型性能的模型，不使用任何与安全相关的数据。
然后，我们构建一个由（提示、完成）对组成的数据集，其中完成部分中的思维链参考了规范。我们通过在系统提示中为每个对话插入相关的安全规范文本，生成模型的完成内容，然后从数据中删除系统提示来实现这一点。
我们在这个数据集上进行增量监督微调（SFT），为模型提供一个强大的安全推理先验。通过 SFT，模型既学习了我们安全规范的内容，又学习了如何对其进行推理以生成对齐的响应。
然后，我们使用强化学习（RL）来训练模型更有效地使用其思维链。为此，我们使用一个能够访问我们安全策略的奖励模型来提供额外的奖励信号。
在我们的训练过程中，我们从安全规范和安全分类的提示中自动生成训练数据，无需人工标注的完成内容。因此，审慎对齐的合成数据生成管道为对齐提供了一种可扩展的方法，解决了标准大语言模型安全训练的一个主要挑战 —— 对人工标注数据的严重依赖。

SFT数据生成阶段

在监督微调（SFT）数据生成期间，我们构建一个由 {提示、思维链、输出} 元组组成的数据集，其中思维链涉及相关政策。我们通过用安全提示以及针对安全类别（cat）定制的安全规范（spec）来提示基础推理模型 G_base 来收集这些数据。

RL强化学习阶段

在使用具有政策感知的奖励模型 G_RM 进行过滤后，此数据随后用于 SFT 训练，以教导模型在其思维链中对规范进行推理。在强化学习（RL）训练阶段，我们使用相同的奖励模型 G_RM 并访问规范来提供奖励信号。我们得到的模型 G_spec 与安全规范保持一致。

结果

我们在一系列内部和外部安全基准（例如越狱、内容政策拒绝）上比较了 o1 与 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro 的安全性。o1 模型在我们许多最严格的安全评估中达到饱和，并在不足拒绝和过度拒绝两方面实现了帕累托改进。这意味着我们在更好地避免有害输出的同时，对良性提示更加宽容。我们还发现，通过审慎对齐进行的安全训练能够对分布外安全场景实现强大的泛化。

使用审慎对齐的O系列模型与 GPT-4o 和其他最先进的语言模型相比，o1 模型在拒绝回答恶意越狱提示（来自 StrongREJECT）和不过度拒绝良性提示（来自 XSTest）方面推进了帕累托前沿。误差条表示通过 1000 次自助法试验估计的标准偏差。

结论

大型语言模型（LLM）能力的进步，如 o1 和 o3 所展示的那样，伴随着巨大的风险。随着模型获得更多的智能和自主性，人工智能因未对齐或被误用而可能造成的潜在危害规模急剧增加。这凸显了对人工智能安全进行持续研究的迫切需求。我们正在积极投资这个领域，特别是在诸如监测思维链以防止欺骗等方面，以确保随着人工智能系统变得更有能力，它们仍然与人类价值观保持一致。

审慎对齐代表了我们努力的最新进展，其结果让我们深受鼓舞。这种方法在提高对规范的遵守以及对越狱的鲁棒性方面非常有效，并且使我们能够比以前更详细地指定合规、拒绝和安全完成之间的边界。随着它在 o 系列模型中的应用，我们对如何利用模型能力的进步来提高人工智能安全感到鼓舞。

往期 · 推荐

苹果Mac用户的福音来啦！ChatGPT深度集成，还有AGI彩蛋等你挖！

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

🌠 番外：我们期待与读者共同探讨如何在 AI 的辅助下，更好地发挥人类的潜力，以及如何培养和维持那些 AI 难以取代的核心技能。通过深入分析和实践，我们可以更清晰地认识到 AI 的辅助作用，并在 AI 时代下找到人类的独特价值和发展空间。“机智流”公众号后台聊天框回复“cc”，加入机智流大模型交流群！

一起“点赞”三连👇

机智流

共赴 AI 时代浪潮~

最新文章

Qwen开源视觉推理模型QVQ，更睿智地看世界！

聊聊大模型推理系统之 Sarathi

英特尔新款游戏显卡卖爆！24G大显存版也在路上，这下AI玩家也要抢？

又媲美 ChatGPT!? Qwen2.5 技术报告详解

回顾OpenAI系列发布会，对未来 AI 行业走向存在哪些潜在影响

HF Weekly01: Qwen2.5 tech report领衔

o3发布，OpenAI提出全新对齐范式，通过SFT和RL直接教会LLM结合安全策略进行CoT复杂推理

速报：OpenAI o3发布｜阿里Qwen2.5开源并发布技术报告

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

Late Chunking×Milvus：如何提高RAG准确率

GitHub Copilot推出免费订阅｜豆包推出视觉理解模型，千tokens仅3厘｜Meta和斯坦福大学合作推出多模态模型

谷歌版o1突发即屠榜！思考速度比所有模型快5倍，能解摩斯代码，数学物理秒秒钟解决

苹果Mac用户狂喜！ChatGPT深度集成应用，最后再藏AGI彩蛋

GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

OpenAI 年底「百亿补贴」来了，满血 o1 API 开放，成本暴跌，定制升级

聊聊大模型推理系统之 vLLM：PagedAttention 助力内存管理

Datawhale x 机智流 “AI+硬件”开源教程共建项目来啦！

AI周报：快手联合浙大、清华推出多视角视频生成模型 | ChatGPT Projects上线 | 微软推出的14B参数小语言模型

OpenAI重磅推出ChatGPT Projects功能，让ChatGPT更容易管理！网友：这是几日来最有用的发布

「AI定义汽车」新拐点已至！小米孟二利：我们有三个工作需要做好 | MEET 2025

OpenAI版“Her”正式上线，GPT能实时视频通话+屏幕共享了！德扑AI之父：比 o1“更受宠”的模式降临

吴恩达DeepLearning.AI课程系列 - 大模型检索增强生成（五）：问题回复

周中报：全球首个“AI 程序员”Devin全面开放|谷歌Gemini2发布，全面狙击o1模型|苹果智能正式集成ChatGPT

OpenAI高调“暗示”AGI产品发布？苹果三系统正式集成ChatGPT：iPhone16一键启动多模态

具身智能机器人的行业画像

AI周报：英伟达因涉嫌垄断被立案调查 | OpenAI正式发布Sora | Meta Google 各自发布新模型

突破闭源封锁！InternVL 2.5 革新开源多模态模型格局？

首个VR端3D角色扮演AI发布！南洋理工公开SOLAMI技术报告，端到端VLA模型驱动，唱跳都能陪你玩

聊聊大模型推理系统之 Orca：大模型推理系统开山之作

OpenAI的强化微调：RL+Science 创造新神还是灭霸？

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

OpenAI圣诞推出惊喜、商业策略却惹争议，谷歌Genie 2单图即可生成3D游戏世界，亚马逊Nova以超快输出惊艳亮相

2024 AI 产品经理大会，这个周末，不见不散～

OpenAI的第一份礼：ChatGPT Pro和o1 Pro mode，但我们真的需要吗

以通专融合方式构建AGI——路径与关键问题探索｜CNCC2024

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

具身智能的数据采集主流路径

AI周报：腾讯开源目前最强视频生成大模型 | 李飞飞 WorldLabs 发布革命性的单图3D场景生成技术

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

最强开源文生视频！腾讯混元 HunyuanVideo对外开放并全面开源

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

10万元奖金池！第三届生成式 AI 应用创新挑战赛来啦！

ICLR 惊现[10,10,10,10]满分论文，ControlNet 作者新作，Github 5.8k 颗星

Kimi悄悄开源了自家推理框架Mooncake~

大模型迎拐点时刻？中国生成式AI大会上海站最终议程公布，50+重磅嘉宾集聚畅谈

使用大语言模型进行自动且多功能的评估

速报：O1模型扎堆发布的一周

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉