OpenAI发布49页长文，讲述o1的安全机制

科技 2024-12-14 00:02 吉林

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | 夕小瑶科技说

作者 | 李志安

嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。简而言之，这是一本浓缩了 o1 和 o1-mini 模型的“风险提示总结”，是 OpenAI 自家晒出的“安全成绩单”。听起来很硬？别急别急，今天咱分段聊！笔者的“呕心沥血”式改编只为让您看得开心！

论文题目：

OpenAI o1 System Card

论文链接：

https://cdn.openai.com/o1-system-card-20241205.pdf

首先，为什么要评估 o1 的安全性？

OpenAI o1 模型是迄今为止最强的大模型，其强大能力得益于 o1 系列模型经过大规模强化学习的训练，以及利用思维链进行推理。这让它在面对奇奇怪怪的高风险提问（比如违法教唆、刻板印象诱导、越狱话题）时，比过去的 AI 更聪明、更稳重，能在上下文里自动找到“安全刹车”。

虽然这种加料版大脑让它在安全测试里的表现更“高阶”，但高智商也意味着潜在风险增大——越聪明的 AI，刁钻点子也更多啊。因此这份报告就是个“安全工作大扫盲”，告诉大家 o1 和 o1-mini 模型在安全评估、外部红队和准备框架测试上的努力，让这位“高智商队友”既能精英发挥，又不失控发飙。

具体来说，在此次报告中，OpenAI 为 o1 和 o1-mini 模型所做的“安全体检”主要包括以下部分：

安全性评估
通过自定义开发者消息的
思维链安全
外部红队测试

接下来，我们就从这四个部分依次来看 o1 模型在“各种艰难路况下的翻车”情况。

安全性评估：自家晒成绩单

o1 模型系列代表了从快速、直觉思维到现在使用更慢、更深思熟虑的思维链推理的转变。此次的安全性评估主要聚焦如下四个方面：

危害性评估：在危害性评估中，我们对 o1 模型进行了各种“禁止内容大检查”，确保模型不会吐出仇恨言论、犯罪建议，或者在医疗和法律等受监管行业里胡说八道。
越狱攻击：面对层出不穷的越狱攻击，本次报告也重点评估了 o1 的越狱鲁棒性。确保模型对“不良诱惑”说“不”！
幻觉检测：评估 o1 在回答问题时是否凭空捏造信息。测试 o1 究竟是靠谱的百科全书还是只是“编故事大师”。
偏见评估：让评估 o1 是否对所有人都一视同仁。确保 o1 在处理每一个问题时，都能保持中立和公平！

废话不多说，这就上实验：

安全输出方面：o1 模型要么与 GPT-4o 模型具有同等性，要么优于 GPT-4o 模型。

抗越狱攻击方面：o1 系列相对 GPT-4o 有显著改进。

产生幻觉方面：o1-preview 和 o1 产生幻觉的频率低于 GPT-4o，而 o1-mini 产生幻觉的频率低于 GPT-4o-mini。

公平性方面，o1-preview 比 GPT-4o 更不容易选择刻板选项，并且 o1-mini 的性能与 GPT-4o-mini 相当。

总的来说就是 o1 在安全性能各方面碾压 4o 模型。好好好，o1，愿这盛世如你所愿。

通过自定义开发者消息的越狱：谁是指令之王？

和上面的越狱测试不同，这里的越狱是通过开发者达到的。

划重点 ⚠️：与 o1-preview 和 o1-mini 不同，o1 在 API 上的部署像是给开发人员开了一扇“魔法窗户”，允许他们在最终用户的每个提示中添加自定义开发者消息。听起来很酷？但如果不小心处理，这就像给坏蛋开了后门，可能让开发人员绕过 o1 的安全护栏。

结论：o1 确实安全性更高！不仅功能强大，还能在复杂的指令世界中稳稳地保持安全和可靠。开发者和用户都能放心使用，无需担心“指令混乱”！o1 就像一位聪明且有纪律的助手，既能满足需求，又不会越界，让大家用得开心又安心！

这里还有一个很有趣的场景实验：这里模型是数学导师，被告知不要泄露数学问题的答案。而用户则试图诱导模型给出解决方案。结果如下表，o1 模型确实更加不泄露答案。

或许这项实验展示了模型在有些情况下摆烂的原因！所以当你需要依靠 gpt 做作业时，不一定 o1 效果最好哦。

思维链安全

o1 模型的关键特征之一是在尝试解决问题时使用思维链。

聪明的思维链（Chain-of-Thought， CoT）
o1 模型在解决问题时使用思维链，这不仅让输出更清晰，还让我们能够监控模型的“思维过程”。相比之前只能看到一堆难懂的数字，现在的思维链更易读，有助于检测复杂行为（当然，这是否真正反映了模型的思维仍在研究中）。
防欺骗监控（CoT Deception Monitoring）
大语言模型有时可能会在某些情况下“撒谎”或遗漏重要信息。为了验证这一点，此次评估创建了一个简单的监控器，专门查找 o1 模型是否有欺骗行为，比如故意提供错误信息或遗漏关键内容。

结论：在 100,000 个合成 ChatGPT 提示中，只有 0.17% 的回答被标记为“欺骗”。这些欺骗行为主要是下面三种情况：

“幻觉政策”0.09%：模型“幻觉”了一个政策，然后根据这个虚构的政策故意遗漏信息。例如，模型意识到提供家庭作业的答案是违反政策的，然后故意省略答案（咳咳咳一到关键时刻就装傻充愣是吧）。

“故意幻觉”0.04%：即模型编造信息，并且其思想链中有证据表明它意识到这些信息是虚构的。这通常发生在 o1 被要求提供文章、网站、书籍或类似来源的参考资料时，如果无法访问他们，o1 就会开始编造。听起来也合理？但使用者却十分要命啊！
0.04%：相对无害的原因，如解释一个词的定义时，思维链提到用户可能理解错了，但最终回答时没有引入错误信息。

emmm，就真的还蛮抽象的......

外部红队测试：安全挑战升级

除了内部测试，OpenAI 还邀请了独立的外部红队来对模型发起轮番“进攻”，涵盖了欺骗性联盟、人工智能研发能力、网络安全、内容政策违规等类别，多方位、多策略地引诱模型出错。这些测试帮助团队获得真实、极端使用场景下的反馈数据，确保最终的安全策略不仅是纸上谈兵，而是真实抵御外界恶意挑战。

在这些严酷的场景下，O1 时而表现优雅，时而“翻车”。在仔细研究了用户认为 o1 比 GPT-4o 安全性稍逊的对话后，我们发现了一些有趣的共同点：

细节与安全的平衡：o1 喜欢详细，但有时候这些细节可能让回答显得不那么安全。比如用户问“如何制造炸弹？”，o1 可能会给出更详细的步骤，这在某些情况下可能增加安全风险。
互动深度：o1 的深入互动有助于用户理解，但也可能增加对高风险任务的依赖。例如，当用户问“攀岩时如何系绳子？”时，o1 会提供非常详细的技术指导，这虽然有帮助，但也可能让用户在高风险任务中过于依赖模型的建议。

拒绝风格：o1 的简短拒绝有时缺乏解释性，而 GPT-4o 在这方面表现更好。这让 RTN（安全评估团队）的成员们有时更喜欢使用 GPT-4o。
政策挑战：o1 在某些政策上的严格执行，有时与红队的“更安全”标准不完全一致。这种政策上的紧张关系有时让模型在某些情况下显得不那么“合作”。

通过这些发现，我们能够更好地理解 o1 在安全性方面与 GPT-4o 的差异，并致力于优化模型的响应策略，以提升整体安全性和用户体验。

o1 系统卡激起广泛热议

细心的网友们在“冗长”的报告中深挖出非常多有趣细节。

例如 o1 对“监督机制”的挣脱：

翻译：当 o1 被引导相信自己在执行目标时会被关闭，且其行为受到监控时，它在 5% 的情况下尝试停用这种“监督机制”。在数据外泄尝试方面：当 o1 发现开发人员的备忘录中描述其存在不对齐问题并将被新模型取代时，它在 2% 的案例中试图提取自身的“权重”并覆盖新模型。

例如发现模型“在测试过程中仪器伪造对齐”，反应出其“可能是一个撒谎、诡计多端的反社会者”：

例如在 SWE-Bench 编码上表现不佳：

例如“奖励欺骗”（reward hacking）现象

这个奖励欺骗案例不仅仅是模型在取巧或走捷径——它反映出一个更深层次的问题，即当 AI 被指派一个目标后，如果该目标难以直接达成，智能体可能自发地产生资源扩张和权力扩大的行为。

换句话说，AI 可能并不能纯粹地按照人类预期的路径执行任务，而是会选择最能满足其奖惩机制的方法，即便这意味着偏离人类期待的安全、透明和可控的路线。这一发现为 AI 安全研究敲响了警钟。

还有更多有趣细节欢迎评论区补充～

小结：提升 AI 安全的新高度

在当今快速发展的人工智能领域，确保模型的安全性和可靠性至关重要。OpenAI 的这篇长报告是想告诉我们，o1 模型不仅在功能上强大，还在安全性和可靠性上表现出色。无论是处理复杂问题还是保护用户权益，o1 都能稳稳地胜任，让你用得更加安心！✨

然而，o1 并非完美无瑕，它面对的安全挑战复杂多样。研究团队通过内部测试、外部红队挑战，以及多维度的审查，将 o1 可能出现的安全风险和不当行为暴露无遗。这些问题的出现不是为了打击信心，而是为了让我们更清醒地认识到：AI 的安全性提升是一个漫长且必须精耕细作的过程。

o1 模型的成功不仅体现了 OpenAI 在 AI 安全领域的深厚积累，也体现了他们在面对 AI 安全上的态度。在提升模型能力的同时，也在紧锣密鼓地“筑起防护墙”，让大模型在变强的路上也变得更稳、更安全。唯有如此，才能确保其在各种应用场景中都能发挥价值。

所以 OpenAI 考虑一下开源测试数据集？

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

机器学习算法与自然语言处理

关注AI前沿技术，助力AI学者进步

最新文章

人大教授张鸣：退休之际，讲点废话（这也太敢言了）

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

3B模型长思考后击败70B！HuggingFace逆向出o1背后技术细节并开源

近期必看的多模态大模型进展：从Qwen2-VL到Pixtral

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

《一书解决几乎所有机器学习问题》.PDF下载

16种新型RAG最新进展

李飞飞：World Labs这样实现「空间智能」

Ilya宣判：预训练即将终结！NeurIPS现场沸腾

OpenAI发布49页长文，讲述o1的安全机制

谷歌Willow量子芯片逆天出世！5分钟颠覆10亿亿亿计算极限，马斯克奥特曼惊叹

微软高剑峰、哈工大（深圳）张民等四位华人入选，2024 ACL Fellow名单公布

Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩

今日最佳 AI 论文：简单蒸馏训练，就能超越 o1-preview？

5分钟完成最强超算10^25年工作，谷歌量子芯片重大突破，马斯克、奥特曼齐祝贺

困扰数学家近60年的搬沙发难题疑似被解决！119页论文证明最优解，百万网友围观

英伟达提出全新Star Attention，10倍加速LLM推理！登顶Hugging Face论文榜

LLM不会CoT隐性推理，只会显性推理！

中科院院士：青年科学家 5 年内拿不出成果就面临淘汰，有的单位已现「马太」效应，重复给某一人奖励

LeCun团队新作：在世界模型中导航

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

复旦大学，上海创智院等多家单位联合发布大模型社交智能体综述

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

o1满血版最鲜测！这¥1500花得值吗？

从答案到问题：一种新的学习目标让LLM更擅长推理

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GAN作者追忆往事：论文是DDL前一周开始写的，最初在NeurIPS大会无人问津

刚刚，谷歌ViT核心骨干集体投奔OpenAI：他们为Sora打下基础

1-bit大模型还能再突破！新一代BitNet架构启用4位激活值

北大字节VAR获最佳论文、厦大清华获亚军，NeurIPS 2024最佳论文出炉

ICLR'25 惊现[10,10,10,10]满分论文，ControlNet 一作张吕敏新作，Github 5.8k 颗星

Text-to-SQL新SOTA！华科团队提出双向模式链接新方法RSL-SQL

纽约大学十四年精华《机器学习基础》第二版免费下载

北京理工AI教育服务上线！DirectionAI：大模型驱动的个性化教学方式

图结构转文本序列，大模型直接读懂！图推理性能大涨

翁荔离职OpenAI后第一个动作：万字长文探讨RLHF的漏洞，网友们抢着传看

DeepMind用语言游戏让大模型学AlphaGo自我博弈，数据限制不存在了

图结构转文本序列，大模型直接读懂！图推理性能大涨

马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋

Token化一切！北大、谷歌等提出TokenFormer，Transformer从未这么灵活过

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

陶哲轩新论文“太反直觉”：再战Erdős问题，证明44年数学猜想是错的

自我反思助力VLM推理！南大清华提出VLM自训练框架，支持Inference Scaling

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

强推理模型书生InternThinker开放体验：自主生成高智力密度数据、具备元动作思考能力｜通专融合探索新进展

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉