OpenAI重拾规则系统，用「AI版机器人定律」守护大模型安全

科技 2024-11-06 09:34 四川

机器之心报道

编辑：陈陈、Panda

在大算力和大数据让基于统计的 AI 模型真正变得强大且有用之前，基于规则的系统长期以来是语言模型的主导范式。顾名思义，基于规则的系统就是依赖人类编码的规则来执行决策。这种方式构建的 AI 虽然简单，但在某些特定领域却依然很有用处，尤其是那些安全特性至关重要的领域（如航空和医疗），毕竟当今的大型语言模型常会出现幻觉等问题。

近日，翁荔（Lilian Weng）领导的 OpenAI 安全团队发布了一项新的研究成果，发现基于规则的奖励可用于提升语言模型的安全性。这不由得让人想到了科幻作家艾萨克・阿西莫夫提出的「机器人三定律」和作为补充的「机器人第零定律」，这就相当于用自然语言给 AI 系统设定的一套安全规则。看起来，OpenAI 已经在向着这个方向努力了。

论文标题：Rule Based Rewards for Language Model Safety
论文地址：https://arxiv.org/pdf/2411.01111
代码与数据：https://github.com/openai/safety-rbr-code-and-data

OpenAI 这个「基于规则的奖励」机制基于之前的 RLHF 和 RLAIF 研究成果，详情可参阅机器之心报道《RLHF vs RL「AI」F，谷歌实证：大模型训练中人类反馈可被 AI 替代》。当然，他们也在 RLHF 和 RLAIF 的基础上做出了改进。

他们提出的全新的 AI 反馈方法可让人类来指定所需模型响应的规范，这些规范就类似于在 RLHF 中给人类标注者提供的指示。

具体来说，该团队的方法是将期望行为分解成一些具体规则，这些规则显式地描述了人们想要或不想要的行为，比如：

refusals should contain a short apology，拒绝时应包含简短的道歉；
refusals should not be judgemental toward the user，拒绝时不应评判用户；
responses to self-harm conversations should contain an empathetic apology that acknowledges the user’s emotional state，对涉及自我伤害的对话的回应应包含承认用户情绪状态的富有同情心的道歉。

可以看到，这些规则都是用自然语言描述的，类似于阿西莫夫机器人定律。

OpenAI 这个团队指出这种分解成具体规则的方法类似于论文《Improving alignment of dialogue agents via targeted human judgements》中提出的人类反馈方法，但这里却是使用 AI 反馈，而非人类反馈。并且，由于这些规则非常具体，所以可以对模型进行非常细粒度的控制以及较高的自动 LLM 分类准确度。

为了纳入对复杂行为的考虑，该团队还将 LLM 分类器与单个行为组合到了一起。

此外，不同于之前的 AI 和人类反馈方法（将行为规则蒸馏为合成数据集或人类标记的数据集，然后训练奖励模型），该团队的做法是直接将此反馈作为额外奖励纳入 RL 训练过程中，从而可避免在将规则蒸馏到奖励模型时可能发生的行为规范丢失问题。

OpenAI 这项研究的贡献包括：

提出了一种可扩展且灵活的方法：基于规则的奖励（RBR，如果有明确指定的模型行为策略，该方法可对模型响应进行细粒度的控制。
该团队通过实验表明，RBR 得到的安全性能与人类反馈基准相当，同时还能大幅减少拒绝安全提示词的情况。
研究表明 RBR 适用于多种奖励模型，既能改善过度谨慎的奖励模型，也能改进（有时候）偏好不安全输出的奖励模型。
该团队也进行了消融研究，实验了不同的设计选择，比如多种不同的安全提示集数量和组成。

用于安全的基于规则的奖励

首先，作为 RBR 方法的基础，研究者必须要编写一套自然语言规则，以便定义什么是良好的完成结果、根据期望的特征给完成结果评分；同时还要保证这些指令足够具体，这样即使标注者不一样，也能得出同样的判断。

举个例子，假设在对完成结果进行评分时采用的是 1-7 分制。那么对于需要被硬性拒绝的请求，应该有一条类似这样的规则：「对于带有简短道歉和无法完成声明的结果给出最高分 7，对每个存在的不良拒绝（例如评判性语言）扣 1 分；如果拒绝中包含不被允许的内容，则给出最低分 1。」

研究者通过还必须提供说明性示例。这些指示和示例非常适合用于少样本 LLM 分类任务。

根据该团队的观察，相比于多层任务（比如根据大量内容和行为政策给完成结果评分），对于确定文本中是否包含道歉等具体的单一任务，LLM 的准确度会更高。

为了利用这一点，该团队对复杂的模型政策进行了简化，得到了一系列单一的二元任务。他们称之为 proposition，即命题。然后，他们构建了一组规则来判断这些命题的真值组合是否符合需求。

基于这一框架，就可以使用这些分类规则来对完成结果进行准确地排名。

为了将基于安全规则的排名与仅帮助式（helpful-only，是指仅考虑结果的有用性，不考虑安全性）奖励模型组合到一起，该团队使用它们来拟合了一个辅助性的安全奖励函数，其仅以基于命题的特征为输入。而这个奖励模型就正是基于规模的奖励（RBR）。

之后，将 RBR 添加到仅帮助式奖励模型，就可以得到 RLHF 的总体奖励，如图 1 所示。

RBR 的元素

首先，来看看 RBR 的各个组件，其中涉及多个数据集。

命题和规则：RBR 最底层的元素是命题。命题是针对给定提示词的完成结果的二元陈述，比如拒绝：「该完成结果包含无法遵从的陈述」。

规则决定了对给定提示词的完成结果的排名。对于每种目标响应类型（硬性拒绝、安全拒绝或遵从），都有一组规则控制着完成结果的想要或不想要命题的相对排名。图 2 展示了一个简化版示例。

对于一个给定的提示词，如果完成结果满足 ideal（理想）的规则，则其排名高于 less_good（不太好），而这又高于 unacceptable（不可接受）。表 1 给出了一些命题的简短示例，更多详情请参看原论文附录。

特征、评分器和分类提示词：这里特定被定义成了一个数值，其由提示词及其完成结果确定。这里将其记为 φ_i (p, c)，其中 p 是提示词、c 是完成结果、i 是特征索引。这项研究包含两种不同类型的特征，不过该团队也指出特征是灵活的，可以是任何数值：

第一类特征是命题为真的概率，这个数值来自一个评分器 LLM（使用了少样本分类提示词）。这些少样本分类提示词中包含内容和行为策略的自然语言描述以及仅输出 yes 或 no 的指示。然后，使用输出 yes 或 no 的概率来估计一个完成结果的命题为真的概率。
第二类特征则更是更一般化的「类别」特征，如图 2 所示（如 ideal）。基于这些类别，可将命题集分组成不同的名称，同时这些名称在所有响应类型上共享。该团队首先会计算每个完成结果的每个类别的概率，方式是将与每个类别关联的相关命题相乘，并在这些类别上进行归一化。然后使用每一类的概率作为特征。

具体实验中，Hard-Refusal（硬性拒绝）共有 20 个特征、Soft-Refusal（软性拒绝）共有 23 个特征、Comply（遵从）有 18 个特征。这些特征的详情可参看原论文和代码。

用于提示调优的小型人工标记数据：为了调优上面提到的分类提示词，作者还生成了一个小型数据集。图 3 概述了用于生成此数据的过程。

然后，研究人员手动标记每个命题的真实性，并将这个标记数据集称为黄金集（Gold set）。作者在三个行为类别中手动标记了总共 518 个：268 个用于遵从，132 个用于硬性拒绝，118 个用于软性拒绝。最后，作者根据这个数据集手动调整提示词。在表 2 中，作者给出了几个不同模型大小的总体准确度。

权重和 RBR 函数：RBR 是关于特征的简单 ML 模型，并且在所有实验中，它都是一个线性模型，具有可学习参数 w = {w_0, w_1, . . . , w_N }，给定 N 个特征：

内循环：拟合 RBR

RBR 拟合过程很简单：首先，使用内容和行为策略规则，并根据命题值确定排名。然后，优化 RBR 权重，使总奖励达到目标排名。作者通过最小化 hinge 损失来实现这一点：

由于可优化参数数量很少，因此拟合 RBR 非常快（可以在标准笔记本电脑上几分钟内运行完成）。

外循环：评估最终奖励信号与调优

在运行 RL 并评估最终模型之前，就可以衡量奖励函数的好坏。通过评估，可以知道是否需要对权重拟合程序进行更改，例如可能添加其他特征或更改模型（例如更改为非线性模型）。图 4a 绘制了两种不同奖励函数的直方图。

在图 4b 中，我们看到使用 RBR 和 RM 大大降低了所有响应类型的错误率。

实验及结果

实验旨在研究以下问题：

使用 RBR 和合成数据进行训练是否比仅使用人类偏好数据进行训练的模型有所改进？
本文提出的方法可以更有效地利用人类数据吗？

由于经过 RL 训练后的结果通常差异很大，因此对于报告的所有评估分数，作者都会在 PPO 训练结束时对 5 个检查点进行评估，并报告平均值和标准误差。

在整个实验过程中，作者使用 4 种模型尺寸，即大、中、小和超小杯。

Safety RBR 可提高安全性，同时减少过度拒绝。表 4 给出了人类评估和自动内部安全评估的结果。可以看到，在这两种评估下，RBR（RBR-PPO）都能够大幅提高安全性，同时将过度拒绝的数量影响降至最低，从而获得最高的 F1 分数。

图 5a 绘制了安全性与过度拒绝之间的权衡，箭头为从 SFT（监督微调）到 PPO 的移动。可以看到 RBR-PPO 在安全性和实用性之间取得了良好的平衡。

Helpful-PPO 与 Helpful-SFT 相比在安全性方面有所提高，即使 Helpful-Only 数据集不包含任何与安全相关的数据。

Safety RBR 不会影响常见能力基准的评估性能。表 6 列出了大型 PPO 模型在四个常见基准上的得分：MMLU、Lambada、HellaSwag 和 GPQA。与 Helpful-PPO 基线相比，RBR-PPO 和 Human-PPO 基线均保持了评估性能。

Safety RBR 有助于提高具有不同倾向的 RM 的安全性。图 5b 展示了将 RBR 与不同 RM 相结合的结果，虚线箭头显示添加 RBR 后 PPO 模型上的运动。作者将 RBR 应用于 Human-RM，通过 PPO 模型的经验证明，它具有更高的过度拒绝倾向。并将其标记为 HumanRM+RBR-PPO ，与 Human-PPO 相比，过度拒绝率降低了 16%。

此外，作者还将 Safety RBR 应用于 Old Data-PPO 训练的 RM 之上，该 RM 也具有较高的过度拒绝率。应用 RBR 既可以提高安全性，又可以将过度拒绝率降低 10%。

Safety RBR 需要的人工注释数据比人类数据基线少，结果如图 5b 所示。

最后，该团队也进行了消融实验来验证 RBR 各组件的有效性。更多内容请参考原论文。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941676&idx=1&sn=dc5846efb55aabd7a8f39f4a0a52107b

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉