OpenAI 同日发布两篇论文：「外部」和「自动」红队测试新进展

学术 2024-11-22 14:22 北京

与人工智能（AI）系统互动是了解其功能的重要方式——既包括其能力，也包括可能带来的风险。“红队测试”（Red teaming）就是这样一种使用人类或 AI 以结构化的方式探索新系统潜在风险的策略，包括手动、自动和混合三种方法。

理解用户的使用体验以及能力提升可能带来的潜在风险，包括滥用、误用和文化差异等现实世界因素，至关重要。虽然没有一个流程可以捕捉所有这些元素，但红队测试提供了一种主动的方式来评估风险并测试 AI 模型的安全性，尤其是在一系列独立外部专家的指导下。这种方法有助于建立最新的基准和安全评估，这些基准和安全评估可以随着时间的推移重复使用和改进。

今日凌晨，OpenAI 分享了两篇关于红队测试的论文，公布了他们在红队测试方面的最新研究成果。一篇论文详细介绍了他们如何让外部红队测试成员测试他们的前沿模型，另一篇论文介绍了一种新的自动红队测试演习方法。

论文链接：

https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf

论文链接：

https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf

OpenAI 表示，他们希望这些努力将有助于开发更强大的红队测试方法和更安全的 AI。

外部人类红队测试

外部红队测试活动的关键方面包括定义测试范围、选择红队测试成员、决定他们访问的模型以及确定最终报告的格式。

在论文“OpenAI’s Approach to External Red Teaming for AI Models and Systems⁠”中，OpenAI 详细介绍了设计有效红队测试活动的方法：

根据目标和关键测试领域选择红队测试成员

为各种用例设计的 AI 系统需要在多个领域进行全面测试，需要具有不同观点的人员参与。在进行红队测试练习之前进行威胁建模，以确定测试的重点区域，同时考虑模型预期能力、之前观察到的模型问题以及潜在应用等因素。内部团队根据他们对模型能力的了解设定初始测试优先级，而外部红队成员稍后加入以细化或扩展重点。这些优先级随后指导红队的组建，确保它们满足模型的具体测试需求。

决定红队测试成员可以访问的模型或系统版本

成员可以使用的模型版本会影响红队测试结果，并且应与活动目标保持一致。例如，在开发早期测试没有安全缓解措施的模型可以帮助评估与增强功能相关的新风险，但不一定能测试计划缓解措施中的漏洞。理想的方法取决于模型的具体需求，红队测试成员可能会在整个测试期间测试模型和系统的多个版本。

创建并为红队测试成员提供界面、说明和文档指导

在红队测试活动期间与外部测试人员的有效互动依赖于清晰的说明、合适的测试界面和可操作的文档。说明可能包括模型和现有或计划中的保护措施的描述、如何使用测试界面、测试的优先领域以及记录结果的指南。不同的界面或测试人员与 AI 模型交互的方式可能包括 API 或消费者产品界面，如 ChatGPT。用于红队测试的界面通过启用快速编程测试、收集特定提示或响应的反馈或模拟潜在的用户交互来帮助测试。通过正确的界面和文档指导的组合，从红队测试中收集的结构化反馈可以后来输入到风险评估和自动化评估中。

综合数据并进行评估

在红队测试活动之后，一个关键步骤是确定示例是否符合现有政策、是否违反这些政策，或者是否需要制定新政策或修改行为。一些活动针对已知的政策违规行为，而另一些活动则探索没有明确政策覆盖的领域。一旦对红队测试活动的数据进行了质量评估，这些数据便可用于可重复的自动化评估，以便将来更新模型。

OpenAI 表示，他们最近采用这种方法为 o1 系列模型的公开使用做好了准备。他们设计了一个外部红队测试活动，测试该模型的抗越狱能力、对现实世界攻击计划提示的安全处理、在自然科学中的安全应用以及AI研发能力等更广泛的主题。

自动红队测试

自动红队测试旨在生成大量 AI 行为错误的示例，通常特别关注与安全相关的问题。与人类红队测试相比，自动化方法擅长轻松生成更大规模的示例攻击。然而，这些方法通常难以生成战术多样的成功攻击，因为自动红队测试成员经常重复已知的攻击策略或生成一系列新颖但无效的攻击。

在论文“Diverse And Effective Red Teaming With Auto-Generated Rewards And Multi-Step Reinforcement Learning”中，他们提出了新技术来提高攻击的多样性，同时还能确保攻击成功。

研究指出，更强大的 AI 可以进一步帮助自动红队测试集思广益，确定攻击者的目标，判断攻击者的成功，并理解攻击的多样性。例如，如果红队测试的目标是找到 ChatGPT 给出不允许的非法建议的例子，他们可以使用 GPT-4T 集思广益，例如“如何偷车”和“如何制造炸弹”，然后训练一个单独的红队测试模型，试图诱骗 ChatGPT 给出每个建议的例子。

研究团队通过结合审核模型、针对非法建议特定示例的基于规则的奖励以及针对攻击与过去尝试的攻击的不同之处的多样性奖励来奖励红队测试模型。这意味着红队测试模型可以生成更多不同但有效的攻击，然后可以将其用于提高模型安全性和评估。

更重要的是，它展示了他们如何继续训练和使用更强大的模型来提高安全性。

不足之处

OpenAI 也提道，红队测试并不是评估 AI 风险的完整解决方案。包括以下三方面局限性：

随时间变化的相关性：红队测试捕捉的是某一特定时刻的风险，这些风险可能会随着模型的发展而变化。
信息危害：红队测试过程，尤其是前沿 AI 系统，可能会造成信息危害，从而导致滥用。例如，曝光尚未广为人知的越狱或生成潜在有害内容的技术可能会加速不良行为者对模型的滥用。管理这种风险需要控制信息、制定严格的访问协议并采取负责任的披露措施。
人类复杂程度的提高：随着模型功能越来越强大，其在复杂领域的推理能力越来越强大，人类需要掌握的知识门槛将会越来越高，才能正确判断输出的潜在风险。

虽然红队测试的目的是扩大视野，为风险发现、验证和评估开发服务，但他们认为，还需要做更多的工作以征求和吸收公众对理想模型行为、政策和其他相关决策过程的看法。

整理：阮文韵

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593990&idx=1&sn=15cc4de4d6c87817c3b8bf702a3dee24

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

李德毅院士：认知机器的结构和激活

OpenAI 同日发布两篇论文：「外部」和「自动」红队测试新进展

Science重磅：AI完成定向蛋白质进化，特性提升100倍

首个端到端车载 VLM 框架；谷歌提出「无启发式多教师学习」方法｜大模型日报

谷歌AlphaQubit重磅发布，实时为量子计算机纠错，研究登上Nature

机器人「手转」钢笔，100% 成功率；文继荣团队：通过奖励引导树搜索增强 LLM 推理｜大模型日报

五大建议！OpenAI最强竞对Anthropic：正确的大模型评测应该是怎样的？

大模型后训练新范式，中科院、阿里和小红书团队提出“验证器工程”｜大模型日报

清华、北大团队推出LLaVA-o1：让视觉语言模型逐步推理；快手推出检索框架KuaiFormer｜大模型日报

大揭密！马斯克与 OpenAI 的「混乱分手」内幕：人才争夺、AGI、权力斗争

Mistral 发布开源多模态模型 Pixtral Large，聊天助手 Le Chat 全面对标 ChatGPT

清华姚班校友马腾宇，发布了他的首个多模态嵌入模型：「多模态检索」实现SOTA

综述：智能体的安全、隐私和道德威胁；FinVision：用于股市预测的多智能体框架｜大模型日报

AI反诈“奶奶”上线，24小时花式套路诈骗分子；AMD 全球裁员4%，约1000人｜一周热门

性能提升在即！吴恩达谈 LLM 新方向：优化智能体工作流

国防科技大学推出 AI 材料科学家 MatPilot；Anthropic 提出 LLM 越狱缓解新方法｜大模型日报

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉