OpenAI 同日发布两篇论文:「外部」和「自动」红队测试新进展

学术   2024-11-22 14:22   北京  

与人工智能(AI)系统互动是了解其功能的重要方式——既包括其能力,也包括可能带来的风险。“红队测试”(Red teaming)就是这样一种使用人类或 AI 以结构化的方式探索新系统潜在风险的策略,包括手动、自动和混合三种方法。

理解用户的使用体验以及能力提升可能带来的潜在风险,包括滥用、误用和文化差异等现实世界因素,至关重要。虽然没有一个流程可以捕捉所有这些元素,但红队测试提供了一种主动的方式来评估风险并测试 AI 模型的安全性,尤其是在一系列独立外部专家的指导下。这种方法有助于建立最新的基准和安全评估,这些基准和安全评估可以随着时间的推移重复使用和改进。

今日凌晨,OpenAI 分享了两篇关于红队测试的论文,公布了他们在红队测试方面的最新研究成果。一篇论文详细介绍了他们如何让外部红队测试成员测试他们的前沿模型,另一篇论文介绍了一种新的自动红队测试演习方法。

论文链接:
https://cdn.openai.com/papers/openais-approach-to-external-red-teaming.pdf

论文链接:
https://cdn.openai.com/papers/diverse-and-effective-red-teaming.pdf

OpenAI 表示,他们希望这些努力将有助于开发更强大的红队测试方法和更安全的 AI。


外部人类红队测试


外部红队测试活动的关键方面包括定义测试范围、选择红队测试成员、决定他们访问的模型以及确定最终报告的格式。

在论文“OpenAI’s Approach to External Red Teaming for AI Models and Systems⁠”中,OpenAI 详细介绍了设计有效红队测试活动的方法:

  1. 根据目标和关键测试领域选择红队测试成员

为各种用例设计的 AI 系统需要在多个领域进行全面测试,需要具有不同观点的人员参与。在进行红队测试练习之前进行威胁建模,以确定测试的重点区域,同时考虑模型预期能力、之前观察到的模型问题以及潜在应用等因素。内部团队根据他们对模型能力的了解设定初始测试优先级,而外部红队成员稍后加入以细化或扩展重点。这些优先级随后指导红队的组建,确保它们满足模型的具体测试需求。

  1. 决定红队测试成员可以访问的模型或系统版本

成员可以使用的模型版本会影响红队测试结果,并且应与活动目标保持一致。例如,在开发早期测试没有安全缓解措施的模型可以帮助评估与增强功能相关的新风险,但不一定能测试计划缓解措施中的漏洞。理想的方法取决于模型的具体需求,红队测试成员可能会在整个测试期间测试模型和系统的多个版本。

  1. 创建并为红队测试成员提供界面、说明和文档指导

在红队测试活动期间与外部测试人员的有效互动依赖于清晰的说明、合适的测试界面和可操作的文档。说明可能包括模型和现有或计划中的保护措施的描述、如何使用测试界面、测试的优先领域以及记录结果的指南。不同的界面或测试人员与 AI 模型交互的方式可能包括 API 或消费者产品界面,如 ChatGPT。用于红队测试的界面通过启用快速编程测试、收集特定提示或响应的反馈或模拟潜在的用户交互来帮助测试。通过正确的界面和文档指导的组合,从红队测试中收集的结构化反馈可以后来输入到风险评估和自动化评估中。

  1. 综合数据并进行评估

在红队测试活动之后,一个关键步骤是确定示例是否符合现有政策、是否违反这些政策,或者是否需要制定新政策或修改行为。一些活动针对已知的政策违规行为,而另一些活动则探索没有明确政策覆盖的领域。一旦对红队测试活动的数据进行了质量评估,这些数据便可用于可重复的自动化评估,以便将来更新模型。

OpenAI 表示,他们最近采用这种方法为 o1 系列模型的公开使用做好了准备。他们设计了一个外部红队测试活动,测试该模型的抗越狱能力、对现实世界攻击计划提示的安全处理、在自然科学中的安全应用以及AI研发能力等更广泛的主题。


自动红队测试


自动红队测试旨在生成大量 AI 行为错误的示例,通常特别关注与安全相关的问题。与人类红队测试相比,自动化方法擅长轻松生成更大规模的示例攻击。然而,这些方法通常难以生成战术多样的成功攻击,因为自动红队测试成员经常重复已知的攻击策略或生成一系列新颖但无效的攻击。

在论文“Diverse And Effective Red Teaming With Auto-Generated Rewards And Multi-Step Reinforcement Learning”中,他们提出了新技术来提高攻击的多样性,同时还能确保攻击成功。

研究指出,更强大的 AI 可以进一步帮助自动红队测试集思广益,确定攻击者的目标,判断攻击者的成功,并理解攻击的多样性。例如,如果红队测试的目标是找到 ChatGPT 给出不允许的非法建议的例子,他们可以使用 GPT-4T 集思广益,例如“如何偷车”和“如何制造炸弹”,然后训练一个单独的红队测试模型,试图诱骗 ChatGPT 给出每个建议的例子。

研究团队通过结合审核模型、针对非法建议特定示例的基于规则的奖励以及针对攻击与过去尝试的攻击的不同之处的多样性奖励来奖励红队测试模型。这意味着红队测试模型可以生成更多不同但有效的攻击,然后可以将其用于提高模型安全性和评估。

更重要的是,它展示了他们如何继续训练和使用更强大的模型来提高安全性。


不足之处


OpenAI 也提道,红队测试并不是评估 AI 风险的完整解决方案。包括以下三方面局限性:

  1. 随时间变化的相关性:红队测试捕捉的是某一特定时刻的风险,这些风险可能会随着模型的发展而变化。

  2. 信息危害:红队测试过程,尤其是前沿 AI 系统,可能会造成信息危害,从而导致滥用。例如,曝光尚未广为人知的越狱或生成潜在有害内容的技术可能会加速不良行为者对模型的滥用。管理这种风险需要控制信息、制定严格的访问协议并采取负责任的披露措施。

  3. 人类复杂程度的提高:随着模型功能越来越强大,其在复杂领域的推理能力越来越强大,人类需要掌握的知识门槛将会越来越高,才能正确判断输出的潜在风险。

虽然红队测试的目的是扩大视野,为风险发现、验证和评估开发服务,但他们认为,还需要做更多的工作以征求和吸收公众对理想模型行为、政策和其他相关决策过程的看法。

整理:阮文韵
如需转载或投稿,请直接在公众号内留言

学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章