外部人类红队测试
根据目标和关键测试领域选择红队测试成员
决定红队测试成员可以访问的模型或系统版本
创建并为红队测试成员提供界面、说明和文档指导
综合数据并进行评估
自动红队测试
不足之处
随时间变化的相关性:红队测试捕捉的是某一特定时刻的风险,这些风险可能会随着模型的发展而变化。 信息危害:红队测试过程,尤其是前沿 AI 系统,可能会造成信息危害,从而导致滥用。例如,曝光尚未广为人知的越狱或生成潜在有害内容的技术可能会加速不良行为者对模型的滥用。管理这种风险需要控制信息、制定严格的访问协议并采取负责任的披露措施。 人类复杂程度的提高:随着模型功能越来越强大,其在复杂领域的推理能力越来越强大,人类需要掌握的知识门槛将会越来越高,才能正确判断输出的潜在风险。