OpenAI发布《GPT-4o安全技术报告》【附中英文下载】

科技   2024-11-07 07:57   山东  

进网络安全行业群

微信公众号 计算机与网络安全
回复 行业群
本文件详细介绍了GPT-4o的功能、限制和多个类别的安全评估,重点关注语音到语音(语音),同时还评估了文本和图像功能,以及我们为确保模型安全和一致而实施的措施我们还包括对危险能力的第三方评估,以及对GPT-4o文本和视觉能力的潜在社会影响的讨论。
在部署之前,OpenAI会评估并缓解可能源于生成模型的潜在风险,例如信息危害、偏见和歧视,或其他违反我们使用政策的内容我们使用多种方法的组合,跨越培训前、培训后、产品开发和政策的所有发展阶段。例如,在后期训练期间,我们将模型与人类偏好相匹配;我们将生成的模型进行了红队化,并添加了产品级的缓解措施,如监控和执行;我们向用户提供了审核工具和透明度报告。

通过识别语音对语音模型的潜在风险,通过专家红色团队探索性发现其他新风险,将识别的风险转化为结构化测量并构建缓解措施,进行部署准备。我们还根据我们的准备框架评估了GPT-4o

OpenAI与100多名外部红队成员2合作,他们总共会说45种不同的语言,并代表了29个不同国家的地理背景。从3月初开始,一直持续到2024年6月底,红色团队人员可以在培训和安全缓解成熟度的不同阶段获得该模型的各种快照。

外部红色组合分四个阶段进行。前三个阶段通过一个内部工具测试了模型,最后一个阶段使用了完整的iOS经验来测试模型。在撰写本文时,GPT-4o API的外部红色团队正在进行中。

红色团队被要求进行探索能力发现,评估模型构成的新潜在风险,并在开发和改进时减轻压力测试——特别是由音频输入和生成(语音到语音能力)引入的测试。这种红色团队工作建立在之前的工作基础上,包括GPT-4系统卡和GPT-4(V)系统卡。

红色团队涵盖的类别包括违规和不允许的内容(非法色情内容,暴力,自我伤害等),错误/虚假信息,偏见,无根据的推断,敏感特征归因、私人信息、地理位置、个人识别、情感感知和拟人化风险、欺诈行为和冒充、版权、自然科学能力和多语言观察。

由红色团队成员生成的数据激发了一些定量评估的创建,并在观察到的安全挑战、评估和缓解部分中进行了描述。在某些情况下,来自红色团队的见解被用于进行有针对性的合成数据生成。根据某些标准(例如,是否违反政策,是否被拒绝),使用自动评分器和/或手动标签对模型进行评估。此外,我们有时会重新利用红色团队数据,对各种声音/例子进行有针对性的评估,以测试各种缓解措施的稳健性。

除了来自红色团队的数据之外,一系列现有的评估数据集被转换为使用文本到语音(TTS)系统(如语音引擎)的语音到语音模型的评估。我们通过将文本输入转换为音频,将基于文本的评估任务转换为基于音频的评估任务。这使我们能够重用现有的数据集和工具来测量模型能力、安全行为和监控模型输出,从而大大扩展了我们的可用评估集。

我们使用语音引擎将文本输入转换为音频,并将其提供给GPT-4o,并根据模型对输出进行评分。我们总是只对模型输出的文本内容进行评分,除非是需要直接评估音频的情况,例如对语音克隆的评估。

使用多种方法的组合可以缓解该模型的潜在风险。我们训练模型坚持通过训练后的方法来降低风险的行为,并集成分类器来阻止特定的分类器作为部署系统的一部分。

对于下面概述的观察到的安全挑战,我们提供了对风险、所应用的缓解措施和相关评估结果的描述。下面概述的风险是说明性的,且非详尽的,重点是ChatGPT界面中的经验。我们关注的是语音对语音能力所带来的风险,以及它们如何与已存在的模式(文本、图像)进行交互。

下方扫码下载文件

人工智能、算力算网

相关资料自助下载

| -

计算机与网络安全
帮助网络安全从业者学习与成长
 最新文章