GPT-4o System Card
目录
1. 简介
2. 模型数据与训练
3. 风险识别、评估和缓解
4. 第三方评估
5. 社会影响
6. 结论与下一步计划
1. 简介
GPT-4o [1] 是一种自回归全能模型,可接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像等多种输出。它在文本、视觉和音频领域进行端到端的训练,这意味着所有输入和输出都通过同一个神经网络处理。
GPT-4o 可以在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,这与人类在对话中的反应时间 [2] 相似。它在英语和编程文本方面的表现与 GPT-4 Turbo 相当,但在非英语文本处理方面有显著提升,同时响应速度更快,API 成本降低了 50%。在视觉和音频理解能力上,GPT-4o 明显优于现有的模型。
为了践行我们对安全构建人工智能的承诺,以及对白宫自愿承诺 [3] 的支持,我们发布了 GPT-4o 系统卡,其中包含我们的准备框架(Preparedness Framework) [4] 评估。系统卡详细介绍了 GPT-4o 的能力、局限性和多类别的安全评估,重点关注语音到语音功能,同时评估其文本和图像的能力,并说明我们为确保模型安全与合规所采取的措施。我们还包括了第三方对潜在危险能力的评估,并讨论了 GPT-4o 在文本和视觉功能上的潜在社会影响。
2. 模型数据与训练
GPT-4o 的文本和语音功能在 2023 年 10 月之前的数据上进行了预训练,数据来源多种多样,包括:
选择的公开数据:主要收集自行业标准的机器学习数据集和网络抓取的数据。
从数据合作伙伴获得的专有数据:例如,我们与 Shutterstock [5] 合作,使用其数据来生成和交付 AI 生成的图像。
GPT-4o 的关键数据集组成部分包括:
网络数据:来自公共网页的数据提供丰富多样的信息,确保模型学习到广泛的观点和主题。
代码和数学:将代码和数学数据包含在训练中,使模型通过结构化逻辑和问题解决过程培养出强大的推理能力。
多模态数据:数据集中包含图像、音频和视频,教会大型语言模型(LLM)如何解释和生成非文本输入和输出。模型从中学习解读视觉图像、动作和现实场景中的序列、语言模式以及语音细微差别。
在部署之前,OpenAI 评估并缓解生成模型可能引发的潜在风险,例如信息危害、偏见和歧视,或其他违反使用政策的内容。我们采用多种方法,涵盖开发的各个阶段,包括预训练、后训练、产品开发和政策制定。例如,在后训练阶段,我们使模型与人类偏好一致;我们对生成的模型进行红队测试并添加产品级缓解措施,例如监控和执行措施;同时,为用户提供审核工具和透明度报告。
我们发现,大多数有效的测试和缓解措施在预训练阶段后进行,因为仅过滤预训练数据无法解决复杂的、特定情境的风险。同时,某些预训练阶段的过滤措施可以提供额外的防护,与其他安全措施一起,帮助排除数据集中不需要的和有害的信息:
我们使用内容审核 API 和安全分类器过滤可能导致有害内容或信息风险的数据,包括 CSAM、仇恨内容、暴力以及 CBRN。
与之前的图像生成系统一样,我们在图像生成数据集中筛选显性内容,如露骨的性材料和 CSAM。
我们采用高级数据过滤流程减少训练数据中的个人信息。
在发布 DALL-E3 时,我们试行了一种新的方法,让用户可以选择不将其图像用于训练。为尊重这些选择,我们对图像进行指纹识别,并利用这些指纹将图像的所有实例从 GPT-4o 系列模型的训练数据集中删除。
3. 风险识别、评估和缓解
部署准备工作通过以下步骤进行:
识别语音到语音模型的潜在风险。
通过专家红队测试探索其他新的潜在风险。
将识别出的风险转化为结构化的测量指标,并为这些风险构建缓解措施。
此外,我们还根据我们的准备框架 [4] 对 GPT-4o 进行了评估。(详见原论文)
4. 第三方评估
在仅文本输出的 GPT-4o 部署之后,我们与独立的第三方实验室 METR 和 Apollo Research 合作,为关键的通用自主能力风险增加了额外的验证层。(详见原论文)
5. 社会影响
全能模型可能带来广泛的社会影响。OpenAI 及其他研究者已讨论了多种可能的影响,包括:
社会危害(如代表性偏见 [18, 12, 23, 24];虚假信息和影响操作 [18, 25, 23];环境危害 [12, 23];依赖性 [26];滥用 [27, 23];以及失控风险 [27])。
益处(例如在医疗保健 [28] 和气候与能源等现实挑战中 [29])。
大规模转变(如经济影响 [30, 31, 32];科学加速及由此带来的技术进步 [30, 33])。
除本系统卡中讨论的社会影响(欺诈行为、虚假/误导信息、监控风险和差异化性能)外,以下列举了 GPT-4o 可能带来的其他潜在社会影响实例,并将拟人化与依赖性、健康、自然科学作为案例进行分析。(详见原论文)
OpenAI 在 GPT-4o 的开发和部署过程中实施了多种安全措施和风险缓解手段。作为迭代部署流程的一部分,我们将持续监控并根据不断变化的环境更新缓解措施。
我们希望本系统卡能激励对以下关键领域的进一步探索,包括但不限于:全能模型对抗鲁棒性的测量和缓解,拟人化及情感依赖相关风险,广泛的社会影响(健康与医疗应用、经济影响),全能模型在科学研究和进步中的应用,危险能力(如自我改进、模型自主性和谋划)的测量和缓解,以及工具使用如何推动模型能力的发展。
论文地址:https://arxiv.org/abs/2410.21276
进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群
加 VX 群请备注学校 / 单位 + 研究方向
CV 进计算机视觉群
KAN 进 KAN 群