GPT-4是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。
例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间 使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。
在过去的两年里,我们重建了整个深度学习堆栈,并与 Azure 一起为我们的工作负载从头开始共同设计了一台超级计算机。一年前,我们训练 GPT-3.5 作为系统的第一次“试运行”。我们发现并修复了一些错误并改进了我们的理论基础。结果,我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为我们能够提前准确预测其训练性能的第一个大型模型。随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。
我们正在通过 ChatGPT 和 API(有候补名单)发布 GPT-4 的文本输入功能。为了准备图像输入功能以获得更广泛的可用性,我们正在与一个合作伙伴密切合作。我们还开源了OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。
能力
在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。
为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的模拟考试来继续进行。我们没有针对这些考试进行专门培训。模型在训练期间看到了考试中的少数问题,但我们认为结果具有代表性——详情请参阅我们的技术报告。
模拟考试 | GPT-4估计百分位数 | GPT-4(无视力)估计百分位数 | GPT-3.5估计百分位数 |
统一律师资格考试 (MBE+MEE+MPT)1个 | 298 / 400~90 | 298 / 400~90 | 213 / 400~10号 |
高考 | 163~88 | 161~83 | 149~40 |
SAT循证阅读与写作 | 710 / 800~93 | 710 / 800~93 | 670 / 800~87 |
SAT数学 | 700 / 800~89号 | 690 / 800~89号 | 590 / 800~70 |
研究生入学考试 (GRE) 定量 | 163 / 170~80 | 157 / 170~62 | 147 / 170~25日 |
研究生入学考试 (GRE) 口语 | 169 / 170~99th | 165 / 170~96 | 154 / 170~63 |
研究生入学考试 (GRE) 写作 | 4 / 6~54 | 4 / 6~54 | 4 / 6~54 |
2020 年 USABO 半决赛 | 87 / 15099-100 | 87 / 15099-100 | 43 / 15031-33日 |
2022 年 USNCO 本地部分考试 | 36 / 60 | 38 / 60 | 24 / 60 |
医学知识自测计划 | 75% | 75% | 53% |
Codeforces评级 | 392低于第 5 | 392低于第 5 | 260低于第 5 |
AP艺术史 | 5个86-100 | 5个86-100 | 5个86-100 |
AP生物学 | 5个85-100 | 5个85-100 | 4个第 62 至 85 名 |
AP微积分BC | 4个43~59 | 4个43~59 | 1个0-7号 |
我们还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,这些模型可能包括特定于基准的制作或额外的训练协议:
基准 | GPT-4 评估了几次 | GPT-3.5 评估了几次 | LM苏塔 最好的外部 LM 评价 few-shot | SOTA 最佳外部模型(包括特定于基准的培训) |
MMLU 57 个科目的多项选择题(专业和学术) | 86.4% 5连发 | 70.0% 5连发 | 70.7% 5连发U-PaLM | 75.2% 5连发Flan-PaLM |
海拉斯瓦格 围绕日常事件进行常识性推理 | 95.3% 10发 | 85.5% 10发 | 84.2% LLAMA(验证集) | 85.6% 明矾 |
AI2 推理挑战赛 (ARC) 小学多项选择科学题。挑战集。 | 96.3% 25发 | 85.2% 25发 | 84.2% 8连发PaLM | 85.6% ST-教育部 |
威诺格兰德 围绕代词解析的常识性推理 | 87.5% 5连发 | 81.6% 5连发 | 84.2% 5连发手掌 | 85.6% 5连发手掌 |
人类评估 Python编码任务 | 67.0% 0-shot | 48.1% 0-shot | 26.2% 0-shot PaLM | 65.8% CodeT + GPT-3.5 |
下降(f1 分数) 阅读理解和算术。 | 80.9 3连拍 | 64.1 3连拍 | 70.8 1-shot PaLM | 88.4 QDGAT |
许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力,我们使用 Azure Translate(参见附录)将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言。在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:
获取GPT-4
要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的ChatCompletions API),请注册我们的候补名单。我们今天将开始邀请一些开发人员,并逐步扩大规模以平衡容量与需求。如果您是研究 AI 的社会影响或 AI 对齐问题的研究员,您还可以通过我们的Researcher Access Program申请补贴访问。
获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定当前版本通过调用 gpt-4-0314,我们将支持到 6 月 14 日)。定价为每 1k 个提示令牌 0.03 美元和每 1k 个完成令牌 0.06 美元。默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求。
gpt-4 的上下文长度为 8,192 个标记。我们还提供对我们的 32,768-上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日). 定价为每 1K 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元。我们仍在提高长期上下文的模型质量,并希望得到有关它在您的用例中表现如何的反馈。我们正在根据容量以不同的速率处理对 8K 和 32K 引擎的请求,因此您可能会在不同时间获得对它们的访问权限。