GPT-4 发布!

文摘   2023-03-15 08:14   浙江  

GPT-4是 OpenAI 努力扩展深度学习的最新里程碑。GPT-4 是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实世界场景中的能力不如人类,但在各种专业和学术基准上表现出人类水平的表现。

例如,它通过模拟律师考试,分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分在倒数 10% 左右。我们花了 6 个月的时间  使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可操纵性和拒绝超出护栏方面取得了有史以来最好的结果(尽管远非完美)。

在过去的两年里,我们重建了整个深度学习堆栈,并与 Azure 一起为我们的工作负载从头开始共同设计了一台超级计算机。一年前,我们训练 GPT-3.5 作为系统的第一次“试运行”。我们发现并修复了一些错误并改进了我们的理论基础。结果,我们的 GPT-4 训练运行(至少对我们而言!)前所未有地稳定,成为我们能够提前准确预测其训练性能的第一个大型模型。随着我们继续专注于可靠的扩展,我们的目标是完善我们的方法,以帮助我们越来越多地提前预测和准备未来的能力——我们认为这对安全至关重要。

我们正在通过 ChatGPT 和 API(有候补名单发布 GPT-4 的文本输入功能。为了准备图像输入功能以获得更广泛的可用性,我们正在与一个合作伙伴密切合作。我们还开源了OpenAI Evals,这是我们用于自动评估 AI 模型性能的框架,允许任何人报告我们模型中的缺点,以帮助指导进一步改进。

能力

在随意的谈话中,GPT-3.5 和 GPT-4 之间的区别可能很微妙。当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,我们在各种基准测试中进行了测试,包括最初为人类设计的模拟考试。我们通过使用最新的公开测试(在奥林匹克竞赛和 AP 自由回答问题的情况下)或购买 2022-2023 年版本的模拟考试来继续进行。我们没有针对这些考试进行专门培训。模型在训练期间看到了考试中的少数问题,但我们认为结果具有代表性——详情请参阅我们的技术报告。


模拟考试GPT-4估计百分位数GPT-4(无视力)估计百分位数GPT-3.5估计百分位数
统一律师资格考试 (MBE+MEE+MPT)1个298 / 400~90298 / 400~90213 / 400~10号
高考163~88161~83149~40
SAT循证阅读与写作710 / 800~93710 / 800~93670 / 800~87
SAT数学700 / 800~89号690 / 800~89号590 / 800~70
研究生入学考试 (GRE) 定量163 / 170~80157 / 170~62147 / 170~25日
研究生入学考试 (GRE) 口语169 / 170~99th165 / 170~96154 / 170~63
研究生入学考试 (GRE) 写作4 / 6~544 / 6~544 / 6~54
2020 年 USABO 半决赛87 / 15099-10087 / 15099-10043 / 15031-33日
2022 年 USNCO 本地部分考试36 / 6038 / 6024 / 60
医学知识自测计划75%75%53%
Codeforces评级392低于第 5392低于第 5260低于第 5
AP艺术史5个86-1005个86-1005个86-100
AP生物学5个85-1005个85-1004个第 62 至 85 名
AP微积分BC4个43~594个43~591个0-7号


我们还在为机器学习模型设计的传统基准上评估了 GPT-4。GPT-4 大大优于现有的大型语言模型,以及大多数最先进的 (SOTA) 模型,这些模型可能包括特定于基准的制作或额外的训练协议:

基准

GPT-4

评估了几次

GPT-3.5

评估了几次

LM苏塔

最好的外部 LM 评价 few-shot

SOTA

最佳外部模型(包括特定于基准的培训)

MMLU

57 个科目的多项选择题(专业和学术)

86.4%

5连发

70.0%

5连发

70.7%

5连发U-PaLM

75.2%

5连发Flan-PaLM

海拉斯瓦格

围绕日常事件进行常识性推理

95.3%

10发

85.5%

10发

84.2%

LLAMA(验证集)

85.6%

明矾

AI2 推理挑战赛 (ARC)

小学多项选择科学题。挑战集。

96.3%

25发

85.2%

25发

84.2%

8连发PaLM

85.6%

ST-教育部

威诺格兰德

围绕代词解析的常识性推理

87.5%

5连发

81.6%

5连发

84.2%

5连发手掌

85.6%

5连发手掌

人类评估

Python编码任务

67.0%

0-shot

48.1%

0-shot

26.2%

0-shot PaLM

65.8%

CodeT + GPT-3.5

下降(f1 分数)

阅读理解和算术。

80.9

3连拍

64.1

3连拍

70.8

1-shot PaLM

88.4

QDGAT

许多现有的 ML 基准测试都是用英语编写的。为了初步了解其他语言的能力,我们使用 Azure Translate(参见附录)将 MMLU 基准——一套涵盖 57 个主题的 14,000 个多项选择题——翻译成多种语言在测试的 26 种语言中的 24 种中,GPT-4 优于 GPT-3.5 和其他 LLM(Chinchilla、PaLM)的英语语言性能,包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言:

获取GPT-4

要访问 GPT-4 API(它使用与 gpt-3.5-turbo 相同的ChatCompletions API),请注册我们的候补名单我们今天将开始邀请一些开发人员,并逐步扩大规模以平衡容量与需求。如果您是研究 AI 的社会影响或 AI 对齐问题的研究员,您还可以通过我们的Researcher Access Program申请补贴访问

获得访问权限后,您可以向 gpt-4 模型发出纯文本请求(图像输入仍处于有限的 alpha 阶段),随着时间的推移,我们会在制作新版本时自动将其更新为我们推荐的稳定模型(您可以固定当前版本通过调用 gpt-4-0314,我们将支持到 6 月 14 日)。定价为每 1k 个提示令牌 0.03 美元和每 1k 个完成令牌 0.06 美元。默认速率限制为每分钟 40k 个令牌和每分钟 200 个请求。

gpt-4 的上下文长度为 8,192 个标记。我们还提供对我们的 32,768-上下文(约 50 页文本)版本 gpt-4-32k 的有限访问,该版本也将随着时间的推移自动更新(当前版本 gpt-4-32k-0314,也支持到 6 月 14 日). 定价为每 1K 提示令牌 0.06 美元和每 1k 完成令牌 0.12 美元。我们仍在提高长期上下文的模型质量,并希望得到有关它在您的用例中表现如何的反馈。我们正在根据容量以不同的速率处理对 8K 和 32K 引擎的请求,因此您可能会在不同时间获得对它们的访问权限。

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章