不负期待,继五月发布 GPT-4o 后两月沉淀,OpenAI 全新 AI 工具惊艳亮相!

文摘   2024-07-19 08:01   英国  

(关注公众号并设为🌟标,第一时间获取最新人工智能资讯和产品)

全文3000 字,阅读约需 5分钟 

继今年五月份震撼业界的GPT-4o发布之后,OpenAI似乎进入了一个短暂的沉静期。然而,这种表面的平静实则他们从未停止新工具研发。就在昨天7月18日,这家AI巨头再次为我们带来了惊喜——推出了全新的AI工具GPT-4o mini。

从现在开始,GPT-4o mini免费版、Plus 版和 Team 版用户将取代 ChatGPT 中的 GPT-3.5,企业版用户将于下周开始使用 。亮点是:GPT-4o mini 支持文本和视觉,未来计划包括文本、图像、视频和音频的输入和输出。

特别值得关注的是,伴随着新模型的发布我们可以清晰地看到:曾经备受瞩目的GPT-3.5系列正在走向黄昏,已经被下架。这一现象不得不让人联想到技术更迭的残酷现实,昔日再辉煌的明星产品,在AI进化长河中的一个里程碑,都只能为更先进、更高效的模型让路。

我们相信我们很快将会看到非常小的、能够思考得非常好、非常可靠的AI模型,科技发展只能越来越快不会停止。


GPT-4o mini的出现,可能将重新定义我们对AI能力和应用场景的认知。我们不禁要问:款新工具将为用户带来哪些全新的体验?它又将如何影响已经激烈的AI市场格局?更重要的是,面对如此快速的技术更迭,开发者和企业该如何应对?

一、性价比高小型模型

GPT-4o mini 能够通过降低成本,大幅扩展使用 AI 构建的应用范围。在 MMLU 上,GPT-4o mini 的表现达到了 82% 的高分,并且在 LMSYS 排行榜上的聊天偏好中超过了 GPT-41(链接在新窗口中打开)。其定价为每百万输入令牌 15 美分,输出令牌 60 美分,这比以往的顶尖模型便宜了许多,也比 GPT-3.5 Turbo 便宜超过 60%。

GPT-4o mini 以其低成本和快速响应能力,支持各种任务,如需多次调用模型的应用程序(比如多 API 调用)、需要传输大量上下文信息的应用(如完整代码库或对话历史)以及需要实时文本回应的客户互动(比如客服聊天机器人)。

目前,GPT-4o mini 在 API 中支持文本和视觉功能,未来还将扩展至支持文本、图片、视频及音频的输入输出。该模型的上下文窗口可达 128K 令牌,每次请求最多支持 16K 输出令牌,并包含至 2023 年 10 月的最新信息。得益于与 GPT-4o 共用的更优化分词器,处理非英文文本的成本现在更低。

二、在文本智能和多模态推理上的小型模型佼佼者

GPT-4o mini 不仅在文本智能和多模态推理的学术评测中领先于 GPT-3.5 Turbo 及其他同类小型模型,而且支持与 GPT-4o 相同的语言种类。此外,它在函数调用方面的出色表现,能够助力开发者创建可以获取数据或与外部系统互动的应用程序,并且在处理长篇上下文的性能上也有较 GPT-3.5 Turbo 显著的提升。

GPT-4o mini 已在多个关键性能基准上进行评测:

  • 1、推理任务:在包含文本和视觉的推理任务中,GPT-4o mini 表现优越,其在 MMLU 文本智能和推理评测中的得分高达 82.0%,而 Gemini Flash 和 Claude Haiku 分别只有 77.9% 和 73.8%。

推理任务(MMLU测试)这就像是一个综合考试,测试AI模型在各种知识领域的理解和推理能力。

举例:想象你在参加一个综艺节目的问答环节,主持人会问各种问题,从历史到科学,再到流行文化。GPT-4o mini在这种情况下表现得最好,能正确回答82%的问题。相比之下,其他AI只能回答出77.9%和73.8%的问题。


  • 2、数学与编程技能:GPT-4o mini 在数学推理和编程任务中表现卓越,超越市场上其他小型模型。在 MGSM 数学推理评测中,它得分 87.0%,显著高于 Gemini Flash 的 75.5% 和 Claude Haiku 的 71.7%。同样,在评估编程能力的 HumanEval 测试中,GPT-4o mini 也以 87.2% 的高分领先,Gemini Flash 和 Claude Haiku 分别为 71.5% 和 75.9%。

数学与编程技能(MGSM和HumanEval测试)这些测试检查AI解决数学问题和编写计算机程序的能力。

举例:假设你在帮助孩子做数学作业,遇到了一些复杂的应用题。GPT-4o mini能正确解答87%的问题,而其他AI只能解答75.5%和71.7%。编程能力:想象你需要一个程序来自动整理你的相片集。GPT-4o mini能够写出87.2%的正确代码来完成这项任务,而其他AI只能达到71.5%和75.9%的正确率。


  • 3、多模态推理:在多模态推理的 MMMU 评测中,GPT-4o mini 以 59.4% 的得分表现强劲,领先于 Gemini Flash 的 56.1% 和 Claude Haiku 的 50.2%。

多模态推理(MMMU测试)这项测试检查AI理解和处理文字与图像混合信息的能力。

举例:你在制作一本食谱,需要AI帮你理解食材图片并给出烹饪建议。GPT-4o mini能正确理解和回应59.4%的情况,比其他AI的56.1%和50.2%要好。


  • 4、内容:在我们的模型开发流程中,我们与一些信赖的合作伙伴携手,深入探讨了 GPT-4o mini 的实际应用场景及其局限。我们与如 Ramp(链接在新窗口中打开)和 Superhuman(链接在新窗口中打开)等公司合作,这些合作伙伴发现 GPT-4o mini 在如提取收据文件中的结构化数据或根据对话历史生成高质量电子邮件回应等任务上,表现远超 GPT-3.5 Turbo。

内容(实际应用场景应用)这部分讲的是GPT-4o mini在真实世界中的表现。

举例:你是客服人员,需要回复大量客户邮件。GPT-4o mini能根据之前的对话历史,生成更恰当、更个性化的回复,比如它会记住客户之前提到过的问题,并在新的回复中体现出来。

三、内置的安全保障

GPT-4o mini的安全性从设计之初就被置于首位,整个开发过程中都贯穿了严格的安全措施。这就像是为一个高科技产品打造全方位的保护盾。

在AI模型的"学习"阶段,开发团队精心筛选了训练数据。可以将这个过程想象成为图书馆挑选书籍,仔细剔除了包含仇恨言论、不当内容、过度收集个人信息的网站数据等不良信息。这样做的目的是确保AI只接触到有益、适当的信息。

训练后,开发者采用了一种叫做"带有人类反馈的强化学习"的技术。这种方法类似于教育孩子,通过不断的正面引导和纠正,让AI更好地理解什么是恰当的行为。

安全评估阶段,超过70名来自社会心理学和信息误导领域的外部专家参与了测试。这些专家就像是严格的质检员,从各个角度检查AI的表现,找出潜在的问题并提出改进建议。

对于GPT-4o mini,开发团队还应用了一些创新技术来提升其安全性。比如,他们实施了一种叫做"指令层次方法"的技术,这使得AI更能抵御恶意引导或欺骗。可以把这想象成给AI安装了一个高级的"防骗"系统。最后,GPT-4o mini的使用情况会受到持续监控。就像一个产品上市后仍然需要不断改进一样,如果发现任何新的安全隐患,开发团队会迅速采取措施解决。

GPT-4o mini的开发团队致力于打造一个既智能又安全的AI助手。他们的目标是让这个AI能够可靠地辅助人类工作,同时保障用户的安全和隐私。这种努力体现了AI技术发展中对安全和道德的高度重视。

四、API定价详情

GPT-4o mini 现已在助手 API、聊天补全 API 和批处理 API 中提供文本和视觉模型服务。开发者对于每百万输入令牌的使用需支付 15 美分,对于每百万输出令牌的使用需支付 60 美分(这大约相当于 2500 页标准书籍的内容量)。我们将在接下来几天推出针对 GPT-4o mini 的微调服务。

在 ChatGPT 平台上,从今天起,无论是免费用户、Plus 用户还是团队用户都将可以使用 GPT-4o mini,此举将取代 GPT-3.5。从下周开始,企业用户也将能够使用这一新模型,这一措施体现了我们让所有人都能享受到 AI 带来的益处的使命。

最后,下一步

近年来,见证了 AI 智能的巨大进步和成本的显著下降。例如,自 2022 年推出的较初级模型 text-davinci-003 以来,GPT-4o mini 的每令牌成本已减少了 99%。我们致力于保持这一趋势,不断压低成本的同时提升模型的性能。

在未来,模型能无缝整合到每个应用和网站中。GPT-4o mini 正在为开发者提供一个平台,让他们能够更高效、更经济地开发和扩展强大的 AI 应用。

AI 的未来将更加普及和可靠,深入到我们每个人日常的数字生活中。

往期回顾

1、[Sora何时发布?GPT-5是小进步还是质的飞跃?约翰·霍普金斯大学访谈中,OpenAI Mira Murati回应热点问题]

2、[现在ChatGPT免费向用户开放,我们对ChatGPT-4o 新视觉功能进行挑战测试,结果令人叹为观止]

3、[不能错过的发布会整理:OpenAI新发布GPT-4o多模态模型,实现语音视觉一体化,但也可能导致公司转型和人员失业]


我们的AI团队现向外界开放服务,旨在助力每个企业与个人引领时代潮流,将先进科技与创新想法完美融合!

告别昂贵服务费和缺人烦恼,再见漫长交付周期

无限创意风格,分分钟生成专业级作品

感受 AI 带来的全新工作体验!

欢迎各大品牌方、媒体、科技企业、知名IP等合作

合作请联系负责人微信:Milo-1101

--END--

AI深度研究员
AI时代刚刚到来,一切才刚开始,我们正当其时!
 最新文章