GPT4o OmniModel 对所有用户免费

文摘   2024-05-14 09:25   上海  

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似在一次谈话中。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显著提高,同时 API 的速度也更快,成本降低了 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。


   模型评估

根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。

文本评估
改进推理 - GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b 还在训练中)

音频 ASR
 GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。

音频翻译
GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。

M3Exam

M3Exam 基准是多语言和视觉评估,由来自其他国家标准化测试的多项选择题组成,有时包括图形和图表。在所有语言的基准测试中,GPT-4o 都比 GPT-4 更强。

视觉理解
视觉理解评估 - GPT-4o 在视觉感知基准上实现了最先进的性能。所有视觉评估都是 0 次测试,其中 MMMU、MathVista 和 ChartQA 作为 0 次测试 CoT。

   模型安全性和局限性

GPT-4o 通过过滤训练数据和通过训练后细化模型行为等技术,在跨模式设计中内置了安全性。OpenAI 还创建了新的安全系统,为语音输出提供防护。
OpenAI 对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。
在接下来的几周和几个月里,OpenAI 将致力于技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守现有的安全政策。将在即将发布的系统卡中分享有关 GPT-4o 全部模式的更多详细信息。

   可用性

GPT-4o 是 OpenAI 突破深度学习界限的最新举措,这次是朝着实用性的方向发展。
GPT-4o 的文本和图像功能今天开始在 ChatGPT 中推出。免费套餐中已提供 GPT-4o,并向 Plus 用户提供高达 5 倍的消息限制。OpenAI 将在未来几周内在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。OpenAI 计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

AI无界,一起探索


--

👉版权声明:

本平台内容均由 Inevitable AI整理收录,仅供学习和研究使用。如有版权问题,请联系我们进行删除处理。

转载合作请务必得到我们的授权,并注明出处。未经授权擅自转载本网站内容的,我们将保留追究其相关法律责任的权利。

必然AI
高手们,准备好迎接新的挑战了吗?
 最新文章