下半年端侧模型真的火！就连 Open AI 也上了一款 mini 小钢炮！且 Sam 还透露出一个关键信息！

2024-07-19 03:57 美国

一直近期迟迟没动静的 Open AI ，谁能想到上来直接给来了一个mini小钢炮！（风向标：话说近期 10b 级别的小参数模型可真没少发布！）

有意思的是，这次刚开始 OpenAI 官方没有先公布消息，倒是CNBC和彭博社提前几个小时发稿，还特意挖了一下信息源做对比，本来以为是个乌龙！没想到Sam这哥们来真的！

GPT-4o Mini 主要优势集中在以下几个方面：

1.极致的性价比

2.卓越的性能表现

3.更广泛的应用场景

4.增强内置安全

一、模型极致的性价比

GPT-4o Mini 的最大亮点在于其惊人的成本效益。每百万输入代币仅需 15 美分，每百万输出代币 60 美分，价格比此前的前沿模型便宜一个数量级，比 GPT-3.5 Turbo 便宜超过 60%。（简直太离谱了！这意味着更多人可以负担得起，用它来做很多有趣的事情。）

目前GPT-4o Mini API已经上线可以正常调用(现在可在 Assistants API、Chat Completions API 和 Batch API 中作为文本和视觉模型使用)

具备128K token的上下文窗口，每个请求最多支持 16K 个输出token，支持文本和视觉，据官方称未来将支持文本、图像、视频和音频输入和输出，训练截数据截止到 2023 年 10 月~ 由于使用与 GPT-4o 共享的改进分词器，在处理非英语文本方面更具性价比。

二、卓越的性能表现

据官方博客称 GPT-4o mini 在文本智能和多模态推理的学术基准上超过了 GPT-3.5 Turbo 和其他小型模型，并支持与 GPT-4o 相同的语言范围。并且还在函数调用方面表现出强大的性能，可以使开发人员能够构建获取数据或对外部系统执行操作的应用程序，并且与 GPT-3.5 Turbo 相比，提高了长上下文性能。

GPT-4o mini 目前已通过多个关键基准测试进行评估

推理任务：GPT-4o mini 在涉及文本和视觉的推理任务方面优于其他小型模型，在文本智能和推理基准 MMLU 上得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。
数学和编码能力：GPT-4o mini 在数学推理和编码任务方面表现出色，优于市场上以前的小型模型。在衡量数学推理的 MGSM 上，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。GPT-4o mini 在衡量编码性能的 HumanEval 上得分为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。
多模态推理：GPT-4o mini 在多模态推理评估 MMMU 上也表现出强劲的表现，得分为 59.4%，而 Gemini Flash 为 56.1%，Claude Haiku 为 50.2%。（如图所示）

三、更广泛的应用场景（成本低，速度快!)

据官方称GPT-4o mini 以其低成本和低延迟支持广泛的任务，例如链接或并行化多个模型调用（例如，调用多个 API）、将大量上下文传递给模型（例如，完整的代码库或对话历史记录）或通过快速、实时的文本响应（例如，客户支持聊天机器人）与客户交互。（可以运用在很多应用场景比如：机器人、PC、移动、VR/AR设备、智能驾驶汽车终端等场景）

据OpenAI 表示，合作伙伴反馈 GPT-4o Mini 已经在多个关键任务中证明了其卓越的性能，特别是在提取结构化数据和生成高质量电子邮件回复等任务中，表现明显优于 GPT-3.5 Turbo。

四、增强内置安全

GPT-4o Mini 在安全措施上做了大量优化。OpenAI 从预培训阶段就过滤掉了不希望模型学习或输出的信息，如仇恨言论、成人内容和垃圾邮件等。在训练后，还使用人工反馈强化学习（RLHF）等技术，确保模型响应的准确性和可靠性。置了与 GPT-4o 相同的安全缓解措施。此外，GPT-4o Mini 还经过了多位外部专家的测试和评估，以识别并解决潜在风险。

在此基础上使用最新研究的技术来提高 GPT-4o mini 的安全性。据官方称GPT-4o mini 也将是第一个应用模型指令层次结构方法，有助于提高模型抵抗越狱、提示注入和系统提示提取的能力。使模型的响应更加可靠，并有助于在大规模应用中使用更安全。

论文地址：https://arxiv.org/abs/2404.13208

最后Sam还透漏一个关键信息：

Sam回应将在本月推出4o语音alpha版本，GA 则将在稍后发布！

个人直觉，怎么感觉这次发布新模型好随意，媒体提前知道消息，可能是太久没消息了，这次的模型极大可能只是随手一发！（品一品仅供参考~）

看到这里，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标哦！

⭐～谢谢你看我的文章。

⭐我是彩虹少女：感谢你的阅读。

⭐视频号：RainbowEye

彩虹之眼

彩虹之眼(Rainbow Eye)-神秘而强大的 AI 情报组织。

最新文章

亚马逊云科技盛会倒计时！先人一步感受AI创新浪潮！

从SaaS到AI Agent：垂直AI Agents的未来比你想象得更大！

Flux官方模型更新，实测效果惊艳，图像领域创作更进一步！

「DevFest 2024 南京」AI 大模型及应用前沿分享，探索机器学习未来！

11月9日，华师大×GDG DevFest 2024 特别分享会开启

中杯对决大杯！SD3.5新模型测评：轻量模型如何做到「审美与质感双飞跃」？

别急着投奔Flux！SD3.5最新实测告诉你：StabilityAI还没死！

当AI掌控画笔：创意的巅峰还是人类的末路？

从“刷题家”到“学伴”：AI如何彻底改变未来教育？

开发者必看：轻松加速PC和小型设备上的大语言模型

8月 | 期待已久的聚会——AI 梦工厂

27岁连续创业者：用AI打造下一代故事创作平台，颠覆传统内容创作的未来！

Flux : 尊贵的碳基生物们，欢迎来到黑森林实验室!

深度干货 | 这可能是国内第一篇Flux系列模型单卡4090微调lora分享！

时隔一年 | 重温吴恩达教授当时在斯坦福大学精彩演讲信息量还是很大！

基模们都慢下来了，那就静等花开！

深度干货 | 首发最强文生图开源模型FLUX.1本地ComfyUI部署教程重磅来袭

AI×IoT | 对话边无际CEO & 为设备赋予有思考能力的"数字大脑"

一年亏掉50亿美金 OpenAI 拿什么盈利？

AI 搜索？4o语音？我们只要GPT-5！

腾讯出列！混元DIT 模型lora训练器与使用教程发布，且配有comfyui节点插件。

AI 顶级公司也开始苦练内功了！

出海 | 天选之子和TikTok的前世今生！

这一波没那么多时间磨磨蹭蹭！

下半年端侧模型真的火！就连 Open AI 也上了一款 mini 小钢炮！且 Sam 还透露出一个关键信息！

从0~1独立开发 AI 产品的心酸历程：营收6位数的经验&反思（二）

从0~1独立开发 AI 产品的心酸历程：营收6位数的经验&反思

好久不见，三星怼着苹果开大招！还是端侧？

英伟达 CEO 黄仁勋：我们正在经历计算通货膨胀

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉