GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug

科技 2024-07-19 02:08 广东

在这篇公众号发出的时候

GPT-4o mini 发布了

性能上，比 GPT4-0125 更好

（基于 LMSYS 竞技场信息）

GPT-4o mini 优于 GPT4-0125

价格上，比 3.5 还便宜 60%

4o mini 输入：$0.15

4o mini 输出：$0.6

堪称不讲武德

目前，GPT-4o mini 以 API 的方式发布

支持图片和文字，最长 128k

后续也会支持支持视频和音频

训练截数据截止到 2023 年 10 月

并对非英文更加友好

标准化测试

推理任务：GPT-4o mini 在涉及文本和视觉的推理任务中优于其他小型模型，在 MMLU 上得分为 82.0%，而 Gemini Flash 为 77.9%，Claude Haiku 为 73.8%。

数学和编码能力：GPT-4o mini 在数学推理和编码任务方面表现出色，超过了市场上先前的小型模型。在衡量数学推理的 MGSM 上，GPT-4o mini 得分为 87.0%，而 Gemini Flash 为 75.5%，Claude Haiku 为 71.7%。在衡量编码性能的 HumanEval 上，GPT-4o mini 得分为 87.2%，而 Gemini Flash 为 71.5%，Claude Haiku 为 75.9%。

多模态推理：GPT-4o mini 在多模态推理评估 MMMU 上也表现出色，得分为 59.4%，而 Gemini Flash 得分为 56.1%，Claude Haiku 得分为 50.2%。

上手（对比4o）

结论：和4o差不多，但便宜很多！

只有 4o 3%的价格

以及：4o-mini 有个恶性 bug

仔细看我最后一张图

token 计算有误，凭空多了 2 万个 token

对此我调试了下代码，能看到 token 多了不少

确实，在多模态模式下

有严重的计费 BUG

不确定会不会真的计入账单

（已同步反馈给 OpenAI 的朋友了）

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247489921&idx=1&sn=81e84c41d5ad57ed6a02150a9c427bc9

赛博禅心

拜AI古佛，修赛博禅心

最新文章

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

史诗更新！1080 可跑的 Sora，可商用！超大杯 CogVideoX 5B 开源！GLM-Flash 免费！

大厂山寨 Cursor，不如做好邮箱

征集｜ComfyUI 全球社区峰会 AI 展：新艺术宣言

你需要的不是智能体，而是工作流

谷歌前 CEO：「盗用内容也不是不行」

看完这篇，你也能做 AI 搜索：论「结构化输出」

系统性「造人」：论 AI 拟人的实现

OpenAI 开发者大会，现开放报名

全网首发：智谱「Sora」此刻开源，单卡可跑可调，附训练细节

历史新高：24Q2，美国近期 AI 项目融资，总计 122 亿美金

并非25亿收购：谷歌与 C.AI 交易细节

学外企员工，「中英夹杂」记 word

入口之战：AI 时代的「二维码」，在哪里？

ChatGPT Search 正开放内测，附申请地址

剑指 Meta：Mistral Large2 凌晨开源，媲美 Llama3.1

最大405B：Llama-3.1 发布，第一时间详解

我做了两个 JSON：涵盖各模型接口信息

GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug

大模型真实速度一览（附：测试脚本）

对于 AI & AGI，我有 3 个问题

WAIC 的这几天，咱从业者们聚一聚？

大模型 API 文档一览：有的简洁易用，有的乱七八糟

全军覆没：国产大模型，都没做好 OpenAI 兼容

AI 画图正经入门：ComfyUI 的基础七课

MarsCode：AI 在线 IDE，很好用

OpenAI 收购 Multi，一款协作工具

第一批背靠 OpenAI 的公司，已经倒下了

Anthropic：Claude 3.5 发布，更快更强，还便宜

从 OpenAI 发布的 36 个实践，窥探真实的 AI 产业机会

Meta：悄悄发布多款模型、研究和数据集

Runway：稳定、可控的视频方案 Gen-3 Alpha

Perplexity 怎么读？Qwen 又怎么读？常见 AI 名词发音一览

Luma：发个AI，比 Sora 真实、连贯、迅速

SD 3：已开源，附即用方案，附测试对比

剧透：扣子正上线「大模型竞技场」

Apple：属于每个人的 AI，在这里

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

GPT-4o迷你版 发布，比 3.5 更便宜，但有计费 Bug

标准化测试

上手（对比4o）

以及：4o-mini 有个恶性 bug

GPT-4o迷你版发布，比 3.5 更便宜，但有计费 Bug