首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

科技 2024-10-02 09:10 广东

中国时间凌晨 1 点多，OpenAI 召开了本年的开发者大会（旧金山场）。顺道说一下，今年开发者大会一共 3 场：10月1号旧金山；10月30号伦敦，以及11月21日新加坡

本次的发布，大体是常规更新，包括：

【新东西】Realtime API

可以理解为就是 GPT-4o 带 advanced voice 的那套，支持 API 了
可以在 playground 里先玩玩
价格很贵很贵，音频的话：

输入价格：100刀每百万 token
输出价格：200刀每百万 token

视觉模型微调

对于支持图像的模型，比如 4o 或者 4o-mini，现在可以用图片进行微调了
利好工业/医疗等场景
看了下文档，方法挺友好的，价格也会贵一些：以 4o-0806 为例子，微调价格为 25 刀/百万 token；之后调用是 $3.75 输入，$15 输出

缓存折扣

如果命中缓存，5折，目前支持：gpt-4o，gpt-4o-mini，o1-preview 和 o1-mini 这四个模型
具体可以看这里：https://platform.openai.com/docs/guides/prompt-caching
不如 DeepSeek 的缓存打一折：《DeepSeek API 创新采用硬盘缓存，价格再降一个数量级》

其他发布

模型层面，带来了蒸馏服务：这确实是独一份的，用来生产高质量语料。不过这东西，对普通开发者，应该用处不大
调试方面，迭代了很多 playground 中的工具链和交互方式，比如 system prompt 的自动优化
在 api 层面，支持了如 zod，pydantic 这样的工具，方便更好的结构化输出（疑惑：之前不就支持了？我一直在用啊）
其他...

重点说说

Realtime API

这个东西，可以理解为是 4o 搭配了 advanced voice 的背后 api。

在以往，常规的带语音的 AI 模型，在处理对话的时候，是遵循以下步骤：

将语音转换成文字（比如使用 whisper 模型）
将文字传输给大模型，并获得文字返回
用 tts 工具，将文字读出来

在很多情况下，这么做是没问题的，但总会觉得别扭，比如我给大模型说

wò caò
wò caǒ
wǒ caò
wǒ caǒ
...

很显然，这几个意思是不一样的。如果我通过「语音 - 文字 - 语音」的方法，并不能准确识别，还可能被认为我手里拿了个草「握草」。但如果是语音 end-end 的做法，则可以准确识别。

同时，也可以发现，这里还有一个可行的项目方向：用语音 end - end 的方式，进行语言训练，比如矫正口音。

另需要注意的是，这个模型...很贵。让他说一分钟的话，需要人民币大概 1.7 元：

这个模型的调用方法，和 gpt 系列不太一样，也不用 openai sdk。具体不展开了，有兴趣的可以看这：

https://platform.openai.com/docs/guides/realtime

官方还配了个例子（我是第4个点赞的，ahhhhh）：

https://github.com/openai/openai-realtime-api-beta

另一个（console)：https://github.com/openai/openai-realtime-console

最后再吐槽下...截止到成稿的时候，这个 api 都没有真实上线。

再来谈谈

视觉模型微调

这个是有用的，尤其是在工业领域，比如：

医疗领域：拿 CT 影像数据来微调，获得一个看片 bot
安防领域：代替部分的传统 CV 方案，判定实时风险
工业领域：让 AI 通过一定量的样本学习，在流水线或者类似场景中，自动检出残次品/报警

微调的方法极其简单，和聊天发图片差不多。支持 url 或者 base64 传递图片，看这就行了：https://platform.openai.com/docs/guides/fine-tuning/vision

这里有些限制，两个方面：

技术限制：最多 5 万组训练数据，每组最多 10 张图，每张图最大 10 M
合规限制：不允许用人像、人脸以及验证码（CAPTCHAs），以及其他可能违规的数据进行训练

众所周知，微调贵一截，这里是价目表：

以及，这里还有一个限时活动：

GPT-4o：每天前 1M 的微调免费，后续 $25.00/1M tokens.
GPT-4o-mini：每天前 2M 的微调免费，后续 $3.00/1M tokens.

至于...

缓存折扣

说白了，就之前（几分钟～1小时）内问过的问题，再问一遍类似的，重复部分半价。不过，优惠力度不够大，毕竟 Gemini 是输入 2 折；DeepSeek 是输入 1折：《DeepSeek API 创新采用硬盘缓存，价格再降一个数量级》

至于原理和步骤，大概是这样：

启用缓存：如果 prompt 长度超过 1024 tokens，系统会自动启用缓存，并检查 prompt 前部分是否已存储在缓存中
如命中：如找到匹配，则会使用缓存的结果，以降低延迟并减少成本
未命中：如没找到，系统会正常处理，然后缓存当前请求，以便将来使用。

需注意：

缓存启用：无需主动声明，自动启用
缓存时间：通常是 5～10 分钟，高峰时段可能是 1 小时（不可控）
缓存管理：同一组织下，缓存共享，且无法主动清理
内容生成：缓存不会影响 API 生成的最终响应，每次生成是独立的
折扣互斥：Batch API 不享受缓存折扣

其他

本场发布会的主要更新，还是传统开发者 - 拿着 API 或者模型整活的。

Realtime API 等马上（可能就是1天内）上线后，可以多试试，找找感觉，应该有不少场景。

另外的，11 月 21 号的新加坡场作为 OpenAI 的本年度最后一场活动，应该会有一些新东西。到时候我也会去现场，带来第一手的实时报道。

http://mp.weixin.qq.com/s?__biz=MzkzNDQxOTU2MQ==&mid=2247491925&idx=1&sn=9ef3b9efb2c457128ee9e725269c02c0

拜AI古佛，修赛博禅心

最新文章

原理解析：17岁高中生「神级 Prompt，把 Claude 强化成满血 o1」

从百度 iRAG，看 AI 分野

我在公众号里，实现了一键特效

赛博精酿｜智能体专场：月底请大家喝一杯

招人｜中国信通院：大模型数据工程研究员

零代码：一键部署 3D 模型，守护最好的坤坤

腾讯开源：3D素材生成模型、最大 MoE 模型，兼容 OpenAI SDK 方式调用

我开发了一款排版器：20秒，完成公众号排版

OpenAI 在「问啥都行」上的一些回复

10月盘点：AI 行业大事记

我开发了一款新的 AI 搜索：批量搜

深度理解提示词：人人能学会，无需硬背

革命序章：Claude 3.5 新 API，可操作电脑

细说实现：大模型是如何被投毒的

“最强”小模型：Ministral 3B/8B 发布

175 份实战手册，来自 OpenAI

AI 模型战局渐定，下一波红利在哪？

特斯拉「We, Robot」发布会总结

拆解：智谱的「深度推理/多步搜索」

搞 AI 的，包揽诺贝尔物理、化学奖

独家信息：关于 o1 的 20 个真相

像用实习生一样用 AI 辅助你编程

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

扣子最佳实践：雅思口语专家

OpenAI 凌晨发布：Realtime 实时多模态 API，及其他

PIKA1.5正式上线，他们走上了另一条全新的"整活"之路。

AIPO：校园 AI 创投活动，开放报名！

9月：AI 圈的乌龙、趣事与新闻

智谱 API ：1折

OpenAI CTO 离职，Sora 前景不明

Llama-3.2 发布：多模态，禁欧洲

字节全新发布豆包AI视频模型 - 再见了Sora，你的时代过去了。

提示工程：反复崛起，反复被死亡

Claude Prompt：方法论

智谱开源：图生视频模型 & 视频标注模型

Qwen 2.5 开源，API 打一折

参加完 OpenAI 的活动，我看到了「草莓」的隐患

o1 能带我们走进 AGI 吗？

150 行代码，复刻「草莓」，青春版支持联网

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

原理解析：李继刚老师的「汉语新解」

iPhone 16 发布，全面解读「苹果2024发布会」

小红书式爆款文案正在剿杀语文。

拒绝谣言：OpenAI 没说新模型提价

插播：Qwen 404，但不必担心

最后一天：OpenAI 开发者日，将截止确认

近乎免费的 Gemini Flash，有了结构化输出

突发！Runway HF 已删库跑路

智谱 GLM-4-Plus 发布，独家附送免费 API，和我整的新活

OpenAI「草莓」今秋发布，随后是「猎户座」

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉