OpenAI 凌晨发布:Realtime 实时多模态 API,及其他

科技   2024-10-02 09:10   广东  

中国时间凌晨 1 点多,OpenAI 召开了本年的开发者大会(旧金山场)。顺道说一下,今年开发者大会一共 3 场:10月1号旧金山;10月30号伦敦,以及11月21日新加坡

本次的发布,大体是常规更新,包括:

  • 【新东西】Realtime API

    • 可以理解为就是 GPT-4o 带 advanced voice 的那套,支持 API 了

    • 可以在 playground 里先玩玩

    • 价格很贵很贵,音频的话:

      • 输入价格:100刀 每百万 token

      • 输出价格:200刀 每百万 token

  • 视觉模型微调

    • 对于支持图像的模型,比如 4o 或者 4o-mini,现在可以用图片进行微调了

    • 利好工业/医疗等场景

    • 看了下文档,方法挺友好的,价格也会贵一些:以 4o-0806 为例子,微调价格为 25 刀/百万 token;之后调用是 $3.75 输入,$15 输出

  • 缓存折扣

  • 其他发布

    • 模型层面,带来了蒸馏服务:这确实是独一份的,用来生产高质量语料。不过这东西,对普通开发者,应该用处不大

    • 调试方面,迭代了很多 playground 中的工具链和交互方式,比如 system prompt 的自动优化

    • 在 api 层面,支持了如 zod,pydantic 这样的工具,方便更好的结构化输出(疑惑:之前不就支持了?我一直在用啊)

    • 其他...


重点说说

Realtime API

这个东西,可以理解为是 4o 搭配了 advanced voice 的背后 api。


在以往,常规的带语音的 AI 模型,在处理对话的时候,是遵循以下步骤:

  • 将语音转换成文字(比如使用 whisper 模型)

  • 将文字传输给大模型,并获得文字返回

  • 用 tts 工具,将文字读出来


在很多情况下,这么做是没问题的,但总会觉得别扭,比如我给大模型说

  • wò caò

  • wò caǒ

  • wǒ caò

  • wǒ caǒ

  • ...

很显然,这几个意思是不一样的。如果我通过「语音 - 文字 - 语音」的方法,并不能准确识别,还可能被认为我手里拿了个草「握草」。但如果是语音 end-end 的做法,则可以准确识别。

同时,也可以发现,这里还有一个可行的项目方向:用语音 end - end 的方式,进行语言训练,比如矫正口音


另需要注意的是,这个模型...很贵。让他说一分钟的话,需要人民币大概 1.7 元:


这个模型的调用方法,和 gpt 系列不太一样,也不用 openai sdk。具体不展开了,有兴趣的可以看这:

https://platform.openai.com/docs/guides/realtime


官方还配了个例子(我是第4个点赞的,ahhhhh):

https://github.com/openai/openai-realtime-api-beta

另一个(console):https://github.com/openai/openai-realtime-console


最后再吐槽下...截止到成稿的时候,这个 api 都没有真实上线



再来谈谈

视觉模型微调

这个是有用的,尤其是在工业领域,比如:

  • 医疗领域:拿 CT 影像数据来微调,获得一个看片 bot

  • 安防领域:代替部分的传统 CV 方案,判定实时风险

  • 工业领域:让 AI 通过一定量的样本学习,在流水线或者类似场景中,自动检出残次品/报警


微调的方法极其简单,和聊天发图片差不多。支持 url 或者 base64 传递图片,看这就行了:https://platform.openai.com/docs/guides/fine-tuning/vision


这里有些限制,两个方面:

  • 技术限制:最多 5 万组训练数据,每组最多 10 张图,每张图最大 10 M

  • 合规限制:不允许用人像、人脸以及验证码(CAPTCHAs),以及其他可能违规的数据进行训练

众所周知,微调贵一截,这里是价目表:


以及,这里还有一个限时活动:

  • GPT-4o:每天前 1M 的微调免费,后续 $25.00/1M tokens.

  • GPT-4o-mini:每天前 2M 的微调免费,后续 $3.00/1M tokens.



至于...

缓存折扣

说白了,就之前(几分钟~1小时)内问过的问题,再问一遍类似的,重复部分半价。不过,优惠力度不够大,毕竟 Gemini 是输入 2 折;DeepSeek 是输入 1折:DeepSeek API 创新采用硬盘缓存,价格再降一个数量级


至于原理和步骤,大概是这样:

  • 启用缓存:如果 prompt 长度超过 1024 tokens,系统会自动启用缓存,并检查 prompt 前部分是否已存储在缓存中

  • 如命中:如找到匹配,则会使用缓存的结果,以降低延迟并减少成本

  • 未命中:如没找到,系统会正常处理,然后缓存当前请求,以便将来使用。


需注意:

  • 缓存启用:无需主动声明,自动启用

  • 缓存时间:通常是 5~10 分钟,高峰时段可能是 1 小时(不可控)

  • 缓存管理:同一组织下,缓存共享,且无法主动清理

  • 内容生成:缓存不会影响 API 生成的最终响应,每次生成是独立的

  • 折扣互斥:Batch API 不享受缓存折扣


其他

本场发布会的主要更新,还是传统开发者 - 拿着 API 或者模型整活的。

Realtime API 等马上(可能就是1天内)上线后,可以多试试,找找感觉,应该有不少场景。

另外的,11 月 21 号的新加坡场作为 OpenAI 的本年度最后一场活动,应该会有一些新东西。到时候我也会去现场,带来第一手的实时报道

赛博禅心
拜AI古佛,修赛博禅心
 最新文章