来自现场:OpenAI 把实时交互,卷到了新高度

科技   2024-11-21 17:03   新加坡  

参加了 OpenAI 的今日发布

OpenAI Dev Day

在新加坡,大概 200 人

好些熟面孔

在第一排,带来更好、更新的内容

 

发布之前

先是在今天凌晨,4o 模型来了一波小的更新,版本号 gpt-4o-2024-11-20。主要对写作进行了加强,让其产出的内容更自然、易读(减少所谓 G 味)。在大模型竞技场 LMSYS 中,甚至击败了 o1,成了榜一大哥。 


很显然,这是不错的成绩

对此,我跟 OAI 训练模型的老哥聊了下,并表示祝贺(毕竟 4o 比 o1 还猛,有点东西)
老哥跟我说:其实这并不意味着太多,毕竟 LMSYS 的评分还是有局限的


会前闲聊时,OAI 的朋友还夸了下 DeepSeek:

DeepSeek is really solid(原话)

前情提要:《DeepSeek 推理模型预览版上线,解密 o1 推理过程》


以及...

- “我们不聊 Future Product“

- “那聊聊 Sora 吧”


本次发布

这次发布会,OAI 先整了些花活,比如用 o1 做了个无人机控制程序,然后现场遥控无人机。

对于 o1,之后将支持以下内容:

  • Function Calling / 函数调用

  • Developer Message / 开发者消息

  • Structured Outtputs / 结构化输出

  • Image Understanding / 图片理解

额外的,在研究了下 api 细节后,我发现接下来 语音理解 应该也会上。


之后是关于 Realtime API 的演示,并带来了更强大的实时语音交互,甚至支持多种语言的混合输入,以及混合输出(没录上,哭了,比 whisper 效果好很多很多),然后情绪、语气非常到位的进行混合输出。现场效果很炸裂。

主讲人用多种语言讲述的,并让 AI 用多种语言回应


以及,Realtime 的语音 API 也迎来了 Cache 调价,输出部分打了 2 折。简单算了下,对于大量相近内容的客服场景,调用成本大概是 50 人民币/小时,和人工队相比,开始有了竞争力(毕竟 AI 很容易规模化)。

输入的 cache 价格,从 $100 降到了 $20


另一个演示,是让 AI 来点单(还是很逼真的):在过程中,AI 进行了全自动点餐,包括确认需求,以及... 调整价格。


还有个有趣的,演讲者让 Realtime API based demo 从 0 开始输出,慢慢的:

于是 One...Two...Three...F- [打断]

问:现在你数到几了?

回答:Four


对于 Function Call,Realtime API 也获得了更新。这使得之后的实时语音,不局限于对话了,而是可以进行如操作电脑、联网、查找资料等功能。在发布会现场,演示人展示了如何「言出法随」操作天体。

做成声控的动态幻灯片,效果很惊艳

 

业务实践

主场发布之后,OpenAI 的朋友还做了 3 个主题分享,涵盖三个关键方向: 

  • 通过结构化输出来提升模型响应的准确性和可靠性

  • 利用模型蒸馏技术来平衡性能与成本

  • 以及运用实时 API 来实现更自然的人机交互体验。

📒

Structured Outputs/ 结构化输出 

包括原理和实践,如何通过严格遵循 JSON 格式规范,提升输出结果的可靠性和一致性,让数据更易于处理和集成。 


结构化输出介绍过:看完这篇,你也能做 AI 搜索:论「结构化输出」

这次提到了一个有趣的点:OpenAI 的接口,首次进行结构化输出的时候,会稍慢一点,之后会快,其原因是... 进行了 cache。


从实现的角度,这里并非「prefill + tag + 正则」(Claude CookBook 做法),而是另辟蹊径,也解决了持续输出"\n\n\n..." 问题


相关阅读:

https://platform.openai.com/docs/guides/structured-outputs 

🏺

Distillation/ 蒸馏 

包括原理和实践,如何将大型模型的智能特性迁移到更小巧的模型中,在保持核心功能的同时,显著降低运营成本,提升系统扩展性。 


这里的核心,是使用更强的模型,比如 4o 特定任务,预先输出批量的答案,大几百~几千条,再这些问答对来训练 4o-mini 之类的小模型。如此做完,可以保证在特定任务下,用很低的成本,达到不错的效果。


为此,OpenAI 还提供了完整的工具链。


另外要知道,蒸馏并不适合「需要精准输出的通用任务」。相关阅读:

https://platform.openai.com/docs/guides/distillation 

😃

Realtime API/ 实时 API  

包括原理和实践,如何集成 Realtime API 的语音和文本处理能力,打造流畅自然的语音交互体验,让应用更智能、更人性化。 


额外讲了如何用 Realtime API 配合 Funciton Calling 来使用。这里 Function Calling 的 Schema 和 4o 的格式一致,无缝迁移就行了。


相关阅读:

https://platform.openai.com/docs/guides/realtime 

 

同行交流

除了 OpenAI 的人外,还有几个开发者,也登台分享他们的经验。 


Supabase 团队:如何使用他们的产品,通过 AI 能力,无痛搭建数据库。


Grab 团队:如何通过 AI 视觉,解决地图定位问题的精准度问题。


SWYX:深入剖析 AI Agent 的工程化实践,探索如何构建可靠、高效的智能代理系统。

SWYX 老哥的 PPT 是公开的

可以在他的个人网站上找到

https://www.swyx.io/


当然

公众号回复 「SWYX」,也可获得 


 

不出意外

写到这行时,发布会结束

按日程,大家一起去酒吧下半场


搞 AI 的都是酒懵子,这很合理 

正如橘子所说,AI 和精酿有两个共通点: 

都有幻觉 

都是泡沫 

 

我的域名,还有升值空间

www.agi.bar

赛博禅心
拜AI古佛,修赛博禅心
 最新文章