OpenAI 实时 API 震撼发布：语音应用的“ChatGPT”时刻来临！

文摘 2024-10-02 19:06 美国

作者 | Eric Harrington

出品丨AI 科技大本营（ID：rgznai100）

北京时间 10 月 2 日凌晨，OpenAI 在他们的第二次 DevDay（开发者日）上丢了一颗重磅炸弹：实时 API（Realtime API），使开发者能够使用先进的语音到语音模型进行开发。目前这项技术面向所有付费开发者开放了公共测试版，能够帮助开发者创建低延迟、多模态的应用体验，这些体验几乎可以媲美真人之间的交流。

当前 OpenAI 还没上传本次 DevDay 的录播，但根据一些博主的总结，本次 Sam Altman 的对话应该也是比较有料的，比如画饼“AGI 很快就会到来”，或是谈及 ChatGPT 的高级语音模式等等，我们会在明天再发布一篇关于这场对话的全程翻译。

回到正题，实时 API 的音频功能由全新的 GPT-4o 模型 gpt-4o-realtime-preview 提供支持，且将在未来几周内集成到 Chat Completions API 中，作为一个新的模型 gpt-4o-audio-preview。通过 gpt-4o-audio-preview，开发者可以输入文本或音频到 GPT-4o，并接收文本、音频或两者结合的回应。

不过也有很多人吐槽，“通往新时代的价格太贵了”。实时 API 和前段时间发布的 o1 模型一样，把不同的 Token 进行了“分类定价”，比如 o1 发布时就创造了一个“推理 Token”的概念，而现在实时 API 则使用文本 Token 和音频 Token：文本输入 Token 的价格为每 100 万 Token / 5 美元，输出 Token 的价格为每 100 万 Token / 20 美元。音频输入的价格为每 100 万 Token / 100 美元，输出价格为每 100 万 Token / 200 美元。这相当于大约每分钟音频输入 0.06 美元和每分钟音频输出 0.24 美元。未来 Chat Completions API 中的音频功能也将采用相同的定价。

实时 API 这项技术的核心在于其支持自然语音对话的功能，这一点与 ChatGPT 最近终于开放的高级语音模式相仿。实时 API 提供了六种预设的声音选项，让开发者可以根据不同的应用场景和用户喜好来定制自己的应用。这一进步意味着，从前需要组合多种模型才能勉强实现的自然对话，现在只需一种工具即可轻松搞定。

过去的语音助手体验充满了各种挑战。开发者不得不面对一系列复杂的过程，比如使用 OpenAI Whisper 这样的自动语音识别模型来转录音频，接着将转换后的文本传递给文本模型进行推理或理解，最后再通过文本到语音模型生成语音回复。这种方法不仅容易失去对话中的细微差别，比如情绪、重音和口音，而且多步骤的处理也造成了显著的延迟，使得用户输入与 AI 响应之间存在明显的时间差，破坏了对话的自然感。

而实时 API 则以一种“优雅”的方式解决了这些问题。通过与 GPT-4o 建立持久的 WebSocket 连接，实时 API 实现了无缝的通信流，可以实时处理打断和调整，就像两个人在面对面交谈一样。

官方给出了两个合作案例，首先是 Healthify，这是一款营养和健身指导应用程序，它使用实时 API 实现与其 AI 教练 Ria 的自然对话，同时在需要个性化支持时让人类营养师参与进来：

Healthify 的老板感叹道，以前需要一周才能搞定的配置工作现在只需要三天。

然后还有 Speak，这是一款语言学习应用程序，它使用实时 API 来支持角色扮演功能，鼓励用户用新语言练习对话：

随着技术的进步，实时 API 还会在越来越多的应用中发挥作用。从提供更具同理心和响应能力的虚拟治疗师，到能够管理复杂任务的类人理解能力的个人助手，这些应用的可能性仅受限于开发者的想象力。API 还有望在语言学和认知科学等领域发挥重要作用，为人类与 AI 通信的本质提供新的见解。

实时 API 的另一大亮点就是它支持函数调用。这意味着语音助手不仅能理解用户的指令，还能实际执行操作，或是即时获取相关信息来个性化其回应。这种功能打破了对话式 AI 与实用性的界限，让 AI 助手在处理日常任务时变得更加有价值。通过隐藏多个模型集成的复杂性，OpenAI 也是试图变革过往的 AI 应用开发方式，让曾经因技术壁垒而止步不前的开发者也能大展身手。

OpenAI 表示会在未来的更新扩展 API 的功能，包括视觉和视频等额外模态的支持，进一步模糊数字与现实世界的界限。增加的速率限制将允许更大规模的部署，而将其整合进官方的 Python 和 Node.js SDK 则会让不同平台的开发者更容易使用。此外还有一个即将推出的前瞻功能：提示词缓存。这将使开发者能够以较低成本重新处理之前的对话轮次，从而降低成本并提高 AI 互动的效率。

当然，任何革命性技术都有其需要关注的地方。和以前一样，OpenAI 承诺会在实时 API 的安全性和隐私性方面给予高度重视，通过多层次的保护措施来防止 API 滥用的风险。这包括对模型输入和输出的自动化监控以及人工审查，并利用为 ChatGPT 高级语音模式构建的音频安全基础设施。如此先进的 AI 通信能力所带来的伦理考量也不容忽视。随着 AI 系统越来越擅长模拟人类对话，透明度、知情同意以及潜在的误用问题都需要认真对待。

不过，OpenAI 的这几轮内部变动下来，“安全”已经成为了 Sam Altman 和几位离职员工最大的分歧点之一……最早是数位员工因此离开 OpenAI 创立 Anthropic，从此 Claude 成为了“正经 AI”的代名词；再到后来 Ilya 和超级对齐团队的离去，导致 X 上从此多了“what did Ilya see”这个梗；现在连 Sam Altman 的得力助手、前首席技术官 Mira Murati 也要转头而走，不得不让人对 OpenAI 后续的安全问题打个问号。

总之，OpenAI 在安全和隐私方面的努力是一个好的开始，但随着技术的普及，或许还需要制定行业标准和规定来确保其负责任地使用。

此外，这种自然的人工智能通信的兴起可能会对社会产生深远影响。尽管它可以消除语言障碍，提高残疾人使用的便捷性，但同时也引发了关于依赖人类沟通技能行业的就业替代问题。随着技术的发展，我们需要在享受其带来的激动人心的可能性的同时，也要慎重考虑其更广泛的社会影响。

随着人工智能领域的飞速发展，实时 API 的推出标志着我们在创造更自然、响应迅速且实用性强的 AI 应用方面迈出了重要一步。通过填补人类对话与 AI 能力之间的鸿沟，OpenAI 不仅在改进现有的技术，更是在为全新的应用和体验开辟道路。未来的人工智能互动已初具雏形，它将以前所未有的流畅度进行说话、倾听和回应。随着开发者不断挖掘实时 API 的潜力，我们可以期待新一代由 AI 驱动的应用程序将彻底改变我们的工作、学习和沟通方式。人类与 AI 之间的对话即将变得更加自然、细腻和强大。

大模型刷新一切，让我们有着诸多的迷茫，AI 这股热潮究竟会推着我们走向何方？面对时不时一夜变天，焦虑感油然而生，开发者怎么能够更快、更系统地拥抱大模型？《新程序员 007》以「大模型时代，开发者的成长指南」为核心，希望拨开层层迷雾，让开发者定下心地看到及拥抱未来。

读过本书的开发者这样感慨道：“让我惊喜的是，中国还有这种高质量、贴近开发者的杂志，我感到非常激动。最吸引我的是里面有很多人对 AI 的看法和经验和一些采访的内容，这些内容既真实又有价值。”

能学习到新知识、产生共鸣，解答久困于心的困惑，这是《新程序员》的核心价值。欢迎扫描下方二维码订阅纸书和电子书。

http://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247582665&idx=1&sn=01f0bc5a2d6148aaa8b8e4aa1f29d24c

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

最新文章

Sam Altman 最新万字访谈自曝：大模型必定贬值，但不投资反而是错？

36 年开发老兵试用 Cursor AI 编程：真香还是交智商税？

微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

Google 危矣？ChatGPT 真变 AI 搜索引擎了！

DeepMind 联合创始人、微软 AI CEO：我们是否该给技术按下暂停键？

一直在“错过”的英特尔：19 年前，放弃 20 亿美元收购英伟达；6 年前，拒绝 1 亿美元入股 OpenAI！

新一代开发者产品 InsCode AI IDE 亮相：新程序员时代，CTRL+J 开启

直面“AI 取代程序员”论，《新程序员 008：大模型驱动软件开发》正式上市！

产品经理怎样利用大模型时代月入 10W+？

对话蚂蚁开源蒋炜：让 Agent 把运维人员从 24 小时的待命中解放出来

AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

在座的各位都是AI现实主义者，同时有那么一点儿理想

200+ 技术大咖汇聚星城，2024 1024 程序员节圆满落幕！

共筑智能应用新生态！OpenCV 之父领衔岳麓对话，2024 1024 程序员节正式开幕

海内外专家共话大模型、Rust、具身智能等最新进展，GOSIM CHINA 2024圆满收官！

花 3 万美元买“人工”智能？特斯拉 Optimus 机器人遭“打假”：有人在背后远程操控！

直击编程语言、App、AGI的开源实践，160+位全球技术专家齐聚，GOSIM CHINA 2024首日不容错过！

38岁老Mac“复工”，被改造上网！仅400B/s的速度，能和ChatGPT聊天、用Claude编码

架构师必备底层逻辑：分层架构设计

调查 800 名开发者后，研究发现：GitHub Copilot 无功无过，并未提升编码速度！

打造更安全、去中心化和协作的互联网！GOSIM CHINA 2024《下一代互联网》重磅嘉宾揭晓

图灵奖得主杨立昆：星舰不算科学成就，而是工程成就；现在 AI 全方面不如猫，智力、记忆和好奇心都差得远

Rust 群星闪耀！20+ 海内外顶尖 Rust 专家天团 GOSIM CHINA 2024 相聚北京

大模型驱动的产品范式创新研究与思考

SDV 峰会聚焦：下一代软件定义汽车的关键开源技术

腾讯写码 6 年，我总结的技术人核心竞争力

仓颉 Workshop：鸿蒙原生应用开发的技术盛宴

走近诺奖得主霍普菲尔德：“我当时寻找的是一道真正的‘难题’，而不是一个小问题”

Triton & vLLM 联袂呈现 AI 技术盛宴：高效推理框架的应用实践与未来创新

“深度学习教父”遇见诺贝尔物理学奖，唤起了 13 位 AI 界大神的回忆……

开创跨平台的未来！GOSIM CHINA 2024《App 开发》专题论坛重磅揭晓！

Sam Altman 也不得不服谷歌的这款 AI 应用？OpenAI CEO 对话 CPO，揭秘产品开发背后的故事

BAT、字节、快手等国内大模型TOP企业专家齐聚，2024全球机器学习技术大会前沿议题提前揭晓！

OpenAI 实时 API 震撼发布：语音应用的“ChatGPT”时刻来临！

高校开源爱好者集结令！GOSIM CHINA 2024 等你来！

9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

聚焦开源大模型前沿应用，GOSIM CHINA 2024《AI 模型与基础模型》专题论坛重磅揭晓！

CSDN 创始人蒋涛：不掌握 AI 开发者工具会丧失下一个战略高地

微软 Copilot 全面升级，语音模式正面硬刚 ChatGPT

程序员必备！面向Prompt编程全攻略

Transformer 作者离职 3 年后重返谷歌，被 189 亿元天价聘回！拯救谷歌 AI 于水火

软件的动态自修改是 AI 为软件开发带来的最大机会之一

全球Rust核心贡献者共话当下与未来！GOSIM CHINA 2024《Rust 编程语言》专题论坛重磅揭晓！

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

万字深剖！13位AI巨擘联袂，1.6万字解码生成式AI产品「全攻略」

深夜动荡再现：OpenAI CTO、两位核心骨干官宣离职，Altman被曝将首次获7%股权

Llama 3.2多模态模型发布；扎克伯格：AI还没到扩展极限，Llama 4会在十万张显卡上训练 | AI头条

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

谷歌 AI 产品经理：“软件工程师现在能够处理比过去复杂十倍的问题，Gemini 已成为性价比最高的 AI 开发首选平台”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉