ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

文摘 2024-10-02 06:06 美国

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

北美时间2024年10月1日，2024年度的OpenAI开发者大会（OpenAI DevDay 2024）如期而至。

1. ChatGPT实时语音将于本周向免费用户推出

在OpenAI DevDay 2024的最新更新中，OpenAI宣布从本周开始，实时语音功能（Advanced Voice Mode）将面向全球所有ChatGPT Enterprise、Edu和Team用户推出。此外，免费用户也将能够抢先体验到这一功能。

虽然OpenAI如是说，但不出意外，ChatGPT免费用户应该是只能够短暂体验实时语音功能（Advanced Voice Mode）这一新功能。毕竟对于ChatGPT Plus用户，实时语音功能也是有着聊天时长限制的，超过规定的聊天时长后，语音模式将会自动切换为标准语音模式（标准语音模式）。

目前OpenAI并没有给出明确的聊天时长限制，只是表示聊天时长的限制可能会随着计算资源而动态调整。聊天时长达到上限前15分钟，ChatGPT会发出通知提醒。

2. Realtime API

对于开发者，OpenAI推出了Realtime API，允许开发者在其应用中构建快速的语音聊天体验，类似于上面提到的ChatGPT实时语音模式（Advanced Voice Mode），但适用于开发者自己的应用。此API以低延迟提供自然的语音对话，现已面向付费开发者以公测形式推出。除了Realtime API，OpenAI还在其Chat Completions API中增加了音频输入和输出功能，开发者无需再将多个模型组合使用，单次API调用即可实现自然的语音对话体验。

主要特点：

低延迟的多模态体验：开发者可利用Realtime API实现快速的语音到语音转换，并支持在对话中插入功能调用，使语音助手可以执行操作或拉取上下文。
典型应用场景：可用于客户服务、语言学习、健康和健身教练等场景，提供自然流畅的语音交互。
音频定价：Realtime API支持文本和音频输入输出，按token分别计费，价格为每百万个输入音频tokens 100美元，每百万个输出音频tokens 200美元。
安全与隐私：Realtime API具备多层安全防护，防止滥用，并对用户输入输出进行监控。

3. 在Playground中自动生成Prompt

在OpenAI DevDay的更新中，OpenAI在Playground推出了自动生成Prompt提示词的功能。此功能可以帮助开发者更快地将想法转化为原型。开发者只需简单描述其使用模型的目的，Playground就会自动生成提示、有效的函数架构和结构化输出格式，让开发者更轻松地进行原型设计。

用过Claude控制台的小伙伴应该可以联想到，OpenAI新推出的这个功能对标的就是Claude几个月前在控制台添加的自动生成提示词的功能。详情可以看我这篇文章：《Claude更新王炸功能：一键生成、评估、优化提示词！》。

4. Prompt Caching（提示缓存）

此外，OpenAI推出了Prompt Caching（提示缓存）功能，让开发者能够降低使用成本并加快提示词处理速度。此功能可自动对模型最近处理过的输入令牌进行缓存，开发者可以以50%的折扣价格重复使用这些令牌，并且不会影响延迟。

主要特点：

折扣与定价：对于已经缓存的输入令牌，开发者可以获得50%的折扣。例如，GPT-4o模型的未缓存输入令牌费用为每百万tokens 2.50美元，而缓存令牌的费用为1.25美元。
自动应用：Prompt Caching将自动应用于最新版本的GPT-4o、GPT-4o mini、o1-preview和o1-mini模型，以及它们的微调版本。提示内容超过1024个令牌时，API会自动缓存，开发者无需修改API集成。
缓存清除：缓存通常在5到10分钟不活跃后清除，并在最后一次使用后一小时内完全移除。
企业隐私承诺：缓存不会在组织之间共享，且遵循OpenAI的企业隐私协议。

最后提一句，OpenAI这次推出的Prompt Caching（提示缓存）功能对标的也是Claude在今年8月推出的同名称的功能。

5. Model Distillation（模型蒸馏）

OpenAI在本次更新中推出了Model Distillation（模型蒸馏）功能，这是一个用于微调较小、成本效益更高模型的工作流程，利用大型模型（如GPT-4o或o1-preview）的输出来提升性能。

模型蒸馏的主要功能：

存储完成（Stored Completions）：开发者可以通过API捕捉并存储模型生成的输入输出对，生成用于微调的数据集。这使得使用生产数据构建数据集变得更加简单，以便评估和微调较小的模型。
评估（Evals，测试版）：开发者可以在OpenAI平台上创建和运行自定义评估，以衡量模型在特定任务上的性能。Evals与微调流程完全集成，也可以独立使用来评估模型性能。
微调集成：存储完成和评估工具与现有的微调功能相结合，开发者可以使用存储的完成数据集进行微调，并使用Evals测试微调后的模型性能。

模型蒸馏工作流程：

通过Evals创建一个评估，以测试目标模型（如GPT-4o mini）的性能。
使用Stored Completions生成真实世界任务的数据集，将大型模型（如GPT-4o）的输出作为微调的基准数据。
使用生成的数据集微调较小的模型（如GPT-4o mini），并通过Evals不断测试其性能。

模型蒸馏定价与可用性：

Model Distillation（模型蒸馏）功能现已向所有开发者开放，支持所有OpenAI模型。开发者每天可以获得2百万个免费训练令牌用于GPT-4o mini，直到10月31日。此外，存储完成是免费的，而Evals在2024年底之前，每周最多可运行7次免费的评估，条件是开发者选择将其评估共享给OpenAI以改进未来的模型。

6. Vision Fine-tuning（视觉微调）

OpenAI宣布在其微调API中添加了对视觉微调的支持，开发者现在可以使用图像和文本微调GPT-4o。这一功能为图像理解任务提供了更强大的定制能力，适用于增强视觉搜索、改进自动驾驶的物体检测、或更精确的医学图像分析等应用。

主要特点：

图像和文本结合微调：开发者可以通过上传图像数据集来增强GPT-4o的视觉处理能力，并且只需100张图像即可实现显著性能提升。随着图像和文本数据量的增加，性能将进一步提升。
真实世界应用：通过与合作伙伴的测试，GPT-4o在改进道路图像检测、自动化企业流程以及优化网站设计等领域表现出色。例如，Grab 使用视觉微调改进了道路标志定位准确性，Automat 提高了桌面机器人在识别UI元素时的成功率，Coframe 则通过视觉微调提升了网站设计的一致性。

视觉微调定价与可用性：

视觉微调现已向所有付费开发者开放，并支持最新的GPT-4o模型（gpt-4o-2024-08-06）。OpenAI提供了免费的视觉微调训练令牌，2024年10月31日前每天最多100万免费令牌。之后，微调训练将按每百万tokens 25美元收费，推理过程则按每百万输入tokens 3.75美元、输出tokens 15美元计费。

7. 扩大o1模型API的使用权限

OpenAI宣布扩大o1模型API的使用权限，允许账号使用级别第3层（usage tier 3）的开发者访问，并提升了调用速率限制，使其与GPT-4o的速率限制相同，以满足生产级别的应用开发。

第 5 层：o1-preview每分钟10,000个请求，o1-mini每分钟30,000个请求。
第 4 层：o1-preview和o1-mini均为每分钟10,000个请求。
第 3 层：o1-preview和o1-mini均为每分钟5,000个请求。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

http://mp.weixin.qq.com/s?__biz=MzkwMzYzMTc5NA==&mid=2247490888&idx=1&sn=608f03791da992f77cc61d9721f3be7d

AI信息Gap

AI信息差，让一部分人先AI起来。

一文带你了解红队测试！

AI眼中的麦琳...

国内首个对标o1的推理模型发布：DeepSeek-R1-Lite初体验！

ChatGPT高级语音模式正在向Web网页端推出！

ChatGPT Search VS Kimi探索版：AI搜索哪家强？！

AI Weekly『11月11-17日』：Kimi发布新一代数学推理模型，腾讯推出AI工作台ima！

谷歌Gemini发布iOS版App，live语音聊天免费用！

『深度分析』AI搜索的3大使用场景！

马斯克的xAI已开通网页版！目前免费！附详细教程和初体验

OpenAI花费千万美元购买了这个域名！

AI Weekly『11月4-10日』: Anthropic发布Claude 3.5 Haiku，腾讯开源混元-Large模型！

Sam Altman：年底将有重磅更新，但不是GPT-5！

马斯克发福利，每月免费25美元xAI API！附详细教程

我找了8个AI搜索工具总结2024美国大选，哪个最强？

Apple Intelligence体验报告/使用教程（一）：写作工具篇

ChatGPT Search浏览器插件手把手教学！OpenAI官方出品！

ChatGPT Search重磅发布！OpenAI牌搜索引擎来了！

聊一聊ChatGPT的两个更新：不起眼，但很重要！

一文记录Apple Intelligence从开始到设置全过程！

Apple Intelligence正式发布，送你这份完全攻略！

OpenAI CEO山姆·奥特曼亲自辟谣新模型Orion：假新闻失控了！

刚刚，Claude发布了数据分析功能！附详细教程！

OpenAI低调发布多智能体工具Swarm：让多个智能体协同工作！

重磅！Anthropic发布Claude 3.5 Haiku、升级版Sonnet和计算机自动化操作功能！

Claude Financial Data Analyst：基于Claude的金融数据分析工具！免费开源！

ChatGPT官方桌面客户端的平替，Github 52.7K Stars！支持Mac、Win、Linux！

刚刚，ChatGPT推出Windows客户端！

Kimi VS 智谱 VS 360：推理型AI搜索哪家强？！

盘点5个你应该知道的ChatGPT近期更新！免费实时语音终于来了！

OpenAI提示词生成工具详解！一键生成提示词！

『深度分析』Kimi版o1来了！Kimi探索版全面解读！

准备进入AI第三阶段：OpenAI推出AI Agent基准MLE-bench！

AI教父荣获2024诺贝尔物理学奖：杰弗里·辛顿和他的深度学习之路！

公众号GPT-4o mini免费AI聊天机器人已恢复！

Apple Intelligence将于10月28日发布，ChatGPT集成推迟！

『建议收藏』ChatGPT Canvas功能进阶使用指南！

OpenAI为ChatGPT推出Canvas功能，对标Claude Artifacts！

媲美GPT-4o mini的小模型，Meta Llama 3.2模型全面解读！

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

使用OpenAI最新模型o1的6种方式，总有一种适合你！

现实版宫斗剧《OpenAI传》，正在上演！

关于ChatGPT实时语音功能，你需要知道的15点总结！

重磅！ChatGPT实时语音终于要来了！附详细使用说明

让AI激发创作力：OpenAI分享5位专业作家利用ChatGPT写作的案例技巧

『深度长文』Anthropic推出全新“上下文检索”：大幅增加RAG检索准确性！

国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程！

美联储四年来首次降息意味着什么？来看看新模型o1怎么回答！

注意，传统的提示工程对新模型o1可能失效：来自OpenAI官方的4条提示词建议！

免费的新模型o1 mini即将到来：OpenAI正在逐步开放！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉