国内用不了，为什么我要了解 OpenAI 4o高级语音（类人精）正式推向市场？

文摘 2024-09-25 10:28 广东

点击⬇️图标关注抓住你的灵感💡瞬间

因为，目前没有平替...，而且奥特曼联手iPhone原设计师融10亿美元在搞新AI设备了。

要知道AI语音siri时代只是指令水平，答非所问的智障感和延迟反映的顿挫感很难做好人类助手。

但4o不一样，这个我们在5月发布会就分析过OpenAI 用它的首字母O显露商业意图 | GPT-4o全能“类人精”上位(5月的一些观点，现在仍然有效）。

我现在仍然认为他很快会成为AI时代的杀手级应用，而且这只是前菜，依靠这种能力的跃阶，AI硬件也在路上了。

发出“奶奶，对不起，我迟到了，我不是故意的，我能怎么补偿你”的那段宣传片（23s开始）

所以除了演示视频，我还完整翻译了OpenAI官方高级语音的Q&A，放在文末。

对蓝色海洋球的高级语音功能划重点（你需要知道的就那么多，后面会用到）

高级语音现已在 iOS 和 Android 移动应用程序中推出，版本 1.2024.261 或更高。

高级语音正在向所有 Plus 和团队用户逐步推出，并将在一周内完成。

高级语音尚未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登提供。

改进了某些外国语言的对话速度、流畅度和口音。

还有哪些细节和亮点呢？以及哪些没兑现？

主要特性

高级语音:

仅限Plus和Team用户
使用GPT-4o,支持实时对话
能理解非语言线索(如语速)
可以表达情感

标准语音（之前也一直可用，不是重点）:

所有登录用户可用
使用多个模型处理
先转录文本再生成回复

使用限制

高级语音:每日使用时长有限制
标准语音:受消息数量限制
无法生成音乐内容
可能会出现中断或错误

隐私与数据

高级语音:音频与对话记录一起保存
标准语音:音频在转录后删除
默认不用于模型训练
用户可选择分享音频以改进模型

注意事项

音频质量:

建议使用耳机
iPhone用户可开启"语音隔离"

记录保存:

删除对话后,相关音频30天内删除
存档的对话仍保留音频

模型训练:

用户可选择分享音频用于训练
即使停止分享,之前的匿名数据可能继续使用

功能局限性:

与GPTs对话仅支持标准语音
高级语音不支持生成图像等多模态任务

准确性:

转录可能与实际对话有出入
重要信息需要二次确认

为什么用不了还要关注（似乎苹果老友在被刺）

这距离发布会已经过去4个月了，但依然能够遥遥领先......

一是之前猥琐发育期间能够拿到不少网络的数据训练，多模态效果好；

二是山姆奥特曼敢强先发布并推向市场，未知风险还是有的。我的观点还是靠后期审核无法完全杜绝“越狱”。

有一点OpenAI总裁说的是对的，这种端到端的语音对话，丝滑程度是之前文本转语音无法对比的。就像你现在不可能接受一个网页打开要10秒一样。

还有个重磅消息，纽约时报爆料Sam Altman与 2019 年离开苹果的 Jony Ive (设计了iPhone，苹果产品的极简美学）暗中合作，计划推出一款可能终结 iPhone 的产品(或者说AI时代iPhone)？

总部设在在旧金山杰克逊广场购买的房产中。Jony Ive 已经组建了一个约 10 人的精英团队,其中包括曾主导 iPhone 产品开发的 Tang Tan,以及在 Apple 公司接替 Ive 先生领导设计工作的 Evans Hankey。

联合创始人 Marc Newson 仅仅透露，他们 “仍在研究产品的细节以及其发布日期” 。

基本信息：

AI 天才 + 设计传奇 + Jobs 家族财富
计划在 2024 年底前筹集 10 亿美元
目标：重新定义我们对计算设备的认知

所以，高级语言功能的产品设定和一些细节，都在为下一代AI交互硬件做准备。值得一读。

今天，Meta Connet 2024也将推出新一代的AI硬件（AR眼镜？）。

AILin笔记 | 李楠AI 硬件创业取舍之道：从 Meta Glasses 和端侧模型看未来趋势

下面是OpenAI 官方Q&A文档

常见问题解答

什么是语音聊天？

语音聊天使您能够与 ChatGPT 进行对话，提供更自然的互动方式。您可以通过语音输入问题或进行讨论，并接收到 ChatGPT 的语音回复。

我们提供两种语音聊天类型：标准语音和高级语音。

高级语音正在向 Plus 和团队用户逐步推出。它使用 GPT-4o 的原生音频功能，支持更自然、实时的对话，能识别非语言线索（如语速），并带有情感地进行回应。Plus 和团队用户每天使用高级语音的时间有限。
标准语音对所有登录用户开放，支持通过 iOS、macOS 和 Android 应用进行使用。标准语音利用多种模型生成回复，首先将语音转录为文字再处理。虽然标准语音不像高级语音那样支持多模态，但它同样使用 GPT-4o 及其 mini 版本。标准语音的每次对话均计入消息限制。

语音聊天可能会出错，因此请核实重要信息。高级语音的访问权限和使用限制可能会有所变化。

如何开始语音聊天？

点击屏幕右下角的语音图标即可开始语音聊天：

开始高级语音聊天时，您会看到一个蓝色光球。

标准语音聊天的屏幕中央则会显示一个黑色圆圈。

在语音聊天过程中，您可以点击左下角的麦克风图标进行静音或取消静音。

如果此功能尚未推出，您将看到耳机入口图标而不是静音/取消静音按钮。

点击屏幕右下角的退出图标可以结束对话。

如果是首次使用语音聊天，或第一次使用高级语音，系统会提示您选择语音。请注意，选择器中的声音音量与实际语音对话时可能有所不同。您可以随时在设置中更改声音，高级语音用户也可以在语音模式下通过自定义菜单进行更改。

请注意，使用此功能需要为 ChatGPT 应用授予麦克风权限。

可用的语音选项有哪些？

您可以选择九种逼真的输出声音，每种声音都有其独特的语气和风格（绿色为新增语音）：

Arbor - 轻松随和，适应性强
Breeze - 热情生动
Cove - 冷静直接
Ember - 自信乐观
Juniper - 开朗积极
Maple - 开心坦率
Sol - 精明放松
Spruce - 平静肯定
Vale - 明亮好奇

语音聊天可以持续多久？

Plus 和团队用户每天使用高级语音的时间有限，具体限制可能会变化。当您接近每日限制时，系统会发出通知。当高级语音剩余 15 分钟时，您将收到提醒。

达到高级语音每日限额后，对话将立即结束，您可以继续使用标准语音进行对话。

标准语音使用与其模型共享的消息限制。了解更多关于 ChatGPT 的消息限制信息。

我可以在其他应用或锁屏时继续语音聊天吗？

可以，通过在设置中开启“后台对话”，您可以在标准语音或高级语音模式下后台继续对话。

我可以恢复以前的语音对话吗？

高级语音聊天可以通过高级语音、文本或标准语音恢复。由于高级语音尚不支持图像等功能，文本或标准语音对话无法在高级语音模式中继续。

标准语音对话可以通过标准语音或文本恢复，但无法通过高级语音继续。

如何防止高级语音对话中断？

在高级语音对话期间，可能会有中断情况。建议使用耳机进行高级语音对话。

在 iPhone 上，启用“语音隔离”麦克风模式有助于减少中断。打开控制中心，选择“麦克风模式”，并切换到“语音隔离”。

如果仍遇到问题，建议重启应用，调高音量或换个更安静的环境。

请注意，高级语音尚未针对车载蓝牙或免提功能进行优化。

我可以与 GPTs 进行语音对话吗？

标准语音支持与 GPTs 对话。GPTs 使用一种名为 Shimmer 的独特语音，与用于 ChatGPT 的九种语音不同。

高级语音目前尚未支持 GPTs。如果尝试与 GPT 进行高级语音对话，系统会提示您开始新的标准语音聊天。

语音对话支持记忆和自定义指令吗？

高级语音支持创建、访问记忆和自定义指令。而标准语音对话同样支持这些功能。

可以通过语音生成音乐内容吗？

不可以。为了尊重创作者权益，我们采取了一些措施，包括新过滤器，防止语音对话生成音乐内容，包括唱歌。

如果我降级为免费账户，会失去高级语音功能吗？

是的，高级语音仅对 ChatGPT Plus 和团队账户用户开放。

为什么语音转录有时与对话不符？

高级语音使用 GPT-4o，支持音频交换，因此转录可能并不完全匹配原始对话。

我可以为语音对话设置音量限制吗？

不可以。音量设置需要在设备上进行调整。

如何对我的语音对话提供反馈？

所有语音对话结束后，用户将看到一个反馈横幅。此调查主要收集语音通话体验而非对话内容。

Plus 和团队用户的反馈横幅中会有点赞或点踩选项。

企业用户同样会看到反馈横幅，但不会有点赞或点踩选项。

语音对话有字幕吗？

语音对话期间不显示字幕。结束语音对话后，转录内容将显示在当前的文字对话中。您可以在 ChatGPT 网页版、桌面版的左侧聊天历史中或移动应用的菜单中查看对话转录。

我可以同时进行多个语音对话吗？

不可以，您一次只能进行一个语音对话。

为什么语音对话中会出现“抱歉，我的指南不允许我谈论这个”这样的回应？

这是我们的安全措施。如果您认为问题符合使用政策，请通过对话结束后的反馈选项告诉我们。

为什么语音输入识别的语言与我说的语言不同？

有时识别的语言可能不准确。您可以语音纠正模型使用您选择的语言。在标准语音中，也可以在设置中选择首选语言以提高准确性。

打开侧边栏，点击屏幕左上角的两条线，选择屏幕底部的名字以打开设置。

在设置页面中，向下滚动到“语音”部分，选择“主要语言”以设置您的语言。

隐私与控制

我的语音对话音频会保存多久？

高级语音对话的音频与转录一起保存在聊天历史中。聊天历史中有一个指示符显示哪些对话使用了高级语音：可以看到灰色的文本和小麦克风图标。

音频片段会与聊天历史一起保存。如果您删除聊天记录，我们将在 30 天内删除相关音频片段，除非出于安全或法律原因需要保留，或者您之前已选择分享音频以训练模型，且该音频已与账户信息分离。

一旦删除，无法恢复。如果想隐藏聊天记录但保留内容，可以使用归档功能。归档的聊天记录将继续保留音频片段。

了解更多内容如何用于模型训练以及您的选择。

在标准语音模式中，音频片段会在转录完成后删除，除非您选择分享音频用于训练模型。

会使用我的语音对话音频来训练模型吗？

不会，除非您选择分享语音音频来训练模型。

如果您启用了“为所有人改进模型”，我们可能会使用转录内容训练模型，但不会使用与您账户关联的音频，除非您选择分享音频。了解更多关于选择的信息。

分享音频以改善语音对话体验

免费和 Plus 用户可以通过数据控制设置开启“为所有人改进语音”以帮助改进模型。此部分提供关于分享音频的详细信息。

谁可以分享音频来改善语音对话？

免费和 Plus 计划的用户可以分享个人工作区中的语音对话音频。团队和企业用户无法分享音频。

如果我选择分享音频，会发生什么？

如果选择分享音频，音频将用于训练模型，同时也会保存标准语音对话的音频。我们会尽量减少用于训练的音频中的个人信息。我们的团队可能会审查您分享的音频。

如何停止分享音频？

您可以通过 ChatGPT 设置中的数据控制页面停止分享音频。关闭“为所有人改进语音”即可。

如果未看到此选项，表示您没有分享音频，我们不会使用您的音频。

停止分享音频会怎样？

如果停止分享，新对话中的音频不会再用于训练。以前与账户信息分离的音频片段可能继续用于训练。

如果停止分享音频，但启用了“为所有人改进模型”，转录内容仍可能用于训练。完全退出需关闭“为所有人改进模型”。

分享音频的设置是设备特定的吗？

分享音频的设置与账户关联，适用于所有登录设备。您可以随时通过设置停止分享音频。

参考：
https://www.kisacoresearch.com/blog/sam-altman-joining-forces-design-guru-jony-ive-and-laurene-powell-jobs-build-new-ai-device

https://help.openai.com/en/articles/8400625-voice-mode-faq

https://www.nytimes.com/2024/09/21/technology/jony-ive-apple-lovefrom.html

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～谢谢你看我的文章，我们，下次再见。

点击关注和转发公众号保持你对AI优质内容的敏感

网友创意应用4o高级语音功能：给吉他调音

AI趋势全天候

以AI之名，探索未知。 🧠观察行业，关照本心，时常好奇，时常喜欢猫。随缘私信交流

生成式AI视频简史、世界模型与艺术的联结：Runway联创Anastasis Germanidis演讲编译

OpenAI 的产品管理与人工智能的未来: Kevin Weil访谈

马斯克的载入历史的一周：自动驾驶与太空探索的关键进展

HeyGen CEO 万字访谈 | TikTok 的生成式 AI 困境、语音克隆的挑战以及交互式虚拟人的未来

“我们基本上不做大语言模型了，转向人类级别的 AI” | Yann LeCun的思考

从 SaaS 到智能体：IQ+EQ+AQ三商加成下AI将发生角色转换 | 微软CEO舒尔曼观点

ChatGPT是闪电捕手，后续押注产品持久性和用户信任 | OpenAI投资人郭士纳观点

10月AI报告 | AIR STREET CAPITAL 2024全球AI发展现状十大要点（附212页报告链接）

Cursor二号位00后工程师揭秘内部团队：放弃大学期末考，只为加入AI创业

【AI从业必读】Anthropic CEO长文预判AI未来--强大的人工智能的基本假设和框架（6个特性）

NotebookLM产品经理Raiza Martin揭秘背后故事 | Google Labs AI高级产品经理专访

红杉报告 | 生成式AI的o1篇章：智能推理新时代的开启【译】

上传日记让NotebookLM秒变AI陪伴应用

10/10 Tesla We Robot会前展望：三款新车预测引发行业热议

冷知识 | 视频画质下降的真相——技术发展与平台利益对弈

Steven Johnson专访：预见NotebookLM下一步将开发视频生成

创业不疯魔，等于白忙活 | 从0到40亿美元估值：Scale创始人Wang的"过度"哲学

大A和生成式AI的异同

“Fast is Fun” Cursor创始团队看到了编程的未来图景

谷歌NotebookLM起飞！背后团队讲述“小灵快”AI产品故事

【BOS万字专访】AI眼镜要替代手机？别让科技把你玩成傻子！—Meta CTO解惑+祛魅，畅谈AI、AR、脑机接口

推理时间计算和AGI之路 - 对话OpenAI研究人员 | Sequoia Capital访谈

ChatGPT高级语音免费推送所有注册用户，亲测！ | OpenAI's DevDay 2024福利