点击⬇️图标关注 抓住你的灵感💡瞬间
因为,目前没有平替...,而且奥特曼联手iPhone原设计师融10亿美元在搞新AI设备了。
要知道AI语音siri时代只是指令水平,答非所问的智障感和延迟反映的顿挫感很难做好人类助手。
但4o不一样,这个我们在5月发布会就分析过OpenAI 用它的首字母O显露商业意图 | GPT-4o全能“类人精”上位(5月的一些观点,现在仍然有效)。
我现在仍然认为他很快会成为AI时代的杀手级应用,而且这只是前菜,依靠这种能力的跃阶,AI硬件也在路上了。
发出“奶奶,对不起,我迟到了,我不是故意的,我能怎么补偿你”的那段宣传片(23s开始)
所以除了演示视频,我还完整翻译了OpenAI官方高级语音的Q&A,放在文末。
对蓝色海洋球的高级语音功能划重点(你需要知道的就那么多,后面会用到)
高级语音现已在 iOS 和 Android 移动应用程序中推出,版本 1.2024.261 或更高。
高级语音正在向所有 Plus 和团队用户逐步推出,并将在一周内完成。
高级语音尚未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登提供。
改进了某些外国语言的对话速度、流畅度和口音。
还有哪些细节和亮点呢?以及哪些没兑现?
主要特性
高级语音:
仅限Plus和Team用户 使用GPT-4o,支持实时对话 能理解非语言线索(如语速) 可以表达情感
所有登录用户可用 使用多个模型处理 先转录文本再生成回复
使用限制
高级语音:每日使用时长有限制 标准语音:受消息数量限制 无法生成音乐内容 可能会出现中断或错误
隐私与数据
高级语音:音频与对话记录一起保存 标准语音:音频在转录后删除 默认不用于模型训练 用户可选择分享音频以改进模型
注意事项
音频质量:
建议使用耳机 iPhone用户可开启"语音隔离"
删除对话后,相关音频30天内删除 存档的对话仍保留音频
用户可选择分享音频用于训练 即使停止分享,之前的匿名数据可能继续使用
与GPTs对话仅支持标准语音 高级语音不支持生成图像等多模态任务
转录可能与实际对话有出入 重要信息需要二次确认
为什么用不了还要关注(似乎苹果老友在被刺)
这距离发布会已经过去4个月了,但依然能够遥遥领先......
一是之前猥琐发育期间能够拿到不少网络的数据训练,多模态效果好;
二是山姆奥特曼敢强先发布并推向市场,未知风险还是有的。我的观点还是靠后期审核无法完全杜绝“越狱”。
有一点OpenAI总裁说的是对的,这种端到端的语音对话,丝滑程度是之前文本转语音无法对比的。就像你现在不可能接受一个网页打开要10秒一样。
还有个重磅消息,纽约时报爆料Sam Altman与 2019 年离开苹果的 Jony Ive (设计了iPhone,苹果产品的极简美学)暗中合作,计划推出一款可能终结 iPhone 的产品(或者说AI时代iPhone)?
总部设在在旧金山杰克逊广场购买的房产中。Jony Ive 已经组建了一个约 10 人的精英团队,其中包括曾主导 iPhone 产品开发的 Tang Tan,以及在 Apple 公司接替 Ive 先生领导设计工作的 Evans Hankey。
联合创始人 Marc Newson 仅仅透露,他们 “仍在研究产品的细节以及其发布日期” 。
基本信息:
AI 天才 + 设计传奇 + Jobs 家族财富 计划在 2024 年底前筹集 10 亿美元 目标:重新定义我们对计算设备的认知
所以,高级语言功能的产品设定和一些细节,都在为下一代AI交互硬件做准备。值得一读。
今天,Meta Connet 2024也将推出新一代的AI硬件(AR眼镜?)。
AILin笔记 | 李楠AI 硬件创业取舍之道:从 Meta Glasses 和端侧模型看未来趋势
下面是OpenAI 官方Q&A文档
常见问题解答
什么是语音聊天?
语音聊天使您能够与 ChatGPT 进行对话,提供更自然的互动方式。您可以通过语音输入问题或进行讨论,并接收到 ChatGPT 的语音回复。
我们提供两种语音聊天类型:标准语音和高级语音。
高级语音正在向 Plus 和团队用户逐步推出。它使用 GPT-4o 的原生音频功能,支持更自然、实时的对话,能识别非语言线索(如语速),并带有情感地进行回应。Plus 和团队用户每天使用高级语音的时间有限。 标准语音对所有登录用户开放,支持通过 iOS、macOS 和 Android 应用进行使用。标准语音利用多种模型生成回复,首先将语音转录为文字再处理。虽然标准语音不像高级语音那样支持多模态,但它同样使用 GPT-4o 及其 mini 版本。标准语音的每次对话均计入消息限制。
语音聊天可能会出错,因此请核实重要信息。高级语音的访问权限和使用限制可能会有所变化。
如何开始语音聊天?
点击屏幕右下角的语音图标即可开始语音聊天:
开始高级语音聊天时,您会看到一个蓝色光球。
标准语音聊天的屏幕中央则会显示一个黑色圆圈。
在语音聊天过程中,您可以点击左下角的麦克风图标进行静音或取消静音。
如果此功能尚未推出,您将看到耳机入口图标而不是静音/取消静音按钮。
点击屏幕右下角的退出图标可以结束对话。
如果是首次使用语音聊天,或第一次使用高级语音,系统会提示您选择语音。请注意,选择器中的声音音量与实际语音对话时可能有所不同。您可以随时在设置中更改声音,高级语音用户也可以在语音模式下通过自定义菜单进行更改。
请注意,使用此功能需要为 ChatGPT 应用授予麦克风权限。
可用的语音选项有哪些?
您可以选择九种逼真的输出声音,每种声音都有其独特的语气和风格(绿色为新增语音):
Arbor - 轻松随和,适应性强 Breeze - 热情生动 Cove - 冷静直接 Ember - 自信乐观 Juniper - 开朗积极 Maple - 开心坦率 Sol - 精明放松 Spruce - 平静肯定 Vale - 明亮好奇
语音聊天可以持续多久?
Plus 和团队用户每天使用高级语音的时间有限,具体限制可能会变化。当您接近每日限制时,系统会发出通知。当高级语音剩余 15 分钟时,您将收到提醒。
达到高级语音每日限额后,对话将立即结束,您可以继续使用标准语音进行对话。
标准语音使用与其模型共享的消息限制。了解更多关于 ChatGPT 的消息限制信息。
我可以在其他应用或锁屏时继续语音聊天吗?
可以,通过在设置中开启“后台对话”,您可以在标准语音或高级语音模式下后台继续对话。
我可以恢复以前的语音对话吗?
高级语音聊天可以通过高级语音、文本或标准语音恢复。由于高级语音尚不支持图像等功能,文本或标准语音对话无法在高级语音模式中继续。
标准语音对话可以通过标准语音或文本恢复,但无法通过高级语音继续。
如何防止高级语音对话中断?
在高级语音对话期间,可能会有中断情况。建议使用耳机进行高级语音对话。
在 iPhone 上,启用“语音隔离”麦克风模式有助于减少中断。打开控制中心,选择“麦克风模式”,并切换到“语音隔离”。
如果仍遇到问题,建议重启应用,调高音量或换个更安静的环境。
请注意,高级语音尚未针对车载蓝牙或免提功能进行优化。
我可以与 GPTs 进行语音对话吗?
标准语音支持与 GPTs 对话。GPTs 使用一种名为 Shimmer 的独特语音,与用于 ChatGPT 的九种语音不同。
高级语音目前尚未支持 GPTs。如果尝试与 GPT 进行高级语音对话,系统会提示您开始新的标准语音聊天。
语音对话支持记忆和自定义指令吗?
高级语音支持创建、访问记忆和自定义指令。而标准语音对话同样支持这些功能。
可以通过语音生成音乐内容吗?
不可以。为了尊重创作者权益,我们采取了一些措施,包括新过滤器,防止语音对话生成音乐内容,包括唱歌。
如果我降级为免费账户,会失去高级语音功能吗?
是的,高级语音仅对 ChatGPT Plus 和团队账户用户开放。
为什么语音转录有时与对话不符?
高级语音使用 GPT-4o,支持音频交换,因此转录可能并不完全匹配原始对话。
我可以为语音对话设置音量限制吗?
不可以。音量设置需要在设备上进行调整。
如何对我的语音对话提供反馈?
所有语音对话结束后,用户将看到一个反馈横幅。此调查主要收集语音通话体验而非对话内容。
Plus 和团队用户的反馈横幅中会有点赞或点踩选项。
企业用户同样会看到反馈横幅,但不会有点赞或点踩选项。
语音对话有字幕吗?
语音对话期间不显示字幕。结束语音对话后,转录内容将显示在当前的文字对话中。您可以在 ChatGPT 网页版、桌面版的左侧聊天历史中或移动应用的菜单中查看对话转录。
我可以同时进行多个语音对话吗?
不可以,您一次只能进行一个语音对话。
为什么语音对话中会出现“抱歉,我的指南不允许我谈论这个”这样的回应?
这是我们的安全措施。如果您认为问题符合使用政策,请通过对话结束后的反馈选项告诉我们。
为什么语音输入识别的语言与我说的语言不同?
有时识别的语言可能不准确。您可以语音纠正模型使用您选择的语言。在标准语音中,也可以在设置中选择首选语言以提高准确性。
打开侧边栏,点击屏幕左上角的两条线,选择屏幕底部的名字以打开设置。
在设置页面中,向下滚动到“语音”部分,选择“主要语言”以设置您的语言。
隐私与控制
我的语音对话音频会保存多久?
高级语音对话的音频与转录一起保存在聊天历史中。聊天历史中有一个指示符显示哪些对话使用了高级语音:可以看到灰色的文本和小麦克风图标。
音频片段会与聊天历史一起保存。如果您删除聊天记录,我们将在 30 天内删除相关音频片段,除非出于安全或法律原因需要保留,或者您之前已选择分享音频以训练模型,且该音频已与账户信息分离。
一旦删除,无法恢复。如果想隐藏聊天记录但保留内容,可以使用归档功能。归档的聊天记录将继续保留音频片段。
了解更多内容如何用于模型训练以及您的选择。
在标准语音模式中,音频片段会在转录完成后删除,除非您选择分享音频用于训练模型。
会使用我的语音对话音频来训练模型吗?
不会,除非您选择分享语音音频来训练模型。
如果您启用了“为所有人改进模型”,我们可能会使用转录内容训练模型,但不会使用与您账户关联的音频,除非您选择分享音频。了解更多关于选择的信息。
分享音频以改善语音对话体验
免费和 Plus 用户可以通过数据控制设置开启“为所有人改进语音”以帮助改进模型。此部分提供关于分享音频的详细信息。
谁可以分享音频来改善语音对话?
免费和 Plus 计划的用户可以分享个人工作区中的语音对话音频。团队和企业用户无法分享音频。
如果我选择分享音频,会发生什么?
如果选择分享音频,音频将用于训练模型,同时也会保存标准语音对话的音频。我们会尽量减少用于训练的音频中的个人信息。我们的团队可能会审查您分享的音频。
如何停止分享音频?
您可以通过 ChatGPT 设置中的数据控制页面停止分享音频。关闭“为所有人改进语音”即可。
如果未看到此选项,表示您没有分享音频,我们不会使用您的音频。
停止分享音频会怎样?
如果停止分享,新对话中的音频不会再用于训练。以前与账户信息分离的音频片段可能继续用于训练。
如果停止分享音频,但启用了“为所有人改进模型”,转录内容仍可能用于训练。完全退出需关闭“为所有人改进模型”。
分享音频的设置是设备特定的吗?
分享音频的设置与账户关联,适用于所有登录设备。您可以随时通过设置停止分享音频。
参考:
https://www.kisacoresearch.com/blog/sam-altman-joining-forces-design-guru-jony-ive-and-laurene-powell-jobs-build-new-ai-device
https://help.openai.com/en/articles/8400625-voice-mode-faq
https://www.nytimes.com/2024/09/21/technology/jony-ive-apple-lovefrom.html
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
点击关注和转发公众号 保持你对AI优质内容的敏感
网友创意应用4o高级语音功能:给吉他调音