国内用不了,为什么我要了解 OpenAI 4o高级语音(类人精)正式推向市场?

文摘   2024-09-25 10:28   广东  

点击⬇️图标关注   抓住你的灵感💡瞬间


因为,目前没有平替...,而且奥特曼联手iPhone原设计师融10亿美元在搞新AI设备了。

要知道AI语音siri时代只是指令水平,答非所问的智障感和延迟反映的顿挫感很难做好人类助手。

但4o不一样,这个我们在5月发布会就分析过OpenAI 用它的首字母O显露商业意图 | GPT-4o全能“类人精”上位(5月的一些观点,现在仍然有效)。

我现在仍然认为他很快会成为AI时代的杀手级应用,而且这只是前菜,依靠这种能力的跃阶,AI硬件也在路上了。

发出“奶奶,对不起,我迟到了,我不是故意的,我能怎么补偿你”的那段宣传片(23s开始)

所以除了演示视频,我还完整翻译了OpenAI官方高级语音的Q&A,放在文末。

对蓝色海洋球的高级语音功能划重点你需要知道的就那么多,后面会用到)

高级语音现已在 iOS 和 Android 移动应用程序中推出,版本 1.2024.261 或更高。

高级语音正在向所有 Plus 和团队用户逐步推出,并将在一周内完成。

高级语音尚未在欧盟、英国、瑞士、冰岛、挪威和列支敦士登提供。

改进了某些外国语言的对话速度、流畅度和口音。

还有哪些细节和亮点呢?以及哪些没兑现?

主要特性

  1. 高级语音:
  • 仅限Plus和Team用户
  • 使用GPT-4o,支持实时对话
  • 能理解非语言线索(如语速)
  • 可以表达情感
  • 标准语音(之前也一直可用,不是重点):
    • 所有登录用户可用
    • 使用多个模型处理
    • 先转录文本再生成回复

    使用限制

    • 高级语音:每日使用时长有限制
    • 标准语音:受消息数量限制
    • 无法生成音乐内容
    • 可能会出现中断或错误

    隐私与数据

    • 高级语音:音频与对话记录一起保存
    • 标准语音:音频在转录后删除
    • 默认不用于模型训练
    • 用户可选择分享音频以改进模型

    注意事项

    1. 音频质量:
    • 建议使用耳机
    • iPhone用户可开启"语音隔离"
  • 记录保存:
    • 删除对话后,相关音频30天内删除
    • 存档的对话仍保留音频
  • 模型训练:
    • 用户可选择分享音频用于训练
    • 即使停止分享,之前的匿名数据可能继续使用
  • 功能局限性:
    • 与GPTs对话仅支持标准语音
    • 高级语音不支持生成图像等多模态任务
  • 准确性:
    • 转录可能与实际对话有出入
    • 重要信息需要二次确认

    为什么用不了还要关注(似乎苹果老友在被刺)

    这距离发布会已经过去4个月了,但依然能够遥遥领先......

    一是之前猥琐发育期间能够拿到不少网络的数据训练,多模态效果好;

    二是山姆奥特曼敢强先发布并推向市场,未知风险还是有的。我的观点还是靠后期审核无法完全杜绝“越狱”。

    有一点OpenAI总裁说的是对的,这种端到端的语音对话,丝滑程度是之前文本转语音无法对比的。就像你现在不可能接受一个网页打开要10秒一样。

    还有个重磅消息,纽约时报爆料Sam Altman与 2019 年离开苹果的 Jony Ive (设计了iPhone,苹果产品的极简美学)暗中合作,计划推出一款可能终结 iPhone 的产品(或者说AI时代iPhone)?

    总部设在在旧金山杰克逊广场购买的房产中。Jony Ive 已经组建了一个约 10 人的精英团队,其中包括曾主导 iPhone 产品开发的 Tang Tan,以及在 Apple 公司接替 Ive 先生领导设计工作的 Evans Hankey。

    联合创始人 Marc Newson 仅仅透露,他们 “仍在研究产品的细节以及其发布日期” 。

    基本信息:

    • AI 天才 + 设计传奇 + Jobs 家族财富
    • 计划在 2024 年底前筹集 10 亿美元
    • 目标:重新定义我们对计算设备的认知

    所以,高级语言功能的产品设定和一些细节,都在为下一代AI交互硬件做准备。值得一读。

    今天,Meta Connet 2024也将推出新一代的AI硬件(AR眼镜?)。

    AILin笔记 | 李楠AI 硬件创业取舍之道:从 Meta Glasses 和端侧模型看未来趋势


    下面是OpenAI 官方Q&A文档

    常见问题解答

    什么是语音聊天?

    语音聊天使您能够与 ChatGPT 进行对话,提供更自然的互动方式。您可以通过语音输入问题或进行讨论,并接收到 ChatGPT 的语音回复。

    我们提供两种语音聊天类型:标准语音和高级语音。

    • 高级语音正在向 Plus 和团队用户逐步推出。它使用 GPT-4o 的原生音频功能,支持更自然、实时的对话,能识别非语言线索(如语速),并带有情感地进行回应。Plus 和团队用户每天使用高级语音的时间有限。
    • 标准语音对所有登录用户开放,支持通过 iOS、macOS 和 Android 应用进行使用。标准语音利用多种模型生成回复,首先将语音转录为文字再处理。虽然标准语音不像高级语音那样支持多模态,但它同样使用 GPT-4o 及其 mini 版本。标准语音的每次对话均计入消息限制。

    语音聊天可能会出错,因此请核实重要信息。高级语音的访问权限和使用限制可能会有所变化。

    如何开始语音聊天?

    点击屏幕右下角的语音图标即可开始语音聊天:

    开始高级语音聊天时,您会看到一个蓝色光球。

    标准语音聊天的屏幕中央则会显示一个黑色圆圈。

    在语音聊天过程中,您可以点击左下角的麦克风图标进行静音或取消静音。

    如果此功能尚未推出,您将看到耳机入口图标而不是静音/取消静音按钮。

    点击屏幕右下角的退出图标可以结束对话。

    如果是首次使用语音聊天,或第一次使用高级语音,系统会提示您选择语音。请注意,选择器中的声音音量与实际语音对话时可能有所不同。您可以随时在设置中更改声音,高级语音用户也可以在语音模式下通过自定义菜单进行更改。

    请注意,使用此功能需要为 ChatGPT 应用授予麦克风权限。

    可用的语音选项有哪些?

    您可以选择九种逼真的输出声音,每种声音都有其独特的语气和风格(绿色为新增语音):

    • Arbor - 轻松随和,适应性强
    • Breeze - 热情生动
    • Cove - 冷静直接
    • Ember - 自信乐观
    • Juniper - 开朗积极
    • Maple - 开心坦率
    • Sol - 精明放松
    • Spruce - 平静肯定
    • Vale - 明亮好奇

    语音聊天可以持续多久?

    Plus 和团队用户每天使用高级语音的时间有限,具体限制可能会变化。当您接近每日限制时,系统会发出通知。当高级语音剩余 15 分钟时,您将收到提醒。

    达到高级语音每日限额后,对话将立即结束,您可以继续使用标准语音进行对话。

    标准语音使用与其模型共享的消息限制。了解更多关于 ChatGPT 的消息限制信息。

    我可以在其他应用或锁屏时继续语音聊天吗?

    可以,通过在设置中开启“后台对话”,您可以在标准语音或高级语音模式下后台继续对话。

    我可以恢复以前的语音对话吗?

    高级语音聊天可以通过高级语音、文本或标准语音恢复。由于高级语音尚不支持图像等功能,文本或标准语音对话无法在高级语音模式中继续。

    标准语音对话可以通过标准语音或文本恢复,但无法通过高级语音继续。

    如何防止高级语音对话中断?

    在高级语音对话期间,可能会有中断情况。建议使用耳机进行高级语音对话。

    在 iPhone 上,启用“语音隔离”麦克风模式有助于减少中断。打开控制中心,选择“麦克风模式”,并切换到“语音隔离”。

    如果仍遇到问题,建议重启应用,调高音量或换个更安静的环境。

    请注意,高级语音尚未针对车载蓝牙或免提功能进行优化。

    我可以与 GPTs 进行语音对话吗?

    标准语音支持与 GPTs 对话。GPTs 使用一种名为 Shimmer 的独特语音,与用于 ChatGPT 的九种语音不同。

    高级语音目前尚未支持 GPTs。如果尝试与 GPT 进行高级语音对话,系统会提示您开始新的标准语音聊天。

    语音对话支持记忆和自定义指令吗?

    高级语音支持创建、访问记忆和自定义指令。而标准语音对话同样支持这些功能。

    可以通过语音生成音乐内容吗?

    不可以。为了尊重创作者权益,我们采取了一些措施,包括新过滤器,防止语音对话生成音乐内容,包括唱歌。

    如果我降级为免费账户,会失去高级语音功能吗?

    是的,高级语音仅对 ChatGPT Plus 和团队账户用户开放。

    为什么语音转录有时与对话不符?

    高级语音使用 GPT-4o,支持音频交换,因此转录可能并不完全匹配原始对话。

    我可以为语音对话设置音量限制吗?

    不可以。音量设置需要在设备上进行调整。

    如何对我的语音对话提供反馈?

    所有语音对话结束后,用户将看到一个反馈横幅。此调查主要收集语音通话体验而非对话内容。

    Plus 和团队用户的反馈横幅中会有点赞或点踩选项。

    企业用户同样会看到反馈横幅,但不会有点赞或点踩选项。

    语音对话有字幕吗?

    语音对话期间不显示字幕。结束语音对话后,转录内容将显示在当前的文字对话中。您可以在 ChatGPT 网页版、桌面版的左侧聊天历史中或移动应用的菜单中查看对话转录。

    我可以同时进行多个语音对话吗?

    不可以,您一次只能进行一个语音对话。

    为什么语音对话中会出现“抱歉,我的指南不允许我谈论这个”这样的回应?

    这是我们的安全措施。如果您认为问题符合使用政策,请通过对话结束后的反馈选项告诉我们。

    为什么语音输入识别的语言与我说的语言不同?

    有时识别的语言可能不准确。您可以语音纠正模型使用您选择的语言。在标准语音中,也可以在设置中选择首选语言以提高准确性。

    打开侧边栏,点击屏幕左上角的两条线,选择屏幕底部的名字以打开设置。

    在设置页面中,向下滚动到“语音”部分,选择“主要语言”以设置您的语言。

    隐私与控制

    我的语音对话音频会保存多久?

    高级语音对话的音频与转录一起保存在聊天历史中。聊天历史中有一个指示符显示哪些对话使用了高级语音:可以看到灰色的文本和小麦克风图标。

    音频片段会与聊天历史一起保存。如果您删除聊天记录,我们将在 30 天内删除相关音频片段,除非出于安全或法律原因需要保留,或者您之前已选择分享音频以训练模型,且该音频已与账户信息分离。

    一旦删除,无法恢复。如果想隐藏聊天记录但保留内容,可以使用归档功能。归档的聊天记录将继续保留音频片段。

    了解更多内容如何用于模型训练以及您的选择。

    在标准语音模式中,音频片段会在转录完成后删除,除非您选择分享音频用于训练模型。

    会使用我的语音对话音频来训练模型吗?

    不会,除非您选择分享语音音频来训练模型。

    如果您启用了“为所有人改进模型”,我们可能会使用转录内容训练模型,但不会使用与您账户关联的音频,除非您选择分享音频。了解更多关于选择的信息。

    分享音频以改善语音对话体验

    免费和 Plus 用户可以通过数据控制设置开启“为所有人改进语音”以帮助改进模型。此部分提供关于分享音频的详细信息。

    谁可以分享音频来改善语音对话?

    免费和 Plus 计划的用户可以分享个人工作区中的语音对话音频。团队和企业用户无法分享音频。

    如果我选择分享音频,会发生什么?

    如果选择分享音频,音频将用于训练模型,同时也会保存标准语音对话的音频。我们会尽量减少用于训练的音频中的个人信息。我们的团队可能会审查您分享的音频。

    如何停止分享音频?

    您可以通过 ChatGPT 设置中的数据控制页面停止分享音频。关闭“为所有人改进语音”即可。

    如果未看到此选项,表示您没有分享音频,我们不会使用您的音频。

    停止分享音频会怎样?

    如果停止分享,新对话中的音频不会再用于训练。以前与账户信息分离的音频片段可能继续用于训练。

    如果停止分享音频,但启用了“为所有人改进模型”,转录内容仍可能用于训练。完全退出需关闭“为所有人改进模型”。

    分享音频的设置是设备特定的吗?

    分享音频的设置与账户关联,适用于所有登录设备。您可以随时通过设置停止分享音频。


    参考:
    https://www.kisacoresearch.com/blog/sam-altman-joining-forces-design-guru-jony-ive-and-laurene-powell-jobs-build-new-ai-device

    https://help.openai.com/en/articles/8400625-voice-mode-faq

    https://www.nytimes.com/2024/09/21/technology/jony-ive-apple-lovefrom.html


    以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



     点击关注转发公众号     保持你对AI优质内容的敏感




    网友创意应用4o高级语音功能:给吉他调音

    AI趋势全天候
    以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
     最新文章