重磅!ChatGPT实时语音终于要来了!附详细使用说明

文摘   2024-09-25 05:17   美国  

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

对于AI领域的领头羊OpenAI,你在期待什么?GPT-5还是文生视频模型Sora?或者是ChatGPT实时语音功能

对于ChatGPT实时语音功能,我们等了太久。而今天,它终于要来了!

就在刚刚,OpenAI通过社交媒体官宣,实时语音功能(OpenAI官方命名为:Advanced Voice Mode将在本周内向所有ChatGPT Plus和Team会员用户推送。同时,OpenAI还为实时语音功能添加了自定义指令(Custom Instructions)记忆(Memory)五种新声音(five new voices),以及改进的口音(improved accents)

如何判断有没有被推送到实时语音

如何知道自己已经被推送到实时语音功能了?很简单,在手机上打开ChatGPT app,点击页面右下角(输入框右侧)的语音按钮,如果你的账号已经被推送了实时语音,那么会看到下面这个截图中的确认信息。

点击Continue,ChatGPT会指导你开始选择你喜欢的声音音色,此时已经可以看到新增加的五个声音了,标记为NEW的就是新声音。点击每种声音,可以进行试听,选择你喜欢的声音即可。


点击Done,就可以开始和ChatGPT愉快的语音聊天了!


如果还没有被推送到这个新功能,则会在常规的语音聊天页面看到下面这个提示。

Advanced voice mode is on its way

Advanced voice mode is starting to roll out to all users. You don't have access yet, but check back soon to start using the new features.

ChatGPT的9种声音

算上新增加的五种新声音,目前ChatGPT内共有9种声音可以选择。

  1. Sol(NEW)– 聪慧且放松 (Savvy and relaxed)
    这是一种聪明而悠闲的声音,适合想要一种轻松愉快对话体验的用户。

  2. Ember – 自信且乐观 (Confident and optimistic)
    这是一种充满信心和积极向上的声音,适合传达坚定与热情。

  3. Maple(NEW)– 活泼且坦率 (Cheerful and candid)
    这是一种充满活力和真诚的声音,适合轻松、开朗的对话。

  4. Arbor(NEW)– 随和且多才多艺 (Easygoing and versatile)
    这是一种随和且适应性强的声音,适合多种对话场景,给人轻松自然的感觉。

  5. Juniper – 开朗且积极 (Open and upbeat)
    这是一种充满开放和积极向上情绪的声音,适合愉快的交流场景。

  6. Vale(NEW)– 明亮且好奇 (Bright and inquisitive)
    这是一种充满好奇心和求知欲的声音,给人一种明快而机智的感觉。

  7. Spruce(NEW)– 平静且充满肯定 (Calm and affirming)
    这是一种沉稳并富有肯定性的声音,适合营造安心的对话氛围。

  8. Breeze – 生动且真诚 (Animated and earnest)
    这是一种充满生气和诚恳的声音,适合表达热情与真诚。

  9. Cove – 沉着且直接 (Composed and direct)
    这是一种冷静且直接的声音,适合简洁明了的对话风格。

并且,OpenAI表示提高了部分外语的对话速度、流畅度和口音。虽然OpenAI并没有明确指出针对哪些外语(此处的外语指的是英语以外的语言)做了优化,但经过我的测试,在实时语音模式下,用中文和ChatGPT对话,ChatGPT的中文回复比之前强了很多,听起来更加自然流畅,没有之前那么生硬。

为什么推荐实时语音功能

很多AI工具都有语音对话的功能,为什么ChatGPT的这个实时语音功能令人期待?

如果你使用过之前的ChatGPT或者Kimi的语音对话功能,你应该能感觉到这些传统的语音对话还是没有跳出“一问一答模式”,你对它说一句话,它首先会调用LLM模型生成输出文字,然后用文字转语音模型将这些输出文字以语音的形式“念”出来,在它念完之前,你无法再和它进行任何对话,不能中途打断。

这样的对话并不是真正的“对话”。

相比之下,ChatGPT的实时语音则更加自然、流畅,体验已经无限逼近了现实生活中的实时对话。这一新功能让用户可以在与ChatGPT的对话过程中随时插话、打断,就像与真人进行电话交流一样,不再受限于AI一问一答的模式。并且,过去AI生成语音回答需要等待数秒,如今这种延迟已被消除,ChatGPT能够即刻理解并给出回应,使整个对话过程更加连贯。

此外,情感感知能力也是实时语音功能的亮点之一。ChatGPT不仅能理解用户的语音内容,还能够识别出情绪变化,比如用户在讲话时喘息,它会建议你“慢下来”。这种智能情感反馈让互动变得更贴近人类沟通方式,使对话更加真实自然。

如何才能使用实时语音功能

使用ChatGPT的实时语音功能需要满足2个条件:

  1. 拥有一个ChatGPT账号。如何注册可以参考我这篇文章:《『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!》。
  2. 需要开通ChatGPT Plus或Team会员,因为目前实时语音功能仅对ChatGPT Plus和Team付费会员开放。个人用户建议开通ChatGPT Plus会员即可,高级模型(GPT-4o、o1)的使用次数足够个人使用了。如何开通可以参考我这篇文章:《国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!》。

注意,ChatGPT的实时语音功能仅支持移动端(手机app)和Mac客户端,网页端是不支持语音功能的。

结语

之前一直等待ChatGPT实时语音功能的小伙伴可以行动起来了!



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

AI信息Gap
AI信息差,让一部分人先AI起来。
 最新文章