GPT-4o的语音模式终于来了!电影《Her》变成现实...

文摘   2024-08-01 17:04   北京  
今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。赶在7月结束前,GPT-4o语音模式终于开启了灰度测试,一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。如果打开ChatGPT App之后看到了下面这个界面,恭喜你成为了首批幸运儿。这也意味着多模态在AI拟人互动发展上已经到下一个高度


OpenAI称,高级语音模式提供了更加自然、实时对话,可以随意打断,甚至它还可以感知、回应你的情绪。

OpenAI 还表示,该功能将在 2024 年秋季逐步向所有 Plus 用户推出。

另外,视频和屏幕共享更强大的也在稍后推出。也就是,开启摄像头,就能和ChatGPT「面对面」聊天了。

一些用户已经晒出了高级语音模式的使用效果

来源:https://x.com/tsarnick/status/1818402307115241608

当你和 ChatGPT 讲段子时,Ta 可以提供一些笑声陪伴:

来源:https://x.com/yoimnotkesku/status/1818406786077970663

使用 ChatGPT 的高级语音模式,「Her」可以在讲故事的同时创建背景音乐,并且适用于多种语言。

来源:https://x.com/yoimnotkesku/status/1818415019349901354

法语、西班牙语和乌尔都语也都可以:

来源:https://x.com/yoimnotkesku/status/1818424494106853438

但中文表达不太地道,仿佛一个正在学习中文的「歪果仁」:

来源:https://x.com/yoimnotkesku/status/1818446895083139170

听完的人都懵了:

而口音问题不只出现在中文,据说德语也一样:

来源:https://x.com/yoimnotkesku/status/1818445235606671670

与此同时,GPT-4o的输出token暴涨了16倍,从最初4000个token增加到64000个token。

这是OpenAI最近在官方网页中,悄然推出的测试版新模型gpt-4o-64k-output-alpha。

更长的输出token,就意味着,一次性可以得到大约4个完整的长篇电影剧本。


OpenAI 表示高级语音模式与 ChatGPT 目前提供的语音模式有所不同。

ChatGPT 的旧语音模式解决方案使用了三种独立的模型:一个模型将语音转换为文本,GPT-4 负责处理提示(prompt),第三个模型则负责将 ChatGPT 的文本转换为语音。而 GPT-4o 是多模态的,能够在没有辅助模型的帮助下处理这些任务,从而显著降低对话延迟。OpenAI 还表示 GPT-4o 可以感知用户声音中的情绪语调,包括悲伤、兴奋等等。

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,「她」的反应速度、与真人声音的惊人相似度震惊了观众 —— 问题就出在这儿。
这个名叫 「Sky」 的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊(Scarlett Johansson)。

在 OpenAI 演示之后不久,约翰逊说她曾拒绝 OpenAI CEO 山姆・奥特曼关于使用她的声音的多次请求,在看到 GPT-4o 的演示之后,她聘请了法律顾问为自己的声音辩护。OpenAI 否认使用了斯嘉丽・约翰逊的声音,但也删除了演示中的声音。

6 月,OpenAI 表示将推迟发布高级语音模式,以改进其安全措施。

漫长的等待后,「Her」总算与大家见面了。OpenAI 表示,此次推出的高级语音模式将仅限于 ChatGPT 与付费配音演员合作,制作了四种预设语音:Juniper、Breeze、Cove 和 Ember。

值得注意的是,输出的声音有且只有这四种 —— OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。OpenAI 发言人 Lindsay McCallum 表示:「ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出。」

这种设置的初衷是避免 Deepfake 争议。今年 1 月,人工智能初创公司 ElevenLabs 的语音克隆技术被用来冒充美国总统拜登,欺骗了新罕布什尔州的初选选民,引发了不小的争议。

OpenAI 还表示,已经引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求

去年,很多图像生成、音乐生成的 AI 公司因侵犯版权而陷入了法律纠纷,尤其是喜欢打官司的唱片公司,已经起诉过人工智能音频生成器 Suno 和 Udio。而 GPT-4o 这样的音频模型则让可以提出投诉的公司增加了一个全新的类别。

OpenAI预告,OpenAI 与 45 种语言的 100 多名外部「红队」成员一起测试了 GPT-4o 的语音功能。而这些关键信息,将在 8 月份一份关于 GPT-4o 的功能、局限性和安全评估报告中有更详细的公布

参考链接:
https://twitter.com/OpenAI/status/1818353580279316863
https://x.com/tsarnick/status/1818402307115241608
https://x.com/kimmonismus/status/1818409637030293641
https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode
https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/
https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology
https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/
https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant
https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/
https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/



END



AI+研发数字峰会(AiDD)”旨在帮助更多企业借助AI技术,使计算机能够更深入地认知现实世界,推动研发全面进入数智化时代。AiDD北京站即将于8月16-17日盛大启幕!本届峰会共设十四大分论坛,一个大厂专场,围绕AIGC产品创新AI原生应用开发智能体与具身智能、AI驱动效能提升(含OA、PM)、LLM驱动需求工程、AI +微服务的实践与创新、超越代码生成、AIGCode质量提升、LLM驱动测试分析与设计、测试数据或测试代码生成、大模型训练与评测、LLM助力缺陷定位与修复、长文本 & 文档理解技术与实践、领域多模态大模型技术与实践”等技术热点,邀请近百家企业界和工业界大咖共赴盛会。
点击下方“阅读原文”或扫描下方海报二维码了解更多峰会信息。

点这里↓↓↓记得关注标星哦~




中智凯灵
中智凯灵(KeyLink)是国内领先的专业数字人才发展平台,面向科技研发型企业和组织提供数字化人才培养的专属成长地图,数字化转型的方法 + 智库。
 最新文章