GPT-4o的语音模式终于来了！电影《Her》变成现实...

文摘 2024-08-01 17:04 北京

▼

今年 5 月，OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。赶在7月结束前，GPT-4o语音模式终于开启了灰度测试，一小部分ChatGPT Plus用户已经拿到了尝鲜入场券。如果打开ChatGPT App之后看到了下面这个界面，恭喜你成为了首批幸运儿。这也意味着多模态在AI拟人互动发展上已经到下一个高度！

OpenAI称，高级语音模式提供了更加自然、实时对话，可以随意打断，甚至它还可以感知、回应你的情绪。

OpenAI 还表示，该功能将在 2024 年秋季逐步向所有 Plus 用户推出。

另外，视频和屏幕共享更强大的也在稍后推出。也就是，开启摄像头，就能和ChatGPT「面对面」聊天了。

一些用户已经晒出了高级语音模式的使用效果：

来源：https://x.com/tsarnick/status/1818402307115241608

当你和 ChatGPT 讲段子时，Ta 可以提供一些笑声陪伴：

来源：https://x.com/yoimnotkesku/status/1818406786077970663

使用 ChatGPT 的高级语音模式，「Her」可以在讲故事的同时创建背景音乐，并且适用于多种语言。

来源：https://x.com/yoimnotkesku/status/1818415019349901354

法语、西班牙语和乌尔都语也都可以：

来源：https://x.com/yoimnotkesku/status/1818424494106853438

但中文表达不太地道，仿佛一个正在学习中文的「歪果仁」：

来源：https://x.com/yoimnotkesku/status/1818446895083139170

听完的人都懵了：

而口音问题不只出现在中文，据说德语也一样：

来源：https://x.com/yoimnotkesku/status/1818445235606671670

与此同时，GPT-4o的输出token暴涨了16倍，从最初4000个token增加到64000个token。

这是OpenAI最近在官方网页中，悄然推出的测试版新模型gpt-4o-64k-output-alpha。

更长的输出token，就意味着，一次性可以得到大约4个完整的长篇电影剧本。

OpenAI 表示高级语音模式与 ChatGPT 目前提供的语音模式有所不同。

ChatGPT 的旧语音模式解决方案使用了三种独立的模型：一个模型将语音转换为文本，GPT-4 负责处理提示（prompt），第三个模型则负责将 ChatGPT 的文本转换为语音。而 GPT-4o 是多模态的，能够在没有辅助模型的帮助下处理这些任务，从而显著降低对话延迟。OpenAI 还表示 GPT-4o 可以感知用户声音中的情绪语调，包括悲伤、兴奋等等。

今年 5 月，OpenAI 首次展示了 GPT-4o 的语音功能，「她」的反应速度、与真人声音的惊人相似度震惊了观众 —— 问题就出在这儿。

这个名叫「Sky」的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊（Scarlett Johansson）。

在 OpenAI 演示之后不久，约翰逊说她曾拒绝 OpenAI CEO 山姆・奥特曼关于使用她的声音的多次请求，在看到 GPT-4o 的演示之后，她聘请了法律顾问为自己的声音辩护。OpenAI 否认使用了斯嘉丽・约翰逊的声音，但也删除了演示中的声音。

6 月，OpenAI 表示将推迟发布高级语音模式，以改进其安全措施。

漫长的等待后，「Her」总算与大家见面了。OpenAI 表示，此次推出的高级语音模式将仅限于 ChatGPT 与付费配音演员合作，制作了四种预设语音：Juniper、Breeze、Cove 和 Ember。

值得注意的是，输出的声音有且只有这四种 —— OpenAI 5 月份的演示中展示的 Sky 语音已不再适用于 ChatGPT。OpenAI 发言人 Lindsay McCallum 表示：「ChatGPT 不能冒用他人的声音，包括个人和公众人物的声音，并且会阻止与这些预设声音之一不同的输出。」

这种设置的初衷是避免 Deepfake 争议。今年 1 月，人工智能初创公司 ElevenLabs 的语音克隆技术被用来冒充美国总统拜登，欺骗了新罕布什尔州的初选选民，引发了不小的争议。

OpenAI 还表示，已经引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求。

去年，很多图像生成、音乐生成的 AI 公司因侵犯版权而陷入了法律纠纷，尤其是喜欢打官司的唱片公司，已经起诉过人工智能音频生成器 Suno 和 Udio。而 GPT-4o 这样的音频模型则让可以提出投诉的公司增加了一个全新的类别。

OpenAI预告，OpenAI 与 45 种语言的 100 多名外部「红队」成员一起测试了 GPT-4o 的语音功能。而这些关键信息，将在 8 月份一份关于 GPT-4o 的功能、局限性和安全评估报告中有更详细的公布。

参考链接：

https://twitter.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

END

“AI+研发数字峰会（AiDD）”旨在帮助更多企业借助AI技术，使计算机能够更深入地认知现实世界，推动研发全面进入数智化时代。AiDD北京站即将于8月16-17日盛大启幕！本届峰会共设十四大分论坛，一个大厂专场，围绕“AIGC产品创新、AI原生应用开发、智能体与具身智能、AI驱动效能提升（含OA、PM）、LLM驱动需求工程、AI +微服务的实践与创新、超越代码生成、AIGCode质量提升、LLM驱动测试分析与设计、测试数据或测试代码生成、大模型训练与评测、LLM助力缺陷定位与修复、长文本 & 文档理解技术与实践、领域多模态大模型技术与实践”等技术热点，邀请近百家企业界和工业界大咖共赴盛会。

点击下方“阅读原文”或扫描下方海报二维码了解更多峰会信息。

点这里↓↓↓记得关注标星哦~

http://mp.weixin.qq.com/s?__biz=MzA5NzE4NDkxMg==&mid=2652106576&idx=1&sn=dbab89a464f3b07c06dbb2fd5255ea2d

中智凯灵

中智凯灵（KeyLink）是国内领先的专业数字人才发展平台，面向科技研发型企业和组织提供数字化人才培养的专属成长地图，数字化转型的方法 + 智库。

最新文章

2024AI+研发数字（AiDD）峰会深圳站圆满收官！

参会指南来啦！AiDD峰会深圳站倒计时3天，期待您的到来！

深入浅出 OpenAI Swarm 源码二：多 Agent 框架调度流程

深入浅出 OpenAI Swarm 源码一：多 Agent 调度框架概念抽象

“AI+工程”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+领域”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

高通骁龙峰会AI又是主角，或将开启终端侧生成式AI新时代

“AI+测试”线 | AI+研发数字峰会（AiDD）深圳站五大条线陆续揭晓

“AI+开发”线揭晓| AI+研发数字峰会（AiDD）深圳站携60+前沿实践案例重磅来袭！

从木匠到AI教父：Geoffrey Hinton的传奇之路

恭喜KeyLink嘉宾智库成员陶建辉、朱思语获得2024年“CCF杰出工程师奖”

突发！OpenAI CTO离职，同日奥特曼被曝将获得股权

为什么AI不会夺去软件工程师的工作？

华为云联合中国信通院发布国内首部《智能化软件开发落地实践指南》，引领AI驱动开发新时代

用AI五分钟就能生成一档播客？感觉降维打击了

OpenAI o1 强化学习背后的自博弈（Self-play）方法介绍

OpenAI o1模型凌晨震撼发布，AI界迎来革命性变革

上6休3上3休2……这烧脑的调休安排，国内外AI都算不明白，集体大“翻车”！

大模型如何改变软件开发的游戏规则？

AI重塑软件行业，个人和组织如何实现弯道超车？| AiDD

开发者噩梦！69% 的程序员每周浪费 8+ 小时，技术债是最大“时间黑洞”

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

何小鹏的Model 2，爆单了

“蓝色巨人”在中国的下线，是否标志着科技鸿沟转折点的到来？

李沐：创业一年，人间三年！

AiDD峰会北京站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

2024AI+研发数字（AiDD）峰会北京站圆满收官！

参会指南来啦！AiDD峰会北京站倒计时3天，期待您的到来！

首位获得IEEE TCSE新星奖的中国学者黎立，将受邀出席AiDD峰会发表主旨演讲

上海交大AI研究院沈为：我相信奇点将至，但更信脚踏实地

GPT-4o的语音模式终于来了！电影《Her》变成现实...

2024“人工智能+”行动第2弹——AiDD峰会北京站即将发射！

AiDD对话马永亮：大模型应用规模化落地的核心是降低定制和优化的门槛

谈一谈LLM在推荐域的一些理解

对话数据科学家巴川：创新勿忘初心，未来属于有温度的AI

院士领衔推出大模型的第3种记忆：比参数存储和RAG都便宜，2.4B模型越级打13B

大语言模型在金融领域的应用:进展、前景与挑战

麦肯锡报告：2030年，哪些行业会衰落？AI首先会取代哪些工作？

AI驱动研发变革，促进企业降本增效！AI+研发数字峰会北京站议题火热征集中

K+峰会上海站TOP10议题新鲜出炉，快看看有没有你喜欢的议题上榜！

来自大厂优秀课代表的学习笔记-AiDD峰会上海站

2024K+全球软件研发行业创新峰会上海站圆满收官！

来啦来啦~K+峰会上海站即将发车，请再次确认您手中的“车票”

‘AI+人’访谈录 | 四秩编程路，爱折腾的匠人梦

大模型编码目前最有效的模式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉