GPT-4o, 语音的 ChatGPT 时刻终于来了！

文摘 2024-05-15 14:47 陕西

下文转载自WeNet步行街，作者张彬彬。语音交互迎来新的时刻！只有语音交互才能让这个“超级助手”无处不在！

千呼万唤始出来，语音的 ChatGPT 时刻终于来了！当 ChatGPT 引爆世界后，语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术，OpenAI 自己也推出了 Whisper 识别、合成的语音模型，但之前更多的是持续性的改进和小的创新，远未有当初 ChatGPT 那样颠覆性的体验和效果。今天，仍然是 OpenAI，AI 行业的风向标，他来了，带着 GPT-4o 来了！

GPT-4o 中有很多方面的改进，然而，最大最颠覆性的，还是在语音交互。

对语音交互来讲，GPT-4o 新在哪里？

现场的演示中，Mira 也提到了这个问题，亚裔小伙给出的答案是 1）支持打断 2）实时交互 3）懂你的情绪；在回复方面，则可以以更多的风格更多的情感合成声音。这里我们再进一步抽象和拓展一下几个特点。

极致端到端，交互体验非常酷炫，非常丝滑，并很好的支持打断。对比以前的交互系统，需要唤醒、识别、自然语言理解、查询、回复生成、TTS 多个模块，每个模块都是单独的模型、都是独立的团队在做，信息逐模块在损失，前面一个模块出错，后面基本就全错。例如识别模块是把语音转文字，交给下游处理，在转文字过程中，语音的其他信息全都丢掉了，例如说话人的音调、性别、情绪、背景音乐、噪声，有没有其他人说话等等。现在 GPT-4o 一个模型端到端全搞定，能极限的感知和理解，如现场演示中，GPT-4o 能理解和分辨到人大口的喘气、呼气和吸气。

极致低延迟，看现场的实时演示，模型反应极快。回看发布会的视频时，弹幕上清一色的好快！OpenAI 的技术博客中给出的数字是最低 232 ms，平均 320 ms 就能给出回复，已经非常接近真人交互时的响应速度。（这里引用了一篇文章，其在十个语种上统计了人类自然对话时延时大概在 250ms 左右）。

对称多模态，输入输出都可以是文本、语音和视觉，最终模型能力更全栈，更能做全场景的处理。语音是首次作为独立模态引入到 GPT 模型中，GPT-4o 是 OpenAI 第一次尝试做文本、视觉和语音的整合，从统一模态上来讲，这是迈向 AGI 的一大步。

GPT-4o 是如何做到的？

那么，GPT-4o 是怎么练成的，在语音交互中的几个特点是如何做到的呢？

如何做到端到端？个人觉得核心在于路径和节奏的把控。OpenAI 从成立之初，就把 AGI 作为自己的使命和终极追求，但在路径上，OpenAI 却是非常的务实。所以，我们看到刚开始有文本的 GPT，图像生成的 DALL.E，然后在 GPT-4 中做了图像模态的输入，可以做图像的理解了；在语音这个任务上，刚开始进攻语音交互中最重要的两个独立的任务，识别的 Whisper 和基于大模型的合成，这两个工作在识别合成的细分行业中，也是战术核弹的存在，直到今天水道渠成的把识别、合成等的语音能力集成进 GPT-4o，就成了战略核弹。在路径上，在今天，行业在积累了领域的知识，领域的技术，再往 LLM 中接入该模态和能力的时候，方法上已不是个特别大的问题，这样的工作特别多，对 OpenAI 来讲就更不是个问题。在节奏上，OpenAI 的每次新技术发布总是恰逢其时，每次都有不一样的创新，当行业陷入停滞的时候，大家仿佛都在等 OpenAI 放大招。

如何做到低延迟？核心还是来自于端到端。如下图，是上一代 ChatGPT 的交互，通过 Whisper 识别成文字(Speech -> Text)，然后将文字喂给 ChatGTP 做理解并生成回复(Text -> Text)，再喂给类似 OpenAI 的类似 VALL-E（行业猜）这样的模型做合成(Text -> Speech)，每一步都必须等到上一步完全执行完成才能开始下一步，累计的延迟非常大，博客中给了个数据，理解部分是 ChatGPT 的话平均延迟是 2.8s，GPT-4 的话 5.4s，加上识别部分等待时间会更长。所以我们看到初代 ChatGPT 那个圈不停的转，需要等很久。现在一步到位，直接 Speech -> Speech，用户感知到的延迟仅是合成的首字时间，平均 320 ms。这个速度，不仅远远超越了自己，也远远超越了所有的同行。

如何做到打断？现场演示的打断确实非常的快，非常的丝滑。传统的打断是依靠一个 VAD(Voice Active Detection) 的模块来做语音活动检测，一般需要较长的时间（0.5秒以上）确认用户有没有讲话，然后确定是不是要做打断。基本无法捕捉对于用户语音中的语气词、停顿、犹豫、重复、背景噪声等的信息，因此很容易出现插话、半天不说话等现象，用户体验非常糟糕。现在我们盲猜，GPT-4o 是在建模中显示的引入了用户语音结束 <EOU>(End of Utterance)、打断 <BARGE_IN> 两个建模单元，当模型输出 <EOU> 时，立即进入合成状态，当模型输出 <BARGE_IN> 时立即停止合成。

如何控制输入输出形态？在发布会上，OpenAI 宣布 GPT-4o 不仅可以在 ChatGPT 中使用，也可以在 API 中使用。在 ChatGPT 的 APP 和整个演示中，都是 Speech in, Speech Out，那在 API 中我们如何控制输出的模态呢？一种潜在的可能是目前输出模态是通过 prompt 控制的，在 ChatGPT APP 中我们指定输出为 Speech，在其他场景中我们则或指定，或让模型自动推导输出的模态。如想识别一段语音的文本，我们上传语音，并且通过文字的 prompt 告诉 API 我们想要文本形态的输出即可。

关于未来

语音交互的设计会去跟进和对标 GPT-4o，这点毋庸置疑。GPT-4o 确实做到了 10 倍的变化，此时整个端到端的体验，一些 corner case 的处理，当你的音箱、座舱等的语音助手不再答非所问，不在胡言乱语，有能力，有感情有温度，整个使用的活跃度相比现在肯定会有数量级的提升。相信在今天，肯定有不少产品已经开始了新一轮的立项和设计，语音交互也会开启新的历史进程。

大模型的军备竞赛越来越难，越来越残酷，轮为巨头的游戏。当初自研文本大模型的很多公司在 LLaMA 1/2/3 的一轮又一轮开源模型的攻势下，很快发现自己不但跟不起了，而且想跟也跟不上了。现在有文本、视觉、语音3种模态的输入，有文本、视觉、语音 3 种模态的输出，未来潜在就有 9 种可能的输入输出的组合，也就是数据、资源、人力上 9 倍的投入，如何进行跟进。压力可能传递到 LLaMA 3 这里，LLaMA 3 还有个 400 B 的多模态的大模型还未发布，还未开源，不知是否会针对 GPT-4o 做一些调整。

最后，最近听了太多关于大模型在语音交互中价值的质疑，甚至很多是从业者的自我的怀疑，现在 GPT-4o 可谓一阵强心剂，确实是对语音行业的利好。然而，“莫听穿林打叶声，何妨吟啸且徐行”的豁然和坚持会更美！

参考链接

GPT-4o 博客链接 https://openai.com/index/hello-gpt-4o/
关于人类对话延时的研究 https://www.pnas.org/doi/10.1073/pnas.0903616106
ChatGPT 合成 https://openai.com/index/chatgpt-can-now-see-hear-and-speak/
Whisper 识别 https://openai.com/index/whisper/


让 AI 变得更简单	长按二维码关注

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427791&idx=1&sn=7dadf9ee1a29ccce03e83cd44a893fd1

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉