准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

科技 2024-12-06 12:39 北京

GPT-4o 提供的全双工语音对话带来了一股研究热潮，目前诸多工作开始研究如何利用 LLM 来实现端到端的语音到语音（Speech-to-Speech）对话能力，但是目前大部分开源方案存在以下两个问题：

LLM 灾难性遗忘：由于现有方案在语音模态与 LLM 进行对齐时，会或多或少对 LLM 进行微调，但由于要采集到与 LLM 本身训练的文本数据同等量级的语音数据是非常困难的，所以这一微调过程往往会导致 LLM 出现遗忘现象，造成 LLM 的聪明度下降
语音问答（Spoken Question Answering）任务的评估：多数工作对于语音问答的准确性并没有进行定量评估，从已有的一些评估结果也可以看出同一模型语音问答和文本问答相比准确性会有明显的差距

针对上述这些问题，近日腾讯&西工大&南大的研究人员提出了一种低延迟的端到端语音双工对话模型 Freeze-Omni（VITA 大模型系列第二个工作），其可以在完全冻结 LLM 的情况下，为 LLM 接入语音输入和输出，使其能够支持端到端的语音对话能力，且通过一系列优化使得其具备低延迟的双工对话能力，其主要特性如下：

在整个训练过程中，LLM 的参数被完全冻结，确保大型语言模型的知识能力被完全保留；
训练过程中所依赖的数据规模较小，消耗的计算资源也较少。Freeze-Omni 仅需要文本-语音配对数据（如 ASR 和 TTS 训练数据，比较容易获得）以及仅少量的文本模态的问答数据，语音问答准确性显著超越 Moshi 与 GLM-4-Voice 等目前 SOTA 的模型；
Freeze-Omni 可以支持任何具有文本模态的（多模态）大语言模型，能够保留基底大语言模型的能力，如提示服从和角色扮演等。此外，如果有必要改变大语言模型的领域或者回应方式，只需要用相应的文本数据对大语言模型进行微调即可，不需要采集大量语音的问答和对话数据。

论文标题：

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

论文链接：

https://arxiv.org/abs/2411.00774

项目主页：

https://freeze-omni.github.io/

开源代码：

https://github.com/VITA-MLLM/Freeze-Omni

三阶段训练策略实现语音输入输出能力

Freeze-Omni 的整体结构如图 1 所示，其包含有语音编码器（Speech Encoder）和语音解码器（Speech Decoder）以及基底 LLM 三部分。

在运行过程中，流式的语音输入通过语音编码器形成分块（Chunk）特征，然后通过 Adapter 连接到 LLM，LLM 生成的 Hidden State 和文本 Token 的在分块分割后，分别以块的形式送入非自回归前缀语音解码器（NAR Prefix Speech Decoder）和非自回归语音解码器（NAR Speech Decoder）以进行 Prefill 操作。

最后自回归语音解码器（AR Speech Decoder）将会完成 Generate 操作以生成语音 Token，并由 Codec Decoder 将其流式解码为语音信号输出。

▲ 图1. Freeze-Omni框架图

Freeze-Omni 各个模块的三阶段训练策略如下：

流式语音编码器的三阶段训练：如图 2 所示，第一阶段（a）会先使用 ASR 数据训练一个具有 ASR 能力的语音编码。

第二阶段（b）会以 ASR 任务为优化目标，将语音编码器与 LLM 做模态对齐，这个过程中 LLM 是处于冻结状态的。

第三阶段（c）会使用由 TTS 系统合成的语音输入-文本回答的多轮 QA 数据进行训练，这里会使用第二阶段训练好的语音编码器，但是其参数保持冻结以保留其语音鲁棒性，而可训练的参数只有每个问题前的 Prompt Embedding，用于指导 LLM 从 ASR 任务迁移到 QA 任务中。

▲ 图2. 流式语音编码器的三阶段训练示意图

流式语音解码器的三阶段训练：如图 3 所示，第一阶段（a）会先训练一个单码本的语音编解码模型，使用单码本的目的主要是为了降低计算复杂度和时延。

第二阶段（b）将会训练 NAR 语音编码器和 AR 语音编码器，这里会使用文本-语音的 TTS 数据，其文本会通过基底 LLM 的 Tokenizer 转化为 Token，再经过基底 LLM 的 Embedding 层转化为文本特征，这个过程中 Embedding 的参数是冻结的，训练目标的语音 Token 是由第一阶段的语音编码器提供。

第三阶段（c）将会冻结第二阶段训练得到的所有网络，但同时加入了一个 NAR Prefix 语音编码器，其用于接受 LLM 输出的 Hidden State，并将输出的 kv-cache 作为第二阶段模型的初始 kv-cache，该过程使用的数据是文本输入-语音输出的 QA 数据，主要目的是为了使得语音编码器迁移到 LLM 的输出领域中。

▲ 图3. 流式语音解码器的三阶段训练示意图

双工对话的状态标签训练：如图 4 所示，为了实现双工交互，Freeze-Omni 在语音编码器训练的第三阶段中，会为每个 Chunk 的最后一个语音帧对应的 LLM 输出 Hidden State 加入一个额外的分类层进行多任务训练，其目的主要是为了输出状态标签。

当使用 VAD 激活语音流输入后，状态标签 0 表示 LLM 将会继续接受语音 Chunk 的输入，状态标签 1 表示 LLM 将会停止接收语音，且会打断用户并进入 LLM 的 Generate 阶段输出回复，状态标签 2 表示 LLM 也会停止接收语音，但不会打断用户，相当于对这次语音激活做了拒识。

▲ 图4. 全双工对话的状态标签训练示意图

模型性能测评

训练配置：Freeze-Omni 在训练过程中，使用了开源 Qwen2-7B-Instruct 作为基底模型，语音编码器在训练过程中使用了 11 万小时中文英文混合的 ASR 数据，语音解码器训练过程使用了 3000 小时由 TTS 系统合成的文本-语音数据，所提到的 QA 数据是由 6 万条从 moss-003-sft-data 中抽取的多轮对话经过 TTS 系统合成得到的。

语音输入理解能力评估：Freeze-Omni 提供了其在常见的英文测试集上的 ASR 性能测试结果，从中可以看出，其 ASR 准确性处于较为领先的水平。

▲ 图5. 语音理解能力评估

语音输出质量评估：Freeze-Omni 提供了其在 1000 条 LLM 输出的 Hidden State 与 Text Token 上语音解码器生成的语音在使用 ASR 模型测试得到的词错误率（CER），从结果中可以看出 NAR Prefix 语音解码器的引入会有效降低词错误率，提高生成语音的质量。

▲ 图6. 语音输出质量评估

语音问答准确性评估：Freeze-Omni 提供了其在 LlaMA-Questions, Web Questions, 和 Trivia QA 三个集合上的语音问答准确率评估。

从结果中可以看出 Freeze-Omni 的准确率具有绝对的领先水平，超越 Moshi 与 GLM-4-Voice 等目前 SOTA 的模型，并且其语音模态下的准确率相比其基底模型 Qwen2-7B-Instruct 的文本问答准确率而言，差距明显相比 Moshi 与其文本基底模型 Helium 的要小，足以证明 Freeze-Omni 的训练方式可以使得 LLM 在接入语音模态之后，聪明度和知识能力受到的影响最低。

▲ 图7. 语音问答准确性评估

系统延迟评估：Freeze-Omni 还提供了端到端时延分析（即用户说完后到 LLM 输出音频的时间差），作者将其分为了可统计时延和不可统计时延两部分，其中可统计时延的总时长平均数仅为 745ms，而作者也提到如果经过测量考虑到网络延迟和不可统计时延部分，则系统的平均响应时延在 1.2s 左右，在行业内仍为领先水平。

▲ 图8. 系统延迟评估

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

最新文章

大语言模型的知识蒸馏（KD）应该用Reverse KL？

AAAI 2025 | 基于自适应图结构和动态原型对比学习的空间多组学解析框架

超越ControlNet++！腾讯优图提出动态条件选择新架构DynamicControl

北京内推 | 高通中国招聘端到端AI模型量化研发实习生

低秩近似之路（四）：插值分解（Interpolative Decomposition）

NeurIPS 2024 | 基于信息论，决策模型有了全新预训练范式统一框架

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

北京内推 | 微软亚洲研究院通用人工智能组招聘大模型算法实习生

GPT-4o掀起全模态热潮！一文梳理全模态大模型最新研究进展

南加大团队提出MARVEL：基于认知科学的多维抽象视觉推理基准测试

AAAI 2025 | 浙大、蚂蚁等提出全新跨域微调框架，构筑更好的大模型隐私保护

博后招募 | 复旦大学肖仰华教授课题组招聘大模型数据科学博士后研究员

今年顶会这情况。。。大家提前做准备吧！

NeurIPS 2024 | 如何缓解长文本情境下的中间信息丢失问题？

Tokenization不存在了？Meta最新研究，无需Tokenizer的架构来了

直播预告 | 香港中文大学王文轩博士：可信大模型的测试与评估

直播预约 | 字节跳动豆包大模型团队NeurIPS 2024中选论文今晚精讲！

北大团队提出ConsisID：基于频域分解的身份保真文本到视频生成模型

GPT-4其实根本听不懂声音？港中文、斯坦福等联合打造视觉听觉评估新基准

北京内推 | 阿里妈妈搜索广告算法团队招聘广告算法实习生

为什么说在中国做科研最忌讳踏实？

纯文本对齐就能解决多模态安全问题？上海AI Lab发布VLSBench给出否定答案

模仿、探索与自我提升：慢思考推理系统的复现之路

博士申请 | 密歇根大学计算机视觉实验室高俊老师招收3D生成方向博士生

AAAI 2025接收结果出炉！Mamba魔改再次爆发

KDD 2025 | 新大、新国大等提出ProNoG：非同配图上的提示学习

谷歌“狙击”OpenAI，发布新一代大模型Gemini 2.0！主打Agent+多模态

北京内推 | 启元实验室大模型团队招聘多模态大模型算法实习生

NeurIPS 2024 | 阿里云提出个性化提示策略IAP，突破大语言模型零样本推理局限

苹果发布视频生成大模型STIV，实现可扩展的文本与图像条件视频生成

智能体不够聪明怎么办？清华&蚂蚁团队：让它像学徒一样持续学习

博士申请 | 伊利诺伊大学香槟分校张欢老师招收人工智能全奖博士/硕士/博后/实习生

Muon优化器赏析：向量与矩阵有何本质区别？

NeurIPS 2024 | 中科院自动化所提出MetaLA！线性模型架构的大一统

田渊栋团队论文火了！连续思维链优于CoT，打开LLM推理新范式

上海内推 | 中国电信人工智能研究院招聘智能编码方向算法实习生

NeurIPS 2024 | 让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

北理工重磅开启「流星雨计划」，深度探究大模型的自我进化能力

博士申请 | 香港城市大学苗宁老师招收LLM Reasoning方向全奖博士/RA

简单有效！Vector Quantization的又一技巧：给编码表加一个线性变换

CIKM 2024 | 通过学习相对偏好，利用预训练语言模型缓解流行度偏差

UCL、上交大等提出自然语言强化学习范式：可处理语言反馈的强化学习框架

北京师范大学智能技术与教育应用教育部招聘工程研究中心科研助理

ACL 2024 | 多快好省！上科大提出层间KV共享的大模型高效推理新方法

上海AI Lab提出Critic-V框架：提升视觉语言模型在多模态推理中的准确性与可靠性

NeurIPS 2024 | 哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

博士申请 | 南京大学-NTU-CMU招收人工智能方向联培博士/实习生

【内含双12福利】今年读过最绝的一本LLM书！下载量10W+！看完少走一半弯路

阿里通义实验室发布IOPO，提升LLM复杂指令遵循能力

准确性超Moshi和GLM-4-Voice！端到端语音双工模型Freeze-Omni

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉