在人机交互日益智能化的今天,语音对话模型正引领AI领域的新一轮革新。为填补当前语音对话模型综述的空白,浙江大学与微软、阿里巴巴、腾讯团队联合撰写了《WavChat:A Survey of Spoken Dialogue Models》。该综述论文详细梳理了语音对话模型的演变历程,从传统的级联结构到先进的端到端模型,涵盖了核心技术如语音表征、训练范式、生成策略、和流式双工互动等多个方面,同时针对相关数据集、评价指标和测试基准提供了一个全面的分析。值得注意的是,笔者在《WavChat》综述中融入了自己的思考,而不是将相关论文进行简单地罗列,每一节相关技术的最后都包含了进一步总结。通过系统性的分析,WavChat揭示了当前技术的局限与未来发展方向,为学术界和工业界提供了一个引人深思的全景图,助力推动语音对话系统在多模态交互中的广泛应用。
论文地址:
https://arxiv.org/pdf/2411.13577v1https://github.com/jishengpeng/WavChat
语音对话模型是人工智能领域的关键技术之一,它通过自然的语音交互方式,提供了人机沟通的新途径。随着技术的不断进步,语音对话系统已经从简单的语音识别和指令响应,发展到支持多轮对话、情感识别和上下文理解的复杂系统。然而,尽管取得了显著进展,当前的语音对话技术仍面临着多种挑战,如实时性、低延迟、多模态对齐,更一统的Tokenizer等问题,这些问题阻碍了其在实际应用中的广泛部署。《WavChat》综述旨在填补这一领域的研究空白,通过系统性地梳理和分析现有语音对话模型的技术架构与发展历程,揭示其面临的核心技术难题,并为未来的研究与发展提供指导。该综述不仅回顾了语音对话系统的演进历程,还深入探讨了关键技术如语音表征、训练范式、流处理等,力求为学术界和工业界提供一份全面且具有前瞻性的参考。该综述的整体架构示意图如图2所示。
语音对话模型的演进经历了多个重要阶段,从早期的简单语音识别系统到现代复杂的多轮对话和情感识别系统,技术的进步不断推动着这一领域的发展。1、语音对话模型的定义
在论文中,作者按照时间顺序对现有的语音对话模型进行了全面的整理(图1),并根据模型是否能直接理解和生成语音表征将其分为级联式和端到端式模型(图3),同时全面总结了语音对话系统应具备的 9 种能力:文本智能、语音智能、音频和音乐生成能力、音频和音乐理解能力、多语言能力、上下文理解能力、交互能力、流式延迟、多模态能力(图4)。2、级联式语音对话模型
级联语音对话模型的最早原型可以追溯到AudioGPT。为了实现语音到语音的对话功能,该系统首先使用自动语音识别(ASR)模型将语音转换为文本,然后使用ChatGPT进行基于文本的对话,最后使用文本到语音(TTS)模型将生成的文本转换回语音。在这个最初的语音对话系统中,语音仅被用作输入输出接口,只保留最基本的文本智能。例如,在Huggingface的开源speech-to-speech框架中,一个额外的语音活动检测(VAD)模块被进一步串联到传统的级联模块上,以区分语音和无声段,以及不同的说话者。在级联式语音对话模型中建立了基本的文本智能之后,研究者开始引入情感和风格等副语言特征来增强级联式语音对话模型中的语音智能。例如,ParalinGPT和E-chat通过滑动窗口将会话上下文、语音嵌入和副语言属性集成到一个自回归模型中,允许模型通过结合历史文本和情感表示来生成更准确的文本响应。类似地,Spoken-LLM引入了一个Emotion2Vec模块,为Llama2-Chat模型提供一组风格向量。通过LoRA微调,Llama2-Chat不仅可以生成基于内容的文本响应,还可以生成具有特定风格属性(如<欢快、快速、正常>)的文本响应,从而指导下游TTS系统生成富有表现力的语音。除了理解级联语音对话模型中的声学信息外,最近的一些工作还尝试直接输入语音表示,同时保留文本作为输出形式。这迫使级联语音对话系统直接处理输入语音。一种常见的方法是将固定的语音编码器与可训练的编码器适配器集成在一起,允许大型语言模型将语音输入解释为一种特殊形式的文本。通过扩展基于文本的对话模型的词汇表,大型语言模型可以处理语音,就好像它是一种独特的文本形式,从而能够在级联的语音对话模型中生成适当的文本响应。值得注意的是,同时还有一些级联的语音对话模型已经进一步超越了对人类语言的理解,现在可以理解各种音频模式,包括音乐和音频事件。例如,SALMONN 通过冻结Whisper和BEATs编码器并通过窗口级Q-Former将它们桥连接到大型语言模型来模拟语音和音频信息。因此,这些级联的语音对话模型能够在理解方面进一步执行广泛的任务。例如,像Qwen-audio 这样的模型可以处理多个任务,如自动语音识别(ASR)、语音到文本翻译(S2TT)、自动音频字幕(AAC)、声学场景分类(ASC)、语音情感识别(SER)、音频问答(AQA)、声音分类(VSC)和音符分析(MNA)。因此,这些级联模型通常被视为多任务语音-文本大型语言模型的一部分。值得注意的是,前面提到的级联语音对话模型只生成文本,然后直接将其输入预训练的TTS模块。它们仍然得首先生成文本内容,然后将其转换为语音,它们不直接在LLM本身内生成与语音相关的表示。因此,《WavChat》仍然将这些模型分类为级联语音对话模型。此外,最近的一些努力集中像Qwen2-Audio这样的模型一样,通过合并多模态理解能力,从而实现一定程度的多模态对话功能。例如,VITA和Baichuan-Omni等模型将图像、音频和视频的各种编码器或标记器集成到LLM中,使模型能够理解多模态输入并生成相应的文本响应。上述发展涉及级联语音对话模型的理解方面。在生成方面,两种主要类型的语音合成工作与级联语音对话系统相关。首先,最近出现了大量先进的语音合成系统,这些系统可以基于文本输入产生高表现力和自然的音频,例如MegaTTS1/2, CosyVoice, ChatTTS, FishSpeech, ParlerTTS, MaskGCT和F5-TTS。此外,在文本样式可控TTS领域也取得了重大进展,有TextrolSpeech、PromptTTS、PromptTTS2、InstructTTS和ControlSpeech等系统。这些TTS系统可以根据级联语音对话模型产生的文本输出的内容和风格生成高度自然的音频。3、端到端语音对话模型
除了级联式语音对话模型,另一类重要的语音对话系统是端到端语音对话模型。在理想情况下,端到端的语音对话模型在训练和推理过程中都应该只支持语音输入和输出,从而实现多种智能对话功能。然而,考虑到语音模态与文本模态相比是一种低密度(包含大量声学信息)的模态,并且可用的文本数据量远远超过可用的语音数据量,许多端到端语音对话模型选择将语音模态与文本模态对齐,以利用预训练的语言模型。最早的端到端语音对话模型可以追溯到dGSLM,它是在数千小时的双轨数据上训练的,使用自注意和交叉注意机制来模拟双工交互。尽管dGSLM缺乏与llm的结合,缺乏基本文本智能的集成,但值得注意的是,它是第一个完全端到端的语音对话模型,它不依赖于文本,同时保持了出色的对话交互性。在dGSLM发布之后,端到端语音对话系统领域的进展停滞了几个月。然而,随着ChatGPT的出现,这一领域得到了快速发展。一种代表性的方法是SpeechGPT 它通过使用一系列语音标记、文本标记、文本标记和语音标记来采用自回归语言建模。这种方法可以使用文本智能直接生成语音令牌,从而激发后续的端到端语音对话系统,如Spectron、SpeechGPT-Gen和EMOVA。这些系统继续使用自回归框架,生成文本标记,然后是语音标记。尽管这种方法允许llm直接生成语音令牌,但它引入了延迟问题,因为语音令牌生成在文本令牌生成完成之前无法开始。这导致了多回合对话和整体系统延迟的问题。除了设计SpeechGPT 式先后输出之外,另一种直观的方法是直接使用LLM的softmax层处理之前的隐藏状态,通过不同的投影层来预测文本令牌和语音令牌。这允许网络共享权重到投影层,从而对齐语音和文本模式。PSLM模型是这种设计的典型示例。除此之外Meta提出的另一种方法,是交错方法,如Spirit-LM所示,其中语音和文本序列被连接到单个令牌流中,并使用单词级交错方法与小型自动交错的语音-文本并行语料库进行训练。然而,这种方法需要语音和文本之间的精确对齐。最近,出现了几个新的端到端语音对话模型。例如,基于全局-局部自注意力机制框架的Moshi可以同时从多层量化器生成文本和语音声学标记。从基于文本的语言模型主干开始,Moshi从神经音频编解码器的残差量化器生成语音标记,同时在并行流中对用户的语音和系统的响应进行建模。这种设计消除了明确的说话人轮换的需要,并允许对任意会话动态进行建模。此外,Moshi通过首先预测时间对齐的文本标记作为音频标记的前缀,扩展了以前的分层语义到声学标记生成的范式。类似地,Mini-Omni使用基于musicgen的delay-pattern方法同时生成文本和语音编解码器令牌。它引入了两种策略:通过填充文本标记来实现没有严格时间对齐的自回归生成,以及通过批处理并行推理策略来提高性能。Mini-Omni2通过整合多模态理解和双工功能进一步增强了这一点。同时,Llama-Omni、Freeze-Omni和IntrinsicVoice设计了一个用于实时语音交互的LLM。它们的共性在于,在生成阶段,将LLM的隐藏状态进一步馈送到相应的解码器模型中。LLaMA-Omni集成了一个预训练的语音编码器、一个语音适配器、一个LLM和一个流语音解码器。它消除了强制语音转录的需要,并且可以同时从语音指令直接生成文本和语音响应,具有低延迟。Freeze-Omni为语音输入和输出的建模设计了3阶段的训练策略,使其能够获得speech-to-speech 对话能力只能通过使用文本-语音配对数据。Freeze-Omni的核心思想在于将语音对话模型的功能转移到编码器(ASR)和解码器(TTS)上,而不是将这些任务分配给大型语言模型。IntrinsicVoice通过减少文本和语音之间的模态差距,促进了文本能力从预训练的llm到语音模态的转移。通过使用GroupFormer从LLM的隐藏状态生成HuBERT令牌,IntrinsicVoice有效地将语音序列减少到与文本序列相当的长度,生成高质量的音频,同时显著加快推理和减轻长文本建模问题。此外,一些端到端语音对话模型通过多阶段逐步消除技术训练来对齐语音和文本,从而消除了在推理过程中生成文本的需要。例如,Omni-Flatten使用模态对齐、半双工对话学习和全双工对话学习,以及文本和语音标记的扁平化风格标准化,以在推理期间实现双工、无文本的语音对话。类似的方法包括SyncLLM 。
语音对话模型的成功依赖于多个核心技术的不断进步,同时也面临着一系列的关键挑战。该综述从语音表征、训练范式、模型架构、流式处理、双工互动几个方面全面总结了语音对话模型中的核心技术和关键挑战。1、语音表征(speech
representation)
核心技术:语音表征是语音对话模型的基础,它决定了系统如何理解和处理音频信号中的语义和声学特征。传统的语音表征方法侧重于将语音信号转化为文本或符号表示,而现代方法则更为复杂,旨在捕捉语音中的语义、情感、风格等多维度信息。常见的技术包括基于自监督学习的语义编码器(如Wav2Vec、HuBERT、Whisper)和声学编码器(如EnCodec、WavTokenizer、Mimi)。《WavChat》从语音对话模型的输入和输出,语义表征和声学表征等多个角度对表征相关技术进行了梳理。2、模型架构与训练范式( Model Architectures & Training Paradigms )
核心技术:语音模态和文本模态在信息密度和信息量维度上相当不对等,为了在端到端语音对话系统中引入语音模态,而不让系统降智,不同的语音对话模型在模态对齐策略和多阶段训练方式上都有着自己的选择。除此之外,不同的生成方式,模型架构,推理采样策略也将影响语音对话的最终效果。《WavChat》对相关核心技术做了系统的全面整理和分析。图5:模型架构范式(左图)和训练范式(右图)
图6:Alignment
Post-training 方法示意图
核心技术:流式处理能力是语音对话模型在实时交互中的关键能力(图4 h)。为了实现高效的实时对话,语音对话系统需要能够在听和说的过程中实时处理和生成语音回应。《WavChat》从输入端和输出端的角度,对流式的相关核心技术,例如因果卷积,因果attention,队列技术(完全流式和分chunk流式)做了进一步梳理。
4、双工互动(Duplex
Interaction)
核心技术:双工互动能力是语音对话模型的一个鲜明的特点。双工互动的最基础的定义是指语音对话模型能够边听边说,用户可以随时打断语音对话模型,模型能够实时做出正确的反馈。《Wavchat》清晰地定义了双工互动的不同场景和不同层次的能力要求,并且对目前语音对话模型的不同双工互动策略进行了分析和总结。
在语音对话系统的构建中,训练资源的质量和评估标准的科学性对于模型的性能至关重要。《WavChat》综述深入探讨了现有语音对话数据集和评估标准的重要性,并对其进行了全面梳理。
1、训练资源
高质量的语音对话系统依赖于多样化且大规模的标注数据进行预训练和一定量的语音对话数据进行后训练和微调。《WavChat》根据训练阶段和任务的不同对训练数据集进行了全面地分类整理(表3)。2、评估标准
评估是训练和测试口语对话模型的关键环节。论文从语音对话模型的基础能力和进阶能力等11个方面对评估进行全面概述。在评估过程中,论文全面分析整理了现有测试基准Benchmark在这 11 个测评方面的能力,以及总结了对应的评价指标。
《WavChat》全面地整理了现有的开源语音对话模型(表5),codec 模型(表2),模型训练资源(表3),系统性地整理了当今语音对话系统的发展历程、核心技术和挑战。更多详细信息已整理至:
https://github.com/jishengpeng/WavChat/tree/main