语音合成与音频理解:自回归量化连续语音合成,潜在扩散模型;多模态音频理解基准
Continuous Speech Synthesis using per-token Latent Diffusion
2024-10-21|IBM Research, HUJ, Tel-Aviv U|🔺23
http://arxiv.org/abs/2410.16048v1https://huggingface.co/papers/2410.16048研究背景与意义
在当今的语音合成领域,随着自回归(AR)模型的成功,基于量化的方法逐渐成为主流。然而,这些方法往往会限制重建质量。本文提出了SALAD(Speech synthesis with Autoregressive LAtent Diffusion),一种基于每个令牌的潜在扩散模型,旨在实现Zero-shot文本到语音合成。SALAD的设计灵感来源于近期提出的用于图像生成的表达性扩散头,并扩展至生成可变长度的输出。该模型通过利用语义令牌提供上下文信息,以便确定生成的停止条件,从而克服了传统方法在处理连续表示时的局限性。现有的语音合成技术主要依赖于离散表示的建模,尽管在某些情况下效果良好,但它们在重建质量和灵活性方面存在不足。通过引入连续建模,SALAD能够更好地捕捉复杂的音频模式,并在生成过程中实现更高的保真度。此外,SALAD的设计使其能够基于目标说话者的三秒提示进行音频合成,这一特性极大地增强了模型的适用性。研究方法与创新
SALAD的核心创新在于其采用的每个令牌的潜在扩散头,这一方法允许在生成过程中独立处理每个令牌,从而提高了模型的灵活性与效率。具体来说,SALAD提出了三种连续变体:
- T2A(Text to Acoustic):直接从文本预测声学特征,利用语义令牌作为辅助任务。
- S2A-AR(Semantic to Acoustic Autoregressive):根据语义令牌的下一个令牌预测声学特征。
S2A-NAR(Semantic to Acoustic Non-Autoregressive):基于语义令牌使用MaskGIT调度预测声学特征。
每种变体均与离散表示的基线模型进行了比较,以评估其在语音质量、可懂度和说话者相似性方面的表现。实验结果表明,SALAD的T2A模型在可懂度评分上表现最佳,同时在语音质量和说话者相似性方面与真实音频相当。
实验设计与结果分析
在实验中,所有模型均在多语言LibriSpeech数据集上进行训练,包含了丰富的语音样本以确保模型的泛化能力。通过对比不同模型在音频质量、可懂度和说话者相似性方面的表现,结果显示SALAD不仅在生成音频的可懂度上优于传统模型,同时在声音的自然度和说话者的个性化表现上也表现出色。具体的评估指标包括UTMOS(音频质量评分)、CER(字符错误率)和说话者相似性得分。在主观听觉测试中,SALAD的生成音频与真实音频之间的差异被评估为微不足道,表明SALAD在音频合成任务中的有效性和实用性。结论与展望
SALAD的提出为零-shot文本到语音合成提供了一种新的思路,尤其是在处理连续表示时展现出强大的潜力。尽管目前模型已展现出良好的性能,但仍存在一些局限性,例如推理过程的计算复杂性和对生成停止条件的依赖。未来的研究可以进一步优化推理速度,探索更高效的生成策略,以及开发能够在多模态任务中表现优异的模型。综上所述,SALAD不仅在理论上丰富了语音合成的研究体系,也在实践中为实现更高质量的语音合成提供了新的工具和方法。MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark
2024-10-24|UMD, Adobe|🔺12
- http://arxiv.org/abs/2410.19168v1
- https://huggingface.co/papers/2410.19168
- https://sakshi113.github.io/mmau_homepage/
研究背景与意义
在人工智能领域,音频理解的能力至关重要。MMAU(Massive Multi-task Audio Understanding)基准的提出,旨在填补现有多模态音频理解模型评价的空白。当前的基准往往侧重于基础任务,如自动语音识别和音乐分类,而缺乏对音频理解中复杂推理和专业知识的考量。MMAU专注于评估模型在音频理解中的信息提取和推理能力,特别是涉及27种不同技能的任务。这种全面的评估方式,不仅推动了音频理解技术的发展,也为实现真正的人工通用智能(AGI)奠定了基础。研究方法与创新
MMAU基准的创新之处在于其设计理念和任务设置。该基准包含超过10,000个精心策划的音频片段,并与人类标注的自然语言问题和答案相配对。这些任务分为信息提取和推理两大类,分别涵盖16个推理任务和11个信息提取任务。MMAU强调模型在多种音频类型(如语音、音乐和环境声音)下的综合理解能力,要求模型不仅能识别音频内容,还需进行复杂的推理和知识检索。与现有基准相比,MMAU在任务的广度和深度上都表现出色,为音频理解领域的研究提供了新的方向。实验设计与结果分析
在实验中,研究者评估了18种开源和专有的大型音频语言模型(LALMs),结果显示即便是最先进的模型在MMAU基准上也仅达到了约53%的准确率,远低于人类的82%表现。这一结果揭示了当前模型在音频理解和推理方面的显著不足,表明在复杂音频任务中仍有大量的改进空间。1此外,研究还分析了模型在不同任务上的表现,发现模型在处理音乐相关任务时的能力相对较强,而在语音和环境声音理解方面则表现不佳。结论与展望
MMAU基准的提出为音频理解领域的研究提供了新的工具和方向。尽管当前的模型在基准测试中表现不佳,但这一挑战也激励了研究者们在音频理解和推理能力方面的进一步探索。
未来的研究可以集中在改进模型的音频感知能力,增强其推理能力,以实现更高水平的音频理解。此外,MMAU的设计也为其他多模态领域的基准开发提供了有益的借鉴,推动整个AI领域的进步。