INTERSPEECH2024 | DualVC 3:利用LM生成伪上下文的端到端低延迟流式语音转换

文摘   科技   2024-07-24 09:30   陕西  
语音转换 (Voice Conversion) 旨在保留语音中语言内容信息的同时,将源说话人音色转变为目标说话人的音色。越来越多的应用场景,如直播、视频会议等实时通信(RTC)应用中要求语音转换能够实时进行,而目前常见的语音转换模型以整段音频为输入进行转换,难以满足实时低延迟需求。在前作DualVC与DualVC 2中,我们实现了鲁棒流式语音转换,但延迟方面仍有很大的提升空间。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和网易伏羲合作论文“DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion”被语音研究顶级会议INTERSPEECH 2024接收。该论文提出了利用语言模型(LM)生成伪上下文的端到端低延迟流式语音转换模型—DualVC 3,去除了对ASR的依赖,显著降低延迟同时保证了转换效果。现对该论文进行简要的解读和分享。

论文题目:DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion

合作单位:网易伏羲

作者列表:宁子谦,王帅,朱鹏程,王智超,姚继珣,谢磊,毕梦霄

论文Arxiv网址:https://arxiv.org/abs/2406.07846v1

Demo: https://nzqian.github.io/dualvc3/

发表论文截图

扫码直接看论文

背景动机

语音转换(Voice Conversion, VC)是一种在不改变语言信息的同时改变说话人音色的技术 [1]。虽然当前主流VC模型展示出了出色的转换效果,但大多需要整句或整段语音作为输入,无法应用于实时应用场景。相比之下,尽管流式语音转换(Streaming VC)模型得到了越来越广泛的关注,但与非流式模型相比,其转换效果仍然不足。这主要是相比于整句音频输入,模型无法获取到足够的未来信息,信息缺失导致了转换效果下降,具体表现为可懂度低、音质差和说话人相似度低等问题。

最近提出的 DualVC 2 [2] 在前作DualVC [3] 的基础上实现了鲁棒、高质量的流语音转换,延迟时间约为 180 毫秒。然而,识别-合成框架无法端到端的优化,而流式 ASR 模型的不稳定性使得进一步降低延迟成为挑战。为解决这些问题,我们提出了端到端模型更新方案——DualVC 3。通过说话人无关的语义 token 来指导内容编码器的训练,消除了对 ASR 的依赖,模型可以在极小的 chunk 下运行,并消除了级联误差。此外,在内容编码器输出上训练语言模型,通过预测未来帧来生成伪上下文,为解码器提供更多上下文信息,从而提高转换质量。实验结果表明,DualVC 3 在主观和客观指标方面的性能与 DualVC 2 相当,延迟时间仅为 50 毫秒。

DualVC: Interspeech2023 | DualVC—基于模型内蒸馏与混合预测编码的双模语音转换模型

DualVC 2: ICASSP2024 | DualVC 2:基于动态掩蔽卷积的流式与非流式统一语音转换模型

DualVC 3

如图1所示,DualVC 3 为一种端到端流式语音转换模型,以 Mel 谱作为输入和输出。它由一个内容编码器、一个解码器和一个语言模型 (LM) 组成。其中内容编码器与解码器均为 Conformer 结构,使用 DCT [4] 策略训练。

图1 DualVC 模型结构

语义蒸馏

语音转换的本质可视为语音中语义信息和说话人音色的解耦和重组。前作 DualVC [3] 与 DualVC 2 [2] 均基于流行的识别-合成框架,使用预训练的 ASR 具有出色的说话人无关语义信息提取能力和噪声鲁棒性。然而额外的 ASR 模型会给整个pipeline带来额外的复杂性,多个模型级联也会导致级联误差。并且,流式 ASR 在 chunk 上的表现不佳,限制了流式 VC 模型进一步降低延迟。此外,流式 ASR 中存在的延迟 CTC 峰值分布和 token 发射延迟会导致语义信息偏移,从而造成更多潜在延迟。为此,我们引入了一个预先训练好的语义提炼自监督学习(SSL)模型用于指导内容编码器学习,以消除对外部 ASR 编码器的依赖。该模型可在推理过程中省略。

在基于 LM 的语音合成模型 [5, 6] 中,通过对 SSL 特征进行 K-means 聚类而获得的离散语义 token 显示出出色的语义表征能力,具有与说话者无关的特性。受此启发,我们利用语义 token 来指导内容编码器的训练,从而进行语义提取。语义 token  是从输入音频信号中提取的整数序列。其中T表示序列长度,N表示 K-means 的聚类中心数。对于具有帧和F个 mel bins 的输入 mel 频谱  ,内容编码器会提取具有 D 维的中间表示  。然后对  进行下采样,以匹配语义标记的长度,并线性投影到 N 维,得到  ,然后计算之间的交叉熵损失,以进行语义蒸馏:

  

为了进一步消除说话人的残余音色, 被离散化,得到  ,这就形成了信息瓶颈。离散化是通过 Gumbel Softmax 实现的,它可以将梯度从解码器传递到编码器。

使用离散中间表示法的另一个优势是,它赋予了流式语音转换模型类似 codec 的功能。在实践中,以客户端-服务器方式部署该模型时,客户端和服务器之间的直接音频传输需要很高的网络带宽,并可能产生明显的延迟。通过使用离散中间表示法,比特率大大降低,从而显著减少了网络开销并降低了延迟。

基于LM的伪上下文生成

无论结构如何,流式模型的效果都要差于非流式模型,其根本原因在于上下文特征长度对模型性能有至关重要的影响,而流式模型无法获取未来信息。现有方法多试图通过提高模型能力或增加输入特征中包含的信息量来解决这一问题。在本文中,我们利用极小的上下文大小(20 毫秒),并提出了另一种方法来解决这一问题。

图2 LM, 解码器与 Vocoder 推理流程

如图2所示,用于生成伪上下文的语言模型是以典型的 next-token-prediction 方式在离散中间表示  上进行训练的。在推理阶段,给定一个由编码器编码的 chunk  序列,语言模型从条件概率中反复采样伪上下文序列   :

  

其中n代表要预测的伪上下文帧数,是 LM 参数。拼接  输入解码器,合成转换结果。预测伪上下文的过程是一个无条件的续写过程。随着预测帧数的增加,特征会逐渐偏离实际。但由于采用了 DCT 策略来训练基于 Conformer 的 backbone,模型会隐式地为未来上下文特征分配递减权重,从而自然地避免了 LM 预测误差造成的可懂度问题。

实验

实验设置

  • 实验数据:AISHELL 3[7],包含来自218个说话人的88,035条数据。

  • 对比系统

    • VQMIVC [8]:代表典型的模型内解耦的语音转换模型

    • DualVC 2 [2]:前作方案

主观测试

从表1可以看出,DualVC 3 超越了baseline VQMIVC,在低延迟下相较于 DualVC 2 效果仅略微下降。消融实验中,去除 LM 导致了自然度和相似度不同程度的效果下降,证明提出方法的有效性。
表1 语音自然度和说话人相似度主观测试结果(MOS)与词错误率 (CER)

客观测试

  • 字错误率:使用语音识别模型分别对于各个模型生成的语音进行识别并计算词错误率。与主观测试结论相同,在流式与非流式场景下,DualVC 3 全面超越了baseline模型,并达到与 DualVC 2 可比的水平。

  • 编码器输出可视化:如图 3 所示,编码器输出通过 t-SNE 投影到二维,每种颜色代表一个说话人。在离散语义 token 的引导下,编码器成功提取了与说话者无关的语义信息。

    图3 编码器输出的 t-SNE 可视化,每种颜色代表一个说话人
  • 计算效率:我们考虑了三个主要指标:实时性(RTF)、延迟和参数量,结果如表2所示。在使用 LM 时,RTF 为0.797,延迟为55.94 ms;不使用 LM 时,RTF 为0.181,延迟为43.58 ms。
    表2 计算与实时性指标

样例展示

样例1:
target

source

full-mode

standalone-mode

样例2:
target

source

full-mode

standalone-mode

参考文献

[1] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical modeling to deep learning,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 29, pp. 132–157, 2021.

[2] Z. Ning, Y. Jiang, P. Zhu, S. Wang, J. Yao, L. Xie, and M. Bi, “Dualvc 2: Dynamic masked convolution for unified streaming and non-streaming voice conversion,” in Proc. ICASSP. IEEE, 2024, pp. 1–5.

[3] Z. Ning, Y. Jiang, P. Zhu, J. Yao, S. Wang, Lei Xie, and Mengxiao Bi, “Dualvc: Dual-mode voice conversion using intra-model knowledge distillation and hybrid predictive coding,” in Proc. INTERSPEECH. 2023, pp. 2063–2067, ISCA.

[4] Z. Yao, D. Wu, X. Wang, B. Zhang, F. Yu, C. Yang, Z. Peng, X. Chen, L. Xie, and X. Lei, “Wenet: Production oriented streaming and nonstreaming end-to-end speech recognition toolkit,” in Proc. INTERSPEECH. 2021, pp. 4054–4058, ISCA.

[5] E. Kharitonov, D. Vincent, Z. Borsos, R. Marinier, S. Girgin, O. Pietquin, M. Sharifi, M. Tagliasacchi, and N. Zeghidour, “Speak, read and prompt: High-fidelity text-to-speech with minimal supervision,” CoRR, vol. abs/2302.03540, 2023.

[6] Z. Borsos, R. Marinier, D. Vincent, E. Kharitonov, O. Pietquin, M. Sharifi, D. Roblek, O. Teboul, D. Grangier, M. Tagliasacchi, and N. Zeghidour, “Audiolm: A language modeling approach to audio generation,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 31, pp. 2523–2533, 2023.

[7] Y. Shi, H. Bu, X. Xu, S. Zhang, and M. Li, “AISHELL-3: A multi-speaker mandarin TTS corpus,” in Proc. INTERSPEECH. 2021, pp. 2756–2760, ISCA.

[8] D. Wang, L. Deng, Y. T. Yeung, X. Chen, X. Liu, and H. Meng, “VQMIVC: vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion,” in Proc. INTERSPEECH. ISCA, 2021, pp.1344–1348

欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章