零样本语音转换(zero-shot voice conversion)是指将输入语音转换成任意说话人的语音,仅需要该说话人一句语音且无需额外的模型更新。通常的零样本语音转换方法通过使用来自预训练的说话人识别(SV)模型或者在训练时学习说话人表征来实现零样本语音转换。然而现有的说话人建模方法忽视了说话人信息在语音的时序和频率通道上的丰富度变化。这种不充分的说话人建模阻碍了VC模型准确的提取集外的未见说话人的音色信息。 最近,西工大音频语音与语言处理研究组(ASLP@NPU)与字节跳动合作的论文 “Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion” 在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。这篇论文提出了一种基于多层级时序-通道说话人检索的零样本语音转换模型(MTCR-VC)。为了灵活地捕捉动态变化的说话人信息,我们提出了一种新的细粒度说话人建模方法,称为时间通道检索(temporal-channel retrieval,TCR),以找出说话人信息在语音中出现的时间(when)和位置 (where)。在预训练的SV模型的指导下,TCR从时间和通道维度检索出可变长度的说话人表征。同时,通过堆叠多个TCR形成的多层级模块(multi-level temporal-channel retrieval,MTCR)从多个不同的颗粒度级别提取说话人表征。此外,我们引入了一种基于循环的训练策略来模拟零样本推理,以实现更好的语音解缠和重建。内容、风格和说话人三个方面的感知约束被用于推动这一过程。现对该论文进行简要的解读和分享。
论文题目:Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion
作者列表:王智超,薛浏蒙,孔秋强, 谢磊,陈远哲,田乔,王玉平
发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing
合作单位:字节跳动
预印版:https://arxiv.org/abs/2305.07204
发表论文截图
扫码直接看论文
背景动机
由于只有一条目标说话人的语音可用,建模目标说话者的音色变得十分关键。一种直观的办法是使用说话人识别模型(speaker verification, SV)去提取序列级的说话人表征 [1]。除此之外,大部分工作也在训练中通过解耦的方法将语音分解成内容、风格、说话人音色。在这种方式中,说话人音色常常被认为是时序无关的静态特征并且被建模为固定的单一向量[2]。为了提取更加细颗粒度的说话人信息,许多工作[3,4]尝试从多层级或者时序变化的角度建模音色。
然而目前的建模方法对于建模细颗粒度说话人音色仍有局限性。通常说话人表征从语音语谱特征的时频空间中提取得到。在这两个维度中说话人信息的丰富程度随着时序和频率通道动态变化。语音的产生机制表明不同说话人语音具备不同的频率分布,同时不同语音内容,如元音、辅音或者副语言特征,携带着说话人的信息也反映不同的时序和频率通道上。在不同的语音产生阶段,说话人相关信息也会在不同的颗粒度上出现变化。
本文提出了一种新的多层级框架MTCR-VC,实现细颗粒建模的零样本语音转换。提出的细粒度说话人建模方法,称为时间通道检索(temporal-channel retrieval,TCR),用于捕获说话人音色在时间和通道维度上的动态变化。具体来说,在注意力机制的帮助下,来自预训练SV模型的说话人嵌入被用作查询,以从目标说话人中检索可变长度说话人表征中的说话人音色信息。由于语音产生的多层级特性,基于编码器-解码器U-net结构的语音转换方案[3], 我们使用多层级TCR( multi-level TCR,MTCR),来从不同粒度检索说话人信息。为了更好地进行语音解缠,我们引入了一种基于循环的训练策略来以循环方式的来模拟零样本推理。零样本语音转换实验验证了方法的有效性,同时通过可视化和客观指标分析验证提出的说话人建模方法的建模行为。
提出的方案
图1 MTCR-VC框架
MTCR说话人模块
说话人音色表现出动态特性常常在不同颗粒度的语音时序和频率通道中变化。受到注意力机制相关工作的启发[5,6],如图1蓝色区域所示,我们提出多层级时序-通道检索的说话人模块(multi-level temporal-channel retrieval, MTCR)在不同颗粒度上从时序和通道区域来找出说话人相关的信息。MTCR说话人模块由多个TCR块顺序组成,每个TCR块在特定颗粒度下顺序执行时序和通道上的说话人音色检索。由于SV模型对于不同音色稳定鲁棒的说话人判别能力,在检索过程中,说话人表征xvector被当作理想的音色检索线索。
图2 TCR模块结构,其中红色的标记表示模块的输出
循环训练策略
通常,VC模型的训练是以重构模式进行训练,即来自于同一个语音的讲话风格、语义内容、说话人音色进行组合最终得到尽可能接近原始语音的结果。这样的模式存在局限性。一方面,这个过程无法保证各个语音成分的解耦,细颗粒的建模过程常常更加容易出现耦合的情况;另一方面,这样的重构过程与最终的零样本推理过程是存在区别的,这样的不匹配可能会造成潜在的模型性能下降。为了防止提到的这些问题,借鉴于循环一致性的做法[7],如图3所示,包含配对路径和非配对路径的循环训练策略用于模型的训练。其中图3(a)Paired path是指模型依旧采用重构的模式进行训练,图3(b)的unpair path是指使用来自不同说话人的语音进行转换然后再重新转换回与最初输入尽可能接近的语音。通过这样的方式可以促进训练过程中的解耦并且减缓了训练-推理的不一致。由于循环过程中的难以对随机的转换结果进行监督,如图4所示,我们额外引入了对于不同语音成分的感知约束来引导循环的训练过程。在实际训练过程中,两种训练模式是同时进行的。
实验验证
实验数据:实验中使用来自LibriTTS的1000说话人对应的数据进行训练。实验的零样本测试分成了两类,包含数据集内预留的LibriTTS说话人和数据集外的说话人(VCTK, CMU Arctic, HIFI-TTS)。
实验指标:主观实验指标采用MOS来衡量语音自然度和说话人相似度。对于客观指标,ASR计算得到的WER被用与于衡量语音可懂度,SV模型判断得到的说话人准确率用作说话人相似性的度量。输入和转换语音之间对数域基频lf0的皮尔森相关系数用于衡量讲话风格的一致性。
表1 对比模型中说话人建模方法的差异
表4 说话人检索过程验证结果
样例网址:https://kerwinchao.github.io/demo_zslvc/
参考文献
[1] Y. Gu, Z. Zhang, X. Yi, and X. Zhao, “Mediumvc: Any-to-any voice conversion using synthetic specific-speaker speeches as intermedium features,” Arxiv, 2021.
[2] S. Yang, M. Tantrawenith, H. Zhuang, Z. Wu, A. Sun, J. Wang, N. Cheng, H. Tang, X. Zhao, J. Wang, and H. Meng, “Speech representation disentanglement with adversarial mutual information learning for one-shot voice conversion,” in International Speech Communication Association (Interspeech), 2022, pp. 2553–2557.
[3] Y. Y. Lin, C. M. Chien, J. hao Lin, H. yi Lee, and L.-S. Lee, “Fragmentvc: Any-to-any voice conversion by end-to-end extracting and fusing fine-grained voice fragments with attention,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 5939–5943.
[4] R. Li, D. Pu, M. Huang, and B. Huang, “Unet-tts: Improving unseen speaker and style transfer in one-shot voice cloning,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 8327–8331.
[5] T. Liu, R. K. Das, K. A. Lee, and H. Li, “Mfa: Tdnn with multi-scale frequency-channel attention for text-independent speaker verification with short utterances,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 7517–7521.
[6] Q. Liu, X. Che, and M. Bie, “R-stan: Residual spatial-temporal attention network for action recognition,” IEEE Access, pp. 82 246–82 255, 2019.
[7] T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “Maskcycleganvc: Learning non-parallel voice conversion with filling in frames,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 5919–5923.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”