IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

文摘   科技   2024-05-21 13:26   陕西  
零样本语音转换(zero-shot voice conversion)是指将输入语音转换成任意说话人的语音,仅需要该说话人一句语音且无需额外的模型更新。通常的零样本语音转换方法通过使用来自预训练的说话人识别(SV)模型或者在训练时学习说话人表征来实现零样本语音转换。然而现有的说话人建模方法忽视了说话人信息在语音的时序和频率通道上的丰富度变化。这种不充分的说话人建模阻碍了VC模型准确的提取集外的未见说话人的音色信息。

最近,西工大音频语音与语言处理研究组(ASLP@NPU)与字节跳动合作的论文 “Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion” 在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对上述问题开展了深入研究。这篇论文提出了一种基于多层级时序-通道说话人检索的零样本语音转换模型(MTCR-VC)。为了灵活地捕捉动态变化的说话人信息,我们提出了一种新的细粒度说话人建模方法,称为时间通道检索(temporal-channel retrieval,TCR),以找出说话人信息在语音中出现的时间(when)位置 (where)在预训练的SV模型的指导下,TCR从时间和通道维度检索出可变长度的说话人表征。同时,通过堆叠多个TCR形成的多层级模块(multi-level temporal-channel retrieval,MTCR)从多个不同的颗粒度级别提取说话人表征。此外,我们引入了一种基于循环的训练策略来模拟零样本推理,以实现更好的语音解缠和重建。内容、风格和说话人三个方面的感知约束被用于推动这一过程。现对该论文进行简要的解读和分享。


论文题目:Multi-level Temporal-channel Speaker Retrieval for Zero-shot Voice Conversion

作者列表:王智超,薛浏蒙,孔秋强, 谢磊,陈远哲,田乔,王玉平

发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing

合作单位:字节跳动

预印版:https://arxiv.org/abs/2305.07204


发表论文截图

扫码直接看论文

背景动机

语音转换(Voice Conversion,VC)是一个在不改变语音内容的前提下,改变语音中说话人音色的一项技术。通常训练一个VC系统需要大量的目标说话者的语音。相比之下,零样本语音转换(zero-shot VC)专注于将源语音转换为任意所需说话人的语音,而该说话人仅提供一句参考语音,这对于实际应用更实用,也吸引了大量的关注。

由于只有一条目标说话人的语音可用,建模目标说话者的音色变得十分关键。一种直观的办法是使用说话人识别模型(speaker verification, SV)去提取序列级的说话人表征 [1]。除此之外,大部分工作也在训练中通过解耦的方法将语音分解成内容、风格、说话人音色。在这种方式中,说话人音色常常被认为是时序无关的静态特征并且被建模为固定的单一向量[2]。为了提取更加细颗粒度的说话人信息,许多工作[3,4]尝试从多层级或者时序变化的角度建模音色。

然而目前的建模方法对于建模细颗粒度说话人音色仍有局限性。通常说话人表征从语音语谱特征的时频空间中提取得到。在这两个维度中说话人信息的丰富程度随着时序和频率通道动态变化。语音的产生机制表明不同说话人语音具备不同的频率分布,同时不同语音内容,如元音、辅音或者副语言特征,携带着说话人的信息也反映不同的时序和频率通道上。在不同的语音产生阶段,说话人相关信息也会在不同的颗粒度上出现变化。

本文提出了一种新的多层级框架MTCR-VC,实现细颗粒建模的零样本语音转换。提出的细粒度说话人建模方法,称为时间通道检索(temporal-channel retrieval,TCR),用于捕获说话人音色在时间和通道维度上的动态变化。具体来说,在注意力机制的帮助下,来自预训练SV模型的说话人嵌入被用作查询,以从目标说话人中检索可变长度说话人表征中的说话人音色信息。由于语音产生的多层级特性,基于编码器-解码器U-net结构的语音转换方案[3], 我们使用多层级TCR( multi-level TCR,MTCR),来从不同粒度检索说话人信息。为了更好地进行语音解缠,我们引入了一种基于循环的训练策略来以循环方式的来模拟零样本推理。零样本语音转换实验验证了方法的有效性,同时通过可视化和客观指标分析验证提出的说话人建模方法的建模行为。

提出的方案

MTCR-VC 将语音表征为讲话风格、语义内容、说话人音色。基于FragmentVC[3]的架构,如图1所示,MTCR-VC的结构包括讲话风格模块、内容编码器、MTCR说话人模块和一个语音解码器。首先讲话风格和语义内容的表示从源语音的基频和瓶颈表征中学习。然后MTCR说话人模块从目标说话人语音中提取多层的细颗粒度说话人表征。最终语音解码器结合说话人表征、语义以及风格产生最终的转换语音。

图1 MTCR-VC框架

MTCR说话人模块

说话人音色表现出动态特性常常在不同颗粒度的语音时序和频率通道中变化。受到注意力机制相关工作的启发[5,6],如图1蓝色区域所示,我们提出多层级时序-通道检索的说话人模块(multi-level temporal-channel retrieval, MTCR)在不同颗粒度上从时序和通道区域来找出说话人相关的信息。MTCR说话人模块由多个TCR块顺序组成,每个TCR块在特定颗粒度下顺序执行时序和通道上的说话人音色检索。由于SV模型对于不同音色稳定鲁棒的说话人判别能力,在检索过程中,说话人表征xvector被当作理想的音色检索线索。

如图2所示,TCR模块由卷积层、时序检索模块、通道检索模块依次构成。注意力机制用于两个检索过程中来实现不同维度上的检索,按照xvector提供的音色查找线索从隐层中找出并聚合说话人信息。其中,时序检索的目标是使得说话人模块知道什么时候需要分配更多的注意力,类似,通道检索的目标是让模型知道音色信息在通道维度中存在的位置。关于两种检索的过程具体可以参见论文Section III.B。

图2 TCR模块结构,其中红色的标记表示模块的输出

循环训练策略

通常,VC模型的训练是以重构模式进行训练,即来自于同一个语音的讲话风格、语义内容、说话人音色进行组合最终得到尽可能接近原始语音的结果。这样的模式存在局限性。一方面,这个过程无法保证各个语音成分的解耦,细颗粒的建模过程常常更加容易出现耦合的情况;另一方面,这样的重构过程与最终的零样本推理过程是存在区别的,这样的不匹配可能会造成潜在的模型性能下降。为了防止提到的这些问题,借鉴于循环一致性的做法[7],如图3所示,包含配对路径和非配对路径的循环训练策略用于模型的训练。其中图3(a)Paired path是指模型依旧采用重构的模式进行训练,图3(b)的unpair path是指使用来自不同说话人的语音进行转换然后再重新转换回与最初输入尽可能接近的语音。通过这样的方式可以促进训练过程中的解耦并且减缓了训练-推理的不一致。由于循环过程中的难以对随机的转换结果进行监督,如图4所示,我们额外引入了对于不同语音成分的感知约束来引导循环的训练过程。在实际训练过程中,两种训练模式是同时进行的。

图3 循环训练过程。其中X,Y表示来自不同说话人的不同语音
图4 感知约束

实验验证

实验数据:实验中使用来自LibriTTS的1000说话人对应的数据进行训练。实验的零样本测试分成了两类,包含数据集内预留的LibriTTS说话人和数据集外的说话人(VCTK, CMU Arctic, HIFI-TTS)。

实验指标:主观实验指标采用MOS来衡量语音自然度和说话人相似度。对于客观指标,ASR计算得到的WER被用与于衡量语音可懂度,SV模型判断得到的说话人准确率用作说话人相似性的度量。输入和转换语音之间对数域基频lf0的皮尔森相关系数用于衡量讲话风格的一致性。

实验结果:表1展示了在说话人建模方法上不同对比模型的差异。表2展示了不同方法的实验结果。实验结果表明在使用可学习说话人建模方法的模型中,细颗粒建模的方法在说话人相似度上优于序列级的结果同时提出的MTCR-VC进一步提高了模型捕捉颗粒度音色的能力。另外在自然度上,我们发现可学习说话人表征的方法在捕捉音色的同时可能也包含来自语音中其他的信息而导致说话人表征受到干扰最终造成自然度上受到影响,这一问题可能来自于数据的多样性不同也可能来自方法的设计。

表1 对比模型中说话人建模方法的差异

表2 零样本测试结果

MTCR模块行为分析-说话人表征:由图5所示,我们通过时序维度的平均可视化了每一层的全局说话人表征。可以看出在浅层,说话人表征具有说话人判别性。随着层级的加深,说话人簇开始出现重叠的情况。这个现象与之前的零样本工作类似[4]。值得注意的是,这个现象仅从全局视野出发而本文中使用的是时变特征。更进一步,我们对MTCR模块的层级进行了依次消融来客观验证层级影响,比如w/o Z_s3表示MTCR-VC在不使用Z_s3对应的模块之后从头训练的模型,模型其他的设置保持不变。实验结果如表3所示,当模型去掉了第三个TCR block之后,模型的说话人准确度出现了下降,这表明在第三层的时变说话人表征中编码了说话人音色信息,而更多TCR block的消融使得音色相似度更多的下降。
图5 不同层级说话人表征验证(全局特征 by 时序平均), 不同颜色代表不同说话人
表3 MTCR说话人模块验证结果

MTCR模块行为分析-说话人检索过程:我们进一步分析了MTCR中注意力的检索行为。如图6所示,在不同层上,attention的注意力表现出不同的行为。对于时序和通道上,不同维度的检索也存在着区别。具体分析可详见论文。为了进一步验证检索的有效性,我们将特定检索过程的注意力权重设置成平均数值,而保持其他的检索过程不变,在这样的设置下模型从头开始训练来进行客观验证。客观指标结果如表4所示,在不同层TCR中去掉检索过程的话都出现了不同程度的性能下降。当直接取消时序或者通道上的检索行为之后,结果表现出在说话人准确率和可懂度上的影响。
图6 检索过程中注意力可视化。(a)说话人语音;(b)音高曲线;(c)通道查询;(d)时序查询。c和d中红色线条之间间隔代表不同的片段,注意力机制被用于每个片段中。

表4 说话人检索过程验证结果

样例网址:https://kerwinchao.github.io/demo_zslvc/

参考文献

[1] Y. Gu, Z. Zhang, X. Yi, and X. Zhao, “Mediumvc: Any-to-any voice conversion using synthetic specific-speaker speeches as intermedium features,” Arxiv, 2021.

[2] S. Yang, M. Tantrawenith, H. Zhuang, Z. Wu, A. Sun, J. Wang, N. Cheng, H. Tang, X. Zhao, J. Wang, and H. Meng, “Speech representation disentanglement with adversarial mutual information learning for one-shot voice conversion,” in International Speech Communication Association (Interspeech), 2022, pp. 2553–2557.

[3] Y. Y. Lin, C. M. Chien, J. hao Lin, H. yi Lee, and L.-S. Lee, “Fragmentvc: Any-to-any voice conversion by end-to-end extracting and fusing fine-grained voice fragments with attention,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 5939–5943.

[4] R. Li, D. Pu, M. Huang, and B. Huang, “Unet-tts: Improving unseen speaker and style transfer in one-shot voice cloning,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 8327–8331.

[5] T. Liu, R. K. Das, K. A. Lee, and H. Li, “Mfa: Tdnn with multi-scale frequency-channel attention for text-independent speaker verification with short utterances,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 7517–7521.

[6] Q. Liu, X. Che, and M. Bie, “R-stan: Residual spatial-temporal attention network for action recognition,” IEEE Access, pp. 82 246–82 255, 2019.

[7] T. Kaneko, H. Kameoka, K. Tanaka, and N. Hojo, “Maskcycleganvc: Learning non-parallel voice conversion with filling in frames,” in International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 5919–5923.



欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章