语音转换 (Voice Conversion) 旨在保留语音中语言内容信息的同时,将源说话人音色转变为目标说话人的音色。越来越多的应用场景,如直播、视频会议等实时通信(RTC)应用中要求语音转换能够实时进行,而目前常见的语音转换模型以整段音频为输入进行转换,难以满足实时低延迟需求。在前作DualVC与DualVC 2中,我们实现了鲁棒流式语音转换,但延迟方面仍有很大的提升空间。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)和网易伏羲合作论文“DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion”被语音研究顶级会议INTERSPEECH 2024接收。该论文提出了利用语言模型(LM)生成伪上下文的端到端低延迟流式语音转换模型—DualVC 3,去除了对ASR的依赖,显著降低延迟同时保证了转换效果。现对该论文进行简要的解读和分享。
论文题目:DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion
合作单位:网易伏羲
作者列表:宁子谦,王帅,朱鹏程,王智超,姚继珣,谢磊,毕梦霄
论文Arxiv网址:https://arxiv.org/abs/2406.07846v1
Demo: https://nzqian.github.io/dualvc3/
发表论文截图
扫码直接看论文
背景动机
语音转换(Voice Conversion, VC)是一种在不改变语言信息的同时改变说话人音色的技术 [1]。虽然当前主流VC模型展示出了出色的转换效果,但大多需要整句或整段语音作为输入,无法应用于实时应用场景。相比之下,尽管流式语音转换(Streaming VC)模型得到了越来越广泛的关注,但与非流式模型相比,其转换效果仍然不足。这主要是相比于整句音频输入,模型无法获取到足够的未来信息,信息缺失导致了转换效果下降,具体表现为可懂度低、音质差和说话人相似度低等问题。
最近提出的 DualVC 2 [2] 在前作DualVC [3] 的基础上实现了鲁棒、高质量的流语音转换,延迟时间约为 180 毫秒。然而,识别-合成框架无法端到端的优化,而流式 ASR 模型的不稳定性使得进一步降低延迟成为挑战。为解决这些问题,我们提出了端到端模型更新方案——DualVC 3。通过说话人无关的语义 token 来指导内容编码器的训练,消除了对 ASR 的依赖,模型可以在极小的 chunk 下运行,并消除了级联误差。此外,在内容编码器输出上训练语言模型,通过预测未来帧来生成伪上下文,为解码器提供更多上下文信息,从而提高转换质量。实验结果表明,DualVC 3 在主观和客观指标方面的性能与 DualVC 2 相当,延迟时间仅为 50 毫秒。
DualVC 2: ICASSP2024 | DualVC 2:基于动态掩蔽卷积的流式与非流式统一语音转换模型
DualVC 3
图1 DualVC 模型结构
语义蒸馏
语音转换的本质可视为语音中语义信息和说话人音色的解耦和重组。前作 DualVC [3] 与 DualVC 2 [2] 均基于流行的识别-合成框架,使用预训练的 ASR 具有出色的说话人无关语义信息提取能力和噪声鲁棒性。然而额外的 ASR 模型会给整个pipeline带来额外的复杂性,多个模型级联也会导致级联误差。并且,流式 ASR 在 chunk 上的表现不佳,限制了流式 VC 模型进一步降低延迟。此外,流式 ASR 中存在的延迟 CTC 峰值分布和 token 发射延迟会导致语义信息偏移,从而造成更多潜在延迟。为此,我们引入了一个预先训练好的语义提炼自监督学习(SSL)模型用于指导内容编码器学习,以消除对外部 ASR 编码器的依赖。该模型可在推理过程中省略。
为了进一步消除说话人的残余音色, 被离散化,得到
使用离散中间表示法的另一个优势是,它赋予了流式语音转换模型类似 codec 的功能。在实践中,以客户端-服务器方式部署该模型时,客户端和服务器之间的直接音频传输需要很高的网络带宽,并可能产生明显的延迟。通过使用离散中间表示法,比特率大大降低,从而显著减少了网络开销并降低了延迟。
基于LM的伪上下文生成
图2 LM, 解码器与 Vocoder 推理流程
其中n代表要预测的伪上下文帧数,是 LM 参数。拼接
实验
实验设置
实验数据:AISHELL 3[7],包含来自218个说话人的88,035条数据。
对比系统
VQMIVC [8]:代表典型的模型内解耦的语音转换模型
DualVC 2 [2]:前作方案
主观测试
客观测试
字错误率:使用语音识别模型分别对于各个模型生成的语音进行识别并计算词错误率。与主观测试结论相同,在流式与非流式场景下,DualVC 3 全面超越了baseline模型,并达到与 DualVC 2 可比的水平。
编码器输出可视化:如图 3 所示,编码器输出通过 t-SNE 投影到二维,每种颜色代表一个说话人。在离散语义 token 的引导下,编码器成功提取了与说话者无关的语义信息。
图3 编码器输出的 t-SNE 可视化,每种颜色代表一个说话人 计算效率:我们考虑了三个主要指标:实时性(RTF)、延迟和参数量,结果如表2所示。在使用 LM 时,RTF 为0.797,延迟为55.94 ms;不使用 LM 时,RTF 为0.181,延迟为43.58 ms。 表2 计算与实时性指标
样例展示
source
full-mode
standalone-mode
source
full-mode
standalone-mode
参考文献
[1] B. Sisman, J. Yamagishi, S. King, and H. Li, “An overview of voice conversion and its challenges: From statistical modeling to deep learning,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 29, pp. 132–157, 2021.
[2] Z. Ning, Y. Jiang, P. Zhu, S. Wang, J. Yao, L. Xie, and M. Bi, “Dualvc 2: Dynamic masked convolution for unified streaming and non-streaming voice conversion,” in Proc. ICASSP. IEEE, 2024, pp. 1–5.
[3] Z. Ning, Y. Jiang, P. Zhu, J. Yao, S. Wang, Lei Xie, and Mengxiao Bi, “Dualvc: Dual-mode voice conversion using intra-model knowledge distillation and hybrid predictive coding,” in Proc. INTERSPEECH. 2023, pp. 2063–2067, ISCA.
[4] Z. Yao, D. Wu, X. Wang, B. Zhang, F. Yu, C. Yang, Z. Peng, X. Chen, L. Xie, and X. Lei, “Wenet: Production oriented streaming and nonstreaming end-to-end speech recognition toolkit,” in Proc. INTERSPEECH. 2021, pp. 4054–4058, ISCA.
[5] E. Kharitonov, D. Vincent, Z. Borsos, R. Marinier, S. Girgin, O. Pietquin, M. Sharifi, M. Tagliasacchi, and N. Zeghidour, “Speak, read and prompt: High-fidelity text-to-speech with minimal supervision,” CoRR, vol. abs/2302.03540, 2023.
[6] Z. Borsos, R. Marinier, D. Vincent, E. Kharitonov, O. Pietquin, M. Sharifi, D. Roblek, O. Teboul, D. Grangier, M. Tagliasacchi, and N. Zeghidour, “Audiolm: A language modeling approach to audio generation,” IEEE ACM Trans. Audio Speech Lang. Process., vol. 31, pp. 2523–2533, 2023.
[7] Y. Shi, H. Bu, X. Xu, S. Zhang, and M. Li, “AISHELL-3: A multi-speaker mandarin TTS corpus,” in Proc. INTERSPEECH. 2021, pp. 2756–2760, ISCA.
[8] D. Wang, L. Deng, Y. T. Yeung, X. Chen, X. Liu, and H. Meng, “VQMIVC: vector quantization and mutual information-based unsupervised speech representation disentanglement for one-shot voice conversion,” in Proc. INTERSPEECH. ISCA, 2021, pp.1344–1348
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”