论文题目:U-Style: Cascading U-nets with Multi-level Speaker and Style Modeling for Zero-Shot Voice Cloning
作者列表:李涛,王智超,朱新发,从坚,田乔,王玉平,谢磊 发表期刊:IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)
论文网址:https://ieeexplore.ieee.org/document/10669040
内容简介:零样本说话人克隆(Zero-shot Voice Cloning)旨在基于单个参考语音为在 TTS 模型训练过程中未见(unseen)的目标说话人合成语音。虽然这一技术具有很高的实用价值,但当前的零样本方法在合成语音的自然度和说话人相似度方面有进一步提升的潜力。此外,现有的零样本方法大多侧重于说话人音色的建模,而忽略了将任意说话风格赋予目标说话人的能力。这主要是因为零样本说话人克隆和风格克隆面临着一个独特的挑战:如何仅从代表任意说话人和风格的参考语音中学习解耦的说话人和风格表示。为应对这一挑战,我们提出了 U-Style 方法。该方法采用 Grad-TTS 作为基础模型,在文本编码器和扩散解码器之间级联了说话人特定编码器和风格特定编码器。具体而言,U-Style通过信号扰动技术,将语音显式地分解为说话人和风格两部分进行建模,并利用跳跃连接的 U-net 结构在不同层级上进行表征提取和重构,从而提升对unseen说话人和风格的建模能力。此外,为了提高合成语音的自然度,这两个编码器中分别采用了基于均值的实例归一化和风格自适应层归一化技术来进行表征提取和重构。实验结果表明,与现有方法相比,U-Style 在unseen说话人和风格的克隆任务中,在自然度、说话人相似度和风格相似度方面均取得了显著提升。此外,U-Style 还能够将风格从一个unseen源说话人转移到另一个unseen目标说话人,实现零样本语音克隆中的说话人音色和风格的灵活组合。
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”