说话风格(speaking style)可以通过文字形式表达,称为风格描述;也可以通过语音表达,称为风格语音(stylistic speech)。理解说话风格,例如对话中的情绪,并以适当的风格回应,是人类对话中的自然现象。然而,从技术角度来看,现有的说话风格理解和表达通常是独立研究的,典型任务包括风格描述和风格化语音生成。如何以语音-文本多模态的形式理解和表达说话风格,是一个巨大的挑战。 最近,西工大音频语音与语言处理研究组(ASLP@NPU)与微软合作的论文《UniStyle: Unified Style Modeling for Speaking Style Captioning and Stylistic Speech Synthesis》被多媒体处理、分析与计算领域顶会 ACM MultiMedia 2024 接收并选为口头报告。该论文针对上述问题进行了深入研究,提出了 UniStyle 框架,联合了说话风格描述和风格化语音生成中的风格建模。该框架实现了最先进的说话风格描述效果,并以零样本方式合成具有多种音色和说话风格的表现力语音。现对该论文进行简要解读和分享。
论文题目:UniStyle: Unified Style Modeling for Speaking Style Captioning and Stylistic Speech Synthesis
作者列表:朱新发,田文杰,王新升,何磊,肖雨佳,汪曦,谭旭,赵晟,谢磊
发表会议:ACM MultiMedia 2024
合作单位:微软
背景动机
在语言表达中,说话风格包含了诸多副语言信息,比如情感意图。早期研究对说话风格的理解和表达局限于几种有限的类别,比如高兴和悲伤。近期,研究者们开始用自然语言来描述说话风格,或者通过自然语言控制语音中的风格表达,并取得了显著的成功。然而,这两项任务通常是分开进行研究的。尽管它们在风格建模方面有共同之处,但尚未有研究同时探讨对说话风格的理解和表达。
此外,为了解决带风格描述的语音数据稀缺性问题,我们提出了两阶段半监督训练策略。该策略能够有效利用更多数据并提升表现。我们在两个开源数据集 TextrolSpeech 和 Libriheavy 上进行了广泛的实验和评估,结果表明 UniStyle 实现了出色的说话风格描述,并支持在零样本语音克隆的条件下用自然语言控制说话风格。
提出的方案—UniStyle
整体框架:UniStyle旨在能理解多模态的风格输入,也能多模态地表达风格;从而实现如语音到文本的说话风格描述和文本风格描述到风格化语音到生成等任务。在这里,消除文本和语音模态的鸿沟实为关键。如图1所示,联合建模器(UniConnector)承担了这一重任;它负责处理语音和文本描述的输入,建立风格对齐并提取风格表征。该风格表征可以直接被联合建模利用生成风格描述,也能送入到语音生成器(Speech Generator)控制生成语音的风格。
考虑到主要风格相关因素由自回归语言模型控制了并且通过三秒的提示语音很难提供完整全面的风格指导,本文对自回归模型进行改进;引入风格提示控制生成语音的风格。实际操作中,本文将风格提示拼接到语言模型输入序列的前端,提供风格指导;公式如下:
语音-文本匹配学习(STM)旨在判断输入语音和文本是否风格一致,此时自注意力掩码为空,意味着可学习的询问同时携带了语音表征和文本描述的信息。该询问送入到线性分类器中,判别输入语音与文本描述是否匹配。语音-文本对比学习(STC)从全局的视角连接文本与语音模态,该任务使得文本描述和语音可以相互检索。为此,自注意力掩码为单模态掩码,可学习的训练携带语音的信息与CLS令牌携带文本信息之间做相似度计算,即对比学习。说话风格描述(SSC)旨在以生成的视角强化跨模态风格对齐,此时自注意力掩码为因果掩码;文本表征可以看到所有询问与历史文本,从而迫使可学习询问从语音中提取生成风格描述所必需的信息。
两阶段半监督训练策略:当下,一项技术是否能“扩张”(Scale up),吞吐更多的数据,决定了其应用前景。考虑到带风格描述的数据的稀缺,本文提出两阶段半监督训练策略来利用更多的数据,包括带有风格描述的数据和无风格描述数据。第一阶段中,本文在不同数据上训练UniStyle的两部分,本文在以交叉熵损失函数训练语音生成器,采用交叉熵损失;在上训练联合建模器,采用如下的训练目标:
第二阶段中,本文在和上优化UniStyle整体,采用如下的半监督损失函数,其中为权重参数。
推理策略:在说话风格描述任务中,输入语音,联合建模器直接自回归地生成相应的说话风格描述。在风格化语音生成任务中,UniStyle既支持自然语言控制也支持参考语音迁移。具体地,对于参考语音输入,联合建模器提取相应风格表征;送入到语音生成器中引导风格。对于自然语言输入,联合建模器提取其CLS令牌;通过语音-文本对比来匹配训练集内最相近风格表达的语音,从而进行迁移。此外,本文使用了表征量化技巧加速匹配过程。
实验验证
在实验中我们主要求证以下两个问题,更多全面详细的分析请阅读原文。
1 . 联合建模是否存在优势。
1)TextrolSpeech,总计330小时带有风格描述的语音数据,每个风格描述包含五个维度:性别、基频、能量、语速、情感。
1)StyleCap,说话风格描述系统,通过WavLM提取特征,LLaMA进行解码。
2)SECap,说话风格描述系统,通过HuBERT提取特征,Q-Former进行转换,LLaMA生成最终描述。
3)PromptStyle,自然语言控制的风格化语音生成系统,主干为VITS。
4)Salle,自然语言控制的风格化语音生成系统,主干为VALL-E。
5)SC VALL-E,参考语音控制的风格化语音生成系统,主干为VALL-E。
6)Vec-Tok Speech,参考语音控制的风格化语音生成系统,主干为LLaMA + Conformer。
7)UniStyle-P,提出的框架,仅进行第一阶段训练。
8)UniStyle,提出的框架,第二阶段仅在小数据集上优化,验证问题1。
9)UniStyle-L,提出的框架,第二阶段应用半监督侧在全量数据集上优化,验证问题2。
风格化语音生成评估:评估包含两个方面——主观评估和客观评估。表3的结果可以看出,提出的UniStyle系列取得了最佳的结果。具体的,UniStyle-P不具备零样本风格控制的能力;UniStyle通过联合建模实现了基于自然语言或参考语音的风格控制能力,但牺牲了一定说话人相似度和词错误率。UniStyle-L避免了这一牺牲,再一次展现了半监督策略吞吐更多的数据的优势。
表3 零样本风格化语音生成结果,'-T'代表与文本描述的相似度,'-S'表示与参考语音的相似度
消融分析一:本文对UniStyle架构设计进行了消融实验,结果如表4所示。不对联合建模器做预训练会全面降低系统的表现。第二阶段训练不用联合建模器的损失会丢失说话风格描述以及风格化语音生成的能力;具体的,说话风格描述任务(SSC)承担了跨模态描述的主要作用,语音-文本对比学习(STC)建立了粗粒度的风格对齐,语音-文本匹配学习(STM)能让整体更加稳定。用更大的模型尺寸初始化联合建模器取得了与原始模型不相上下的表现。而在第二阶段对语音生成器采用LoRA的微调策略会整个模型不稳定,可能的原因是小数据不足以微调好语音生成器。
消融分析二:本文研究了可学习询问的数量对UniStyle表现的影响,结果如图3所示。可学习询问的数量对说话风格描述和风格化语音生成的影响趋势整体相同,过大或过小的询问数量都会取得较差表现。具体的,当询问数量过小时,可学习的参数减小,不足以提取丰富的说话风格表达;当询问数量过大时,TextrolSpeech有限的大小不足以训好模型。总而言之,这是一个数据与模型参数匹配的过程。
系统讨论与限制分析:本文对UniStyle每个风格维度的控制能力进行了评估。如表5所示,相比于其他对比模型,UniStyle在基频、语速、能量、情感上都取得优越的控制效果。考虑到UniStyle是为零样本音色克隆提供风格控制,性别属性主要受音色提示的影响,因此性别控制能力差是可预期且合理的。
样例展示
说话风格描述
测试语音:
测试语音:
描述结果:The man's low-pitched voice maintains an even speaking tempo, evoking a subdued vitality.
目标音色:
测试文本:Being alone often fills me with a deep sense of loneliness and helplessness.
目标风格:
合成语音:
测试文本:I feel angry and helpless witnessing such blatant disregard for the environment.
目标风格:
合成语音:
测试文本:I am very busy, Cornelia, and Colonel Bethel is waiting; I will talk to you at dinner time.
风格描述:A man with an energetic, high-pitched voice speaks fast.
合成语音:
测试文本:I am very busy, Cornelia, and Colonel Bethel is waiting; I will talk to you at dinner time.
风格描述:With a slow speaking speed and a low-pitched voice, the despondent male speaker's audio style conveys a sense of low energy.
合成语音:
参考文献
[1] Yaoxun Xu, Hangting Chen, Jianwei Yu, Qiaochu Huang, Zhiyong Wu, Shi-Xiong Zhang, Guangzhi Li, Yi Luo, and Rongzhi Gu. 2024. SECap: Speech Emotion Captioning with Large Language Model. In Thirty-Eighth AAAI Conference on Artificial Intelligence, AAAI 2024, Thirty-Sixth Conference on Innovative Applications of Artificial Intelligence, IAAI 2024, Fourteenth Symposium on Educational Advances in Artificial Intelligence, EAAI 2014, February 20-27, 2024, Vancouver, Canada, Michael J. Wooldridge, Jennifer G. Dy, and Sriraam Natarajan (Eds.). AAAI Press, 19323–19331.
[2] Kazuki Yamauchi, Yusuke Ijima, and Yuki Saito. 2023. StyleCap: Automatic Speaking-Style Captioning from Speech Based on Speech and Language Selfsupervised Learning Models. CoRR abs/2311.16509 (2023).
[3] Zhifang Guo, Yichong Leng, Yihan Wu, Sheng Zhao, and Xu Tan. 2023. Prompttts: Controllable Text-To-Speech With Text Descriptions. In IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2023, Rhodes Island, Greece, June 4-10, 2023. IEEE, 1–5.
[4] Guanghou Liu, Yongmao Zhang, Yi Lei, Yunlin Chen, Rui Wang, Zhifei Li, and Lei Xie. 2023. PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions. In Proc. INTERSPEECH 2023. 4888–4892
[5] Chengyi Wang, Sanyuan Chen, Yu Wu, Ziqiang Zhang, Long Zhou, Shujie Liu, Zhuo Chen, Yanqing Liu, Huaming Wang, Jinyu Li, Lei He, Sheng Zhao, and Furu Wei. 2023. Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers. CoRR abs/2301.02111 (2023)
[6] Junnan Li, Dongxu Li, Silvio Savarese, and Steven C. H. Hoi. 2023. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA (Proceedings of Machine Learning Research, Vol. 202), Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett (Eds.). PMLR, 19730–19742.
[7] Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, and Furu Wei. 2022. WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing. IEEE J. Sel. Top. Signal Process. 16, 6 (2022), 1505–1518.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”