IEEE SLT2024 | 源说话人追踪挑战赛(SSTC)NPU-TeleAI 联队冠军方案分享

文摘   科技   2024-09-24 09:30   陕西  
说话人验证(Speaker Verification, SV)是一项重要的生物认证技术,在包括移动设备、智能家居、智慧城市、智慧金融等各个领域得到了广泛应用。考虑到这些应用的安全性,确保说话人验证系统能够抵御各种欺骗攻击(如语音合成、语音转换、语音编辑等)变得尤为重要。语音转换(Voice Conversion, VC)作为常见攻击的一种,可以通过改变语音的各种特征来将某人的声音转换为另一个人的声音,这对SV系统构成了严重威胁。为了应对此挑战,IEEE SLT2024发起了源说话人追踪挑战赛(Source Speaker Tracing Challenge, SSTC),旨在识别转换语音信号中的源说话人信息。具体而言,SSTC聚焦于针对语音转换的源说话人验证,确定两段转换语音是否来自同一源说话人。此次挑战赛是由昆山杜克大学、中科院声学所、武汉大学、美国约翰霍普金斯大学及日本山梨大学联合举办。


西北工业大学和中国电信人工智能研究院(TeleAI)语音团队(NPU-TeleAI)联合参加了此项赛事荣获冠军。方案介绍论文"Speaker Contrastive Learning for Source Speaker Tracing"被SLT大会接收。针对源说话人追踪任务,提出了一种基于说话人对比学习的方案。实验表明,基于该方案的源说话人追踪系统在SSTC竞赛发布的测试集上取得了16.788%的EER,获得第一名。现对该方案进行简要解读。

论文题目:Speaker Contrastive Learning for Source Speaker Tracing

合作单位:中国电信人工智能研究院 (TeleAI)

作者列表:王晴,郭红梅,康健,堵梦杰,李杰,张晓雷,谢磊

论文预印版:http://arxiv.org/abs/2409.10072

发表论文截图

扫码直接看论文

背景动机

说话人识别是一种重要的生物识别身份验证技术,用于各种日常应用,如安全系统、身份调查和各种服务的用户身份验证。其意义在于确保信息安全和个性化的用户交互,因此,说话人识别系统的安全性至关重要。然而,说话人识别系统本身容易受到各种类型的攻击,从而影响其准确性和可靠性。例如,对抗攻击(Adversarial Attack)和欺骗攻击(Spoofing Attack)等。其中,欺骗攻击试图通过模仿目标说话人的音色进行攻击,常见的方法包括假扮、重放、语音转换和语音合成。

作为一种典型的欺骗攻击,语音转换(Voice Conversion, VC)是在不改变说话内容的前提下,将源说话人(Source Speaker)的音色、发音方式等声音特征转换为目标说话人(Target Speaker)的声音。这对SV系统构成了重大威胁。为了应对这类威胁,SLT2024源说话人追踪挑战赛(SSTC)提出了针对语音转换的源说话人验证任务。如图1所示,给定一段源说话人的语音和一段目标说话人的语音,源说话人的语音通过语音转换成为目标说话人的语音,并保留原有的语音文本内容,参赛者需要开发能够从转换后的语音中提取源说话人信息的模型,并确定两段转换后的语音是否来自同一源说话人。转换后的语音可能保留了源说话人某些说话风格的特征,因此通过源说话人追踪来确定转换语音的源说话人是否相同。

竞赛官网:https://sstc-challenge.github.io/

图1 针对语音转换的源说话人验证

为了解决语音转换背景下的源说话人追踪问题,NPU-TeleAI联队提出了一种说话人对比学习(Speaker Contrastive Learning)方法。该方法采用说话人对比损失来帮助模型训练,从而生成判别性更好的与源说话人更相关的嵌入。该方案聚焦于转换语音中保留的潜在源说话人信息,旨在通过嵌入提取器更好地捕捉这些信息。为显示转换语音嵌入中的潜在源说话人信息,我们整合了一个经过转换语音数据训练的说话人嵌入提取器。该提取器学会捕捉转换后仍然存在的源说话人的特征。说话人对比损失用于在多个干扰嵌入中识别出真实的源说话人嵌入,确保嵌入提取器能够有效学习转换语音中的源说话人信息。基于SLT2024 SSTC数据集的实验结果表明,我们提出的系统显著优于所有评估系统,在挑战赛中获得了第一名。

提出的方案

我们提出了一种基于说话人对比学习的源说话人追踪方法,来学习转换语音(Converted Speech)中潜在的源说话人信息。系统框架如图2所示,通过利用说话人对比损失(Contrastive Loss)来加强模型训练,这种说话人对比损失可以从多个不一致的嵌入中识别真正的源说话人语音(Source Speech)嵌入,从而确保说话人嵌入提取器可以有效学习转换后语音中存在的潜在源说话人信息。

图2 系统框架示意图

具体地,在比赛中我们在训练的说话人嵌入提取器,分为三个连续阶段进行训练:

• 阶段 I:说话人嵌入提取器最初使用Librispeech的train-clean数据集(仅包括源语音)进行训练。

• 阶段 II:使用SSTC 2024的训练集(转换后的语音)和Librispeech数据(源语音)对说话人嵌入提取器模型进行微调。

• 阶段 III:说话人嵌入提取器仅使用转换后的语音进行训练,同时计算说话人AAM-Softmax损失和对比损失(使用固定的阶段 I 模型提取的源语音嵌入)。

这个三阶段的嵌入提取器训练过程结合了源语音和转换语音,增强了模型学习转换语音中潜在源说话人信息的能力,通过逐步微调和专门化模型来提升源说话人追踪的效果。第一阶段训练完成后,说话人嵌入提取器固定用于从源语音中提取嵌入(如图4右侧所示)。这些嵌入被用作正样本和负样本,以计算说话人对比损失。随后,第二阶段的说话人嵌入提取网络进一步使用转换语音进行训练,并通过全连接层的表示来计算说话人对比损失。说话人对比损失被用于在  个说话人嵌入干扰项中识别出真实的源说话人嵌入,使嵌入提取器能够学习转换语音中可能包含的源说话人信息。给定一个转换语音嵌入  和一组源说话人嵌入  ,对比损失可以计算为:

  

其中,  表示两个向量之间的余弦相似度,  是超参数。  是所有候选源说话人嵌入的集合,正样本  与转换嵌入  来自同一说话人,而其他负样本来自不同的说话人。我们的源说话人对比学习模型的最终损失函数为:

  

其中,  是说话人嵌入提取器的损失函数,  是缩放说话人对比损失的插值系数。我们在训练过程中采样了  个负样本,并设置  ,以确保两种损失的量级相似。通过在多个干扰说话人嵌入中识别出真实的源说话人嵌入,嵌入提取器可以更好地学习转换语音中潜在存在的源说话人信息。

实验

实验数据

SLT2024 SSTC 主要是针对语音转换的源说话人验证,旨在确定两段转换后的语音样本是否来自同一源说话人。SSTC 数据集由16种不同的语音转换模型生成的假音频构成,其中8种方法用于挑战的训练集。在开发集(Dev set)中,相比训练集额外包含了4种方法。测试集则相比开发集又增加了4种未知方法(在比赛期间未知)。Librispeech 数据集[1]被用作源说话人,而VoxCeleb数据集[2, 3]则被用作目标说话人,通过上述的VC模型生成转换语音。具体来说,Librispeech数据集的train-clean、dev-clean和test-clean部分分别作为构建转换语音数据集的训练集、开发集和测试集的源语音。对于目标语音,使用VoxCeleb2开发集构建训练集,使用VoxCeleb1测试集构建开发集,部分VoxCeleb1开发集被用于构建测试集。在本研究中,按照挑战赛规则,仅使用Librispeech的train-clean部分、VoxCeleb2开发集以及SSTC数据集的训练集和开发集进行模型训练。MUSAN[4]和RIR Noise[5]数据集则被用于数据扩充。

评估标准

SLT2024 SSTC 使用等错误率(EER)指标评估系统性能。开发集和测试集的试验文件包含三个部分:标签(指示试验是目标还是非目标)、注册语音的ID和测试语音的ID。对于开发集和测试集中每对转换语音,计算余弦相似度,并应用阈值来判断这些语音是来自同一源说话人还是不同源说话人。

实验结果

SSTC测试集上我们验证的不同方法的EER结果如表1所示,方法1是基于MFA-Conformer [6, 7]的方法,方法2是在此基础上借助文献[8]中提出的适配器,通过分析不同的转换方法会在生成的假音频中留下不同的痕迹,可以识别所采用的具体方法,并进一步处理转换后的语音。带有适配器的 MFA-Conformer 可提高分辨不同类型 VC 方法转换语音的能力,EER结果取得提升。方法3是基于ResNet293模型[9],不使用说话人对比损失。方法4与方法3相比,提出的说话人对比学习方法显著提升了性能,并在所有比较方法中获得了更好的EER结果。这一改进归因于通过引入说话人对比损失来加强源说话人信息的学习,从而提升了源说话人追踪能力。
表1 SSTC测试集上不同源说话人验证方法的 EER(%)结果

表2展示了SSTC挑战赛各参赛队伍的系统和官方基线在SSTC测试集上的等错误率(EER)结果。我们的系统提交的系统在测试集上达到了16.788%的EER,获得了挑战赛的第一名。我们提出的对比学习方法比官方基线取得了更好的结果,EER提升了3.825%,EER领先挑战赛第二名队伍1.86%。

表2 各参赛队伍在SSTC测试集的EER(%)结果

参考文献

[1] Vassil Panayotov, Guoguo Chen, Daniel Povey, and Sanjeev Khudanpur, “Librispeech: an asr corpus based on public domain audio books,” in Proc. ICASSP. IEEE, 2015, pp. 5206–5210.
[2] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman, “Voxceleb: a large-scale speaker identification dataset,” arXiv preprint arXiv:1706.08612, 2017.
[3] Joon Son Chung, Arsha Nagrani, and Andrew Zisserman, “Voxceleb2: Deep speaker recognition,” arXiv preprint arXiv:1806.05622, 2018.
[4] David Snyder, Guoguo Chen, and Daniel Povey, “MUSAN: A music, speech, and noise corpus,” arXiv preprint arXiv:1510.08484, 2015.
[5] Tom Ko, Vijayaditya Peddinti, Daniel Povey, Michael L Seltzer, and Sanjeev Khudanpur, “A study on data augmentation of reverberant speech for robust speech recognition,” in Proc. ICASSP. IEEE, 2017, pp. 5220– 5224.
[6] Yang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu, Hung-yi Lee, and Helen Meng, “MFA-Conformer: Multi-scale feature aggregation conformer for automatic speaker verification,” arXiv preprint arXiv:2203.15249, 2022.
[7] Danwei Cai and Ming Li, “Leveraging ASR pretrained conformers for speaker verification through transfer learning and knowledge distillation,” arXiv preprint arXiv:2309.03019, 2023.
[8] Ze Li, Yuke Lin, Tian Yao, Hongbin Suo, and Ming Li, “The database and benchmark for source speaker verification against voice conversion,” arXiv preprint arXiv:2406.04951, 2024.
[9] Zhengyang Chen, Bei Liu, Bing Han, Leying Zhang, and Yanmin Qian, “The SJTU x-lance lab system for CNSRC 2022,” arXiv preprint arXiv:2206.11699, 2022. 





欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章