说话人验证(Speaker Verification, SV)是一项重要的生物认证技术,在包括移动设备、智能家居、智慧城市、智慧金融等各个领域得到了广泛应用。考虑到这些应用的安全性,确保说话人验证系统能够抵御各种欺骗攻击(如语音合成、语音转换、语音编辑等)变得尤为重要。语音转换(Voice Conversion, VC)作为常见攻击的一种,可以通过改变语音的各种特征来将某人的声音转换为另一个人的声音,这对SV系统构成了严重威胁。为了应对此挑战,IEEE SLT2024发起了源说话人追踪挑战赛(Source Speaker Tracing Challenge, SSTC),旨在识别转换语音信号中的源说话人信息。具体而言,SSTC聚焦于针对语音转换的源说话人验证,确定两段转换语音是否来自同一源说话人。此次挑战赛是由昆山杜克大学、中科院声学所、武汉大学、美国约翰霍普金斯大学及日本山梨大学联合举办。
西北工业大学和中国电信人工智能研究院(TeleAI)语音团队(NPU-TeleAI)联合参加了此项赛事荣获冠军。方案介绍论文"Speaker Contrastive Learning for Source Speaker Tracing"被SLT大会接收。针对源说话人追踪任务,提出了一种基于说话人对比学习的方案。实验表明,基于该方案的源说话人追踪系统在SSTC竞赛发布的测试集上取得了16.788%的EER,获得第一名。现对该方案进行简要解读。
论文题目:Speaker Contrastive Learning for Source Speaker Tracing
合作单位:中国电信人工智能研究院 (TeleAI)
作者列表:王晴,郭红梅,康健,堵梦杰,李杰,张晓雷,谢磊
发表论文截图
扫码直接看论文
背景动机
说话人识别是一种重要的生物识别身份验证技术,用于各种日常应用,如安全系统、身份调查和各种服务的用户身份验证。其意义在于确保信息安全和个性化的用户交互,因此,说话人识别系统的安全性至关重要。然而,说话人识别系统本身容易受到各种类型的攻击,从而影响其准确性和可靠性。例如,对抗攻击(Adversarial Attack)和欺骗攻击(Spoofing Attack)等。其中,欺骗攻击试图通过模仿目标说话人的音色进行攻击,常见的方法包括假扮、重放、语音转换和语音合成。
作为一种典型的欺骗攻击,语音转换(Voice Conversion, VC)是在不改变说话内容的前提下,将源说话人(Source Speaker)的音色、发音方式等声音特征转换为目标说话人(Target Speaker)的声音。这对SV系统构成了重大威胁。为了应对这类威胁,SLT2024源说话人追踪挑战赛(SSTC)提出了针对语音转换的源说话人验证任务。如图1所示,给定一段源说话人的语音和一段目标说话人的语音,源说话人的语音通过语音转换成为目标说话人的语音,并保留原有的语音文本内容,参赛者需要开发能够从转换后的语音中提取源说话人信息的模型,并确定两段转换后的语音是否来自同一源说话人。转换后的语音可能保留了源说话人某些说话风格的特征,因此通过源说话人追踪来确定转换语音的源说话人是否相同。
竞赛官网:https://sstc-challenge.github.io/
图1 针对语音转换的源说话人验证
为了解决语音转换背景下的源说话人追踪问题,NPU-TeleAI联队提出了一种说话人对比学习(Speaker Contrastive Learning)方法。该方法采用说话人对比损失来帮助模型训练,从而生成判别性更好的与源说话人更相关的嵌入。该方案聚焦于转换语音中保留的潜在源说话人信息,旨在通过嵌入提取器更好地捕捉这些信息。为显示转换语音嵌入中的潜在源说话人信息,我们整合了一个经过转换语音数据训练的说话人嵌入提取器。该提取器学会捕捉转换后仍然存在的源说话人的特征。说话人对比损失用于在多个干扰嵌入中识别出真实的源说话人嵌入,确保嵌入提取器能够有效学习转换语音中的源说话人信息。基于SLT2024 SSTC数据集的实验结果表明,我们提出的系统显著优于所有评估系统,在挑战赛中获得了第一名。
提出的方案
图2 系统框架示意图
具体地,在比赛中我们在训练的说话人嵌入提取器,分为三个连续阶段进行训练:
• 阶段 I:说话人嵌入提取器最初使用Librispeech的train-clean数据集(仅包括源语音)进行训练。
• 阶段 II:使用SSTC 2024的训练集(转换后的语音)和Librispeech数据(源语音)对说话人嵌入提取器模型进行微调。
• 阶段 III:说话人嵌入提取器仅使用转换后的语音进行训练,同时计算说话人AAM-Softmax损失和对比损失(使用固定的阶段 I 模型提取的源语音嵌入)。
其中,
实验
实验数据
SLT2024 SSTC 主要是针对语音转换的源说话人验证,旨在确定两段转换后的语音样本是否来自同一源说话人。SSTC 数据集由16种不同的语音转换模型生成的假音频构成,其中8种方法用于挑战的训练集。在开发集(Dev set)中,相比训练集额外包含了4种方法。测试集则相比开发集又增加了4种未知方法(在比赛期间未知)。Librispeech 数据集[1]被用作源说话人,而VoxCeleb数据集[2, 3]则被用作目标说话人,通过上述的VC模型生成转换语音。具体来说,Librispeech数据集的train-clean、dev-clean和test-clean部分分别作为构建转换语音数据集的训练集、开发集和测试集的源语音。对于目标语音,使用VoxCeleb2开发集构建训练集,使用VoxCeleb1测试集构建开发集,部分VoxCeleb1开发集被用于构建测试集。在本研究中,按照挑战赛规则,仅使用Librispeech的train-clean部分、VoxCeleb2开发集以及SSTC数据集的训练集和开发集进行模型训练。MUSAN[4]和RIR Noise[5]数据集则被用于数据扩充。
评估标准
SLT2024 SSTC 使用等错误率(EER)指标评估系统性能。开发集和测试集的试验文件包含三个部分:标签(指示试验是目标还是非目标)、注册语音的ID和测试语音的ID。对于开发集和测试集中每对转换语音,计算余弦相似度,并应用阈值来判断这些语音是来自同一源说话人还是不同源说话人。
实验结果
表2展示了SSTC挑战赛各参赛队伍的系统和官方基线在SSTC测试集上的等错误率(EER)结果。我们的系统提交的系统在测试集上达到了16.788%的EER,获得了挑战赛的第一名。我们提出的对比学习方法比官方基线取得了更好的结果,EER提升了3.825%,EER领先挑战赛第二名队伍1.86%。
表2 各参赛队伍在SSTC测试集的EER(%)结果
参考文献
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”