说话人匿名(Speaker Anonymization)旨在隐藏说话人的身份,同时保留原始语音的自然性和独特性。说话人匿名作为一种有效的隐私保护解决方案,当前的主流匿名方案使用预训练自动说话人验证(ASV)模型中的话语级向量来表示说话人身份,然后对其进行平均或修改以实现说话人匿名。然而,匿名后语音的自然度、说话人独特性方面有所下降,并且在应对强大攻击者时存在严重的隐私泄漏问题。 近期,西工大音频语音与语言处理研究组(ASLP@NPU)的论文 “Distinctive and Natural Speaker Anonymization via Singular Value Transformation-assisted Matrix” 在语音研究领域顶级期刊IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP)上发表,该论文针对说话人匿名问题开展了深入研究。论文提出了一种新颖的说话人匿名方法。该方法通过建模与说话人身份相关的矩阵,并将其转换为匿名奇异值变换辅助矩阵,从而隐藏原始说话人身份。该方法首先从预训练的ASV模型中提取帧级说话人向量,并使用注意力机制创建说话人得分矩阵和与说话人相关的标记。值得注意的是,说话人得分矩阵作为与之对应的说话人相关标记的权重,代表了说话人的身份。通过奇异值分解(SVD)重新组合分解后的正交特征向量矩阵和非线性变换的奇异值,生成奇异值变换辅助矩阵。这一过程防止了引入其他说话人身份信息而导致的说话人独特性下降。通过将奇异值变换辅助矩阵与说话人相关标记相乘,我们生成了匿名的说话人身份表示,从而产生既自然又独特的匿名语音。论文在VoicePrivacy竞赛官方数据集上进行了实验验证,证明了所提方法在所有攻击场景下都能有效保护说话人隐私,同时保持语音的自然性和独特性。
发表论文截图
扫码直接看论文
背景动机
随着社交媒体的广泛应用,互联网上的语音数据呈指数级增长。诸如语音支付和语音助手等应用将语音数据存储在集中服务器上,使其容易被恶意攻击者窃取。语音数据包含丰富的个人敏感信息,如年龄、健康状况、宗教信仰等,这些信息可以通过说话人识别系统或其他类型的语音属性识别系统进行识别攻击,导致个人隐私泄露。说话人匿名能够在用户分享语音数据之前对用户隐私进行保护,是一种主动的隐私保护解决方案。
说话人匿名技术的相关研究仍处于起步阶段,现有研究在定义和评估标准方面缺乏一致性。为了解决这个问题并便于比较说话人匿名系统,语音社区引入了VoicePrivacy Challenge (VPC),并在2020年和2022年举行了比赛。VPC明确定义了说话人匿名任务、基准、评估标准和数据集,以推动专注于保护语音数据隐私的技术发展和创新。实验室在2022VPC竞赛提交的系统,在官方四个条件(condition)指标上均取得了第一名的优异成绩 [1]。
竞赛获奖系统解读:VPC2022语音隐私保护赛NWPU-ASLP说话人匿名化系统
说话人匿名的主要挑战在于如何选择适当的说话人身份表示,并有效地抑制原始说话人信息。之前的研究提出了直接使用从预训练的ASV模型中提取的说话人向量[2]或查找表(LUT)作为说话人身份表示[1]。这些表示可以通过诸如平均[2]、缩放[3]或添加对抗噪声[4]等技术进一步修改。然而,直接在语音转换模型中使用从预训练的ASV模型中提取的说话人向量存在局限性,因为预训练的ASV模型和语音转换模型通常没有使用转换优化函数联合训练。因此,在面对更强大的攻击者时,说话人匿名的性能显著下降。此外,从ASV模型中提取的表示是一个全局向量,可能保留了残余的说话人无关的全局信息,如风格和韵律。当直接对该表示进行平均或缩放时,匿名语音的独特性和自然性会明显下降,主要是由于引入了其他说话人的身份信息以及ASV模型与语音转换模型之间的不匹配所致。
本文提出了一种新颖的说话人匿名方法,将说话人身份建模为矩阵形式,称为奇异值变换辅助矩阵。奇异值变换辅助矩阵表示与说话人身份信息对应的权重,通过修改矩阵值可以有效地隐藏说话人身份,同时保持语音的自然性和独特性。为了避免传统方法中预训练的ASV模型与声学模型之间的不匹配问题,我们从预训练的ASV模型中提取帧级说话人表示,并利用自监督学习(SSL)生成说话人相关的标记和说话人得分矩阵,以获得更适合的话语级说话人身份表示。SSL模块与转换模型联合优化,这显著提高了转换后语音的自然性,并能有效捕捉说话人身份的独特属性。另一方面,说话人相关标记类似于软说话人身份标签,而说话人得分矩阵则是标记的权重,因此我们可以通过修改说话人得分矩阵来匿名原始说话人身份。我们采用奇异值分解(SVD)来分解说话人得分矩阵,生成表示相关性的奇异矩阵,用于生成最终的说话人表示权重。通过变换奇异矩阵,我们可以修改原始说话人矩阵的权重,实现匿名过程。提出的匿名过程无需额外的说话人向量池,降低了复杂性。SVD过程防止了因引入其他说话人身份信息而导致的说话人独特性下降。
解决方案
图1 展示了我们提出说话人匿名系统的框架,该框架由三个模块组成:特征提取器、说话人身份建模模块和重构模块。在训练阶段,特征提取器会提取三种特征:韵律表示、软内容表示和帧级说话人向量。特征提取器包括两个预训练模型:基于HuBERT的软内容提取器、ECAPA-TDNN说话人提取器和一个韵律提取器。预训练模型在训练期间是冻结的。软内容提取器通过微调预训练的HuBERT-Base模型获得,特别关注从离散单元中获取细粒度连续上下文表示。从该模型提取的语言内容特征可以有效减少的误读与变调,并增加匿名语音的整体自然性。另一方面,ECAPA-TDNN负责提取与说话人特征相关的帧级表示。对于韵律提取,使用YAAPT算法从输入的语音信号中提取能量和F0作为韵律特征。
图 1. 提出的说话人匿名系统框架
图 2. 内容编码器与韵律编码器结构图
说话人身份表示建模
说话人身份表示在说话人匿名中的作用具有至关重要的作用。其重要性可分为两个方面:获得说话人身份的最佳表示;其次,隐藏说话人的身份。理想的匿名说话人表示应具备以下特点:1) 取消原始说话人身份信息,2) 保留独特的说话人身份以维持匿名说话人的多样性,3) 排除任何残留的与说话人无关的信息。传统上,普遍的方法将说话人身份视为一个全局表示,并直接提取话语级别的说话人向量,通常称为 x-vector。不幸的是,这些方法忽视了说话人身份中其他宝贵的时变信息。
为了避免丢失说话人身份信息并减少残留的与说话人无关的信息,我们将说话人身份表示建模为三个步骤:
(i). 我们从预训练的ASV模型中提取帧级别的说话人向量,而不是传统的话语级别向量。如图1所示,预训练的ASV模型由几个ResNet块、一个池化层和一个全连接层组成。我们提取最后一个ResNet块的输出作为与说话人相关的向量,这些向量保留了时间维度。
(ii). 帧级别的说话人向量作为GRU编码器的输入,该编码器旨在捕获既有时不变又有其他时变的说话人身份信息,我们利用GRU层的输出作为注意力查询。
(iii). 使用注意力机制来捕获说话人表示和说话人相关标记之间的相关性,同时生成说话人分数矩阵。
这种配置使注意力层能够捕获突出的特征,并在说话人身份表示中对最相关的信息进行对齐。一旦我们获得了说话人得分矩阵,我们可以以多头方式生成一个固定维度的说话人向量。
匿名策略
图 3. 基于奇异值分解的匿名流程图
实验验证
实验设置
为了评估我们提出的匿名系统在所有攻击场景下的性能,即Ignore、lazy-informed、semi-informed,我们遵循了VPC竞赛的官方评估方案,并在官方数据集上进行了实验,数据集详情如表1所示。
隐私保护实验结果
根据VPC评估计划的配置,我们首先研究了我们提出的匿名系统在各种攻击场景下的隐私保护性能。如表2所示,对于无知情景,开发和测试数据集中的平均EER结果都高于50%,表明我们提出的匿名系统在这种情况下能够有效保护个人隐私。对于另外两个更具挑战性的攻击情景,攻击者对匿名系统的了解水平高于无知情景,我们提出的系统的EER结果只有轻微差距。尽管如此,我们的匿名系统仍然实现了合理的隐私保护性能。这些结果表明,我们提出的匿名系统即使在更具挑战性的攻击下也能最大程度地减少说话人隐私泄漏。
基线系统对比结果
图4. 说话人相似度矩阵可视化。O代表原始音频,A代表匿名音频
图5. 主观MOS测评结果
参考文献
[1] J. Yao, Q. Wang, L. Zhang, P. Guo, Y. Liang, and L. Xie, “NWPU-ASLP system for the VoicePrivacy 2022 challenge,” arXiv preprint arXiv:2209.11969, 2022
[2] B. M. L. Srivastava, M. Maouche, M. Sahidullah, E. Vincent, A. Bellet, M. Tommasi, N. Tomashenko, X. Wang, and J. Yamagishi, “Privacy and utility of x-vector based speaker anonymization,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 30, pp. 2383–2395, 2022
[3] J. Yao, Q. Wang, Y. Lei, P. Guo, L. Xie, N. Wang, and J. Liu, “Distinguishable speaker anonymization based on formant and fundamental frequency scaling,” in ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2023.
[4] C. Huang, Y. Y. Lin, H. Lee, and L. Lee, “Defending your voice: Adversarial attack on voice conversion,” in IEEE Spoken Language Technology Workshop, SLT, 2021, pp. 552–559.
[5] Miao X, Wang X, Cooper E, et al. Speaker anonymization using orthogonal householder neural network. in IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”