在多说话者场景中,尤其是在极低信噪比(SNR)条件下,利用空间特征增强目标语音至关重要,但开发紧凑的多通道语音增强系统仍面临挑战。上海交通大学X-LANCE实验室的研究团队取得新突破,提出一种因果导向的 U-Net(CDUNet)模型,为语音增强技术带来了新的解决方案。 论文地址:https://arxiv.org/pdf/2412.18141
传统的多通道语音增强技术如波束形成器存在性能局限,而现有的神经网络方法也有诸多不足,如预定义目标语音区域、需较多麦克风、神经网络参数规模大以及忽视对下游任务的影响等。研究团队针对 “鸡尾酒会问题” 开展研究,即从干扰语音中提取目标说话者的语音信号。他们提出的 CDUNet 模型采用了独特的三重导向空间选择方法,将三个导向向量与 U-Net 架构相结合,以此确定目标方向和增强范围。图1. CDUNet架构的示意图。波束形成器的输出结合了目标方向和宽度输入,这捕捉了对于增强至关重要的空间区域信息。在模型中,利用目标角度和通过对目标角度加减输入宽度得到的两个边缘角度,为波束形成器生成三个导向向量。同时,网络以两个原始麦克风信号的频域表示以及波束形成器在目标角度和两个边缘角度的输出作为输入,从而准确定位目标说话者方向,并能根据目标和干扰源的角度分离情况进行更精确的定向增强。图2. 第一个固定目标数据集的模拟设置图示。目标方向在 85° 至 95° 之间,图中用红色星号表示,而干扰方向距目标方向 15°,由绿色星号指示。房间信息是从表中提供的范围内均匀采样得到的。CDUNet 模型基于卷积 U-Net 架构,拥有强大的编码器 - 解码器结构,并结合了跳连接。在编码器和解码器之间,按照双路径循环神经网络(DPRNN)框架集成了频率序列层和长短期记忆(LSTM)层等序列建模模块。此外,模型还融入了卷积块注意力模块(CBAM),通过在解码器和跳连接中应用,重新校准时频(TF)特征图,提高目标重建精度。在损失函数方面,研究团队创新性地提出了结合尺度不变信噪比(SI-SNR)和多分辨率短时傅里叶变换(MRSTFT)损失的组合损失函数,有效解决了仅使用 SI-SNR 损失时网络过度抑制低频分量的问题。在数据集的构建上,所有的干净语音和干扰语音均从 LibriSpeech 和内部语料库中随机采样。研究者模拟生成了固定目标数据集和可变目标数据集,其中固定目标数据集包含 250,000 个训练样本,目标方向固定在 85° 至 95° 之间,目标语音相对于干扰说话者混合信号的信噪比在 -5 dB 至 10 dB 之间变化;可变目标数据集则引入了目标说话者位置的可变性,干扰方向始终与目标方向相距 15°,信噪比和语句数量与固定目标数据集保持一致。模型输入采用窗口大小为 512、步长为 256 的 STFT,输出采用逆 STFT,最终 CDUNet 模型的频域输入为 10 通道。在评估环节,构建了固定目标和可变目标评估数据集,并选择了传统的延迟求和波束形成器(DAS)、广义旁瓣抵消器(GSC)、联合空间和时间光谱非线性滤波器(JNF)以及基于 U-Net 的不同模型作为基线。评估指标包括语音质量的感知评估(PESQ)和增强语音输入预训练 ASR 模型后的字错误率(WER)。表1. 固定区域的 PESQ 分数(针对目标角度约为 90° 训练滤波器)。φinter 表示干扰语音的方向,Noisy Sp. 表示带噪语音。实验结果表明,CDUNet 模型表现卓越。在固定区域和定向训练中,基于 U-Net 的模型优于无 U-Net 的模型,而 CDUNet 在固定目标数据集上训练时,仅用 74.4k 参数就比其他 U-Net 结构基线模型有显著提升。在不同输入宽度的测试中,发现当 φwidth = 7° 时 CDUNet 性能最优。在定向语音增强方面,CDUNet 能够动态适应目标说话者,在不同目标角度下都能保持良好的增强效果,而其他基线模型在目标说话者位置变化时性能会大幅下降。表2. 不同输入宽度的固定目标的 PESQ 得分。在下游 ASR 任务中,CDUNet 不仅在语音质量上取得高分,在字错误率指标上也表现出色,如在 0 dB 信噪比下,CDUNet 的字错误率为 4.35%,优于其他对比模型。表4. 固定目标说话者位置的下游任务性能(针对目标角度约为 90° 进行训练)。CDUNet 模型通过仅使用两个麦克风就能高效运行,有效提高了语音质量,并在下游 ASR 任务中展现出优越性能,非常适合用于低延迟、设备上的流媒体应用,如助听器和自动语音识别系统,有力地推动了语音增强技术在实际场景中的发展与应用。更多信息:Wen Wen, Qiang Zhou, Yu Xi, et al. Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario[J]. arXiv:2412.18141v1 [eess.AS], 2024.