在多说话者场景中,尤其是在极低信噪比(SNR)条件下,利用空间特征增强目标语音至关重要,但开发紧凑的多通道语音增强系统仍面临挑战。上海交通大学X-LANCE实验室的研究团队取得新突破,提出一种因果导向的 U-Net(CDUNet)模型,为语音增强技术带来了新的解决方案。
传统的多通道语音增强技术如波束形成器存在性能局限,而现有的神经网络方法也有诸多不足,如预定义目标语音区域、需较多麦克风、神经网络参数规模大以及忽视对下游任务的影响等。
研究团队针对 “鸡尾酒会问题” 开展研究,即从干扰语音中提取目标说话者的语音信号。他们提出的 CDUNet 模型采用了独特的三重导向空间选择方法,将三个导向向量与 U-Net 架构相结合,以此确定目标方向和增强范围。
在模型中,利用目标角度和通过对目标角度加减输入宽度得到的两个边缘角度,为波束形成器生成三个导向向量。同时,网络以两个原始麦克风信号的频域表示以及波束形成器在目标角度和两个边缘角度的输出作为输入,从而准确定位目标说话者方向,并能根据目标和干扰源的角度分离情况进行更精确的定向增强。
CDUNet 模型基于卷积 U-Net 架构,拥有强大的编码器 - 解码器结构,并结合了跳连接。在编码器和解码器之间,按照双路径循环神经网络(DPRNN)框架集成了频率序列层和长短期记忆(LSTM)层等序列建模模块。此外,模型还融入了卷积块注意力模块(CBAM),通过在解码器和跳连接中应用,重新校准时频(TF)特征图,提高目标重建精度。
在损失函数方面,研究团队创新性地提出了结合尺度不变信噪比(SI-SNR)和多分辨率短时傅里叶变换(MRSTFT)损失的组合损失函数,有效解决了仅使用 SI-SNR 损失时网络过度抑制低频分量的问题。
在数据集的构建上,所有的干净语音和干扰语音均从 LibriSpeech 和内部语料库中随机采样。
研究者模拟生成了固定目标数据集和可变目标数据集,其中固定目标数据集包含 250,000 个训练样本,目标方向固定在 85° 至 95° 之间,目标语音相对于干扰说话者混合信号的信噪比在 -5 dB 至 10 dB 之间变化;可变目标数据集则引入了目标说话者位置的可变性,干扰方向始终与目标方向相距 15°,信噪比和语句数量与固定目标数据集保持一致。
模型输入采用窗口大小为 512、步长为 256 的 STFT,输出采用逆 STFT,最终 CDUNet 模型的频域输入为 10 通道。
在评估环节,构建了固定目标和可变目标评估数据集,并选择了传统的延迟求和波束形成器(DAS)、广义旁瓣抵消器(GSC)、联合空间和时间光谱非线性滤波器(JNF)以及基于 U-Net 的不同模型作为基线。评估指标包括语音质量的感知评估(PESQ)和增强语音输入预训练 ASR 模型后的字错误率(WER)。
表2. 不同输入宽度的固定目标的 PESQ 得分。
表3. 不同目标说话者位置的 PESQ 得分。
表4. 固定目标说话者位置的下游任务性能(针对目标角度约为 90° 进行训练)。
关于我们
合作推广
版权声明
文中所有图片和文字版权归21dB声学人所有
如需转载或媒体合作,请与我们联系