论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10696964
Demo链接:https://wanliangdaxia.github.io/
论文亮点:
引 言
语音增强技术近年来在处理复杂噪声环境下的应用需求不断增加,特别是在自动语音识别、语音通话和助听器等领域中,语音的清晰度和可懂度至关重要。传统的语音增强方法大多基于时频域转换,利用短时傅里叶变换(STFT)对信号进行处理。然而,时频域方法虽然能有效分离频率分量,却在相位建模上存在困难,容易导致语音重建时的失真。同时,时频域转换处理高频成分时会产生误差,影响最终的语音质量。
随着深度学习的崛起,时域方法逐渐被引入到语音增强的研究中。这些方法通过直接处理语音的波形数据,避免了频域转换过程中可能引入的失真问题,并且在保持语音的时间结构上具有天然的优势。在这一背景下,本研究提出了一种跨域优化的语音增强方法,结合了时域和时频域的优势,利用并行和串联架构处理噪声和增强语音信号,从而在不同的噪声环境下提升语音的清晰度和质量。过去的研究表明,时域和时频域的融合可以在语音增强任务中获得更好的结果。
然而,如何高效地将两者结合,以及在复杂环境下优化语音增强模型,仍然是一个具有挑战性的研究方向。本研究在此基础上提出了新的方法论,通过正交投影误差分解技术,进一步分析并优化了模型的噪声处理能力,为语音增强领域的进一步发展提供了有力支持。
图1和图2分别展示我们在这篇论文中设计的时域和频域模块。在时域模块中,包含下采样和上采样模块。通过1D卷积层对输入噪声语音信号进行特征提取,先通过下采样模块降低分辨率获取全局特征,再利用上采样模块逐步恢复信号的时间分辨率。模型还使用了“Crop and Concat”机制,结合不同分辨率的特征图,最终生成增强后的语音信号。在频域模型中,首先通过Conv-STFT将输入的噪声语音信号从时域转换到时频域。接着,经过一系列编码器(Encoder)层对时频域信号进行特征提取,并通过LSTM捕获序列依赖关系。之后,经过密集层(Dense)进一步处理,再经过解码器(Decoder)层进行反向重构,将增强后的信号恢复至与原始输入相同的特征维度。最后,通过Conv-iSTFT将增强后的频谱信号转换回时域,得到最终的增强语音。
图1时域模块
图2 频域模块
为了更好的利用时域和频域模块,我们设计了两种结构,一种是串联结构,另外一种是并联结构。在串联结构中,输入的噪声信号通过STFT(短时傅里叶变换)转换到时频域,接着经过Complex TF module进行时频域特征处理。然后,信号通过iSTFT转换回时域,并进入Time domain module进行时域特征处理。随后,信号再次经过STFT转换回时频域,进入第二个Complex TF module进行进一步的时频特征增强。最后,通过iSTFT将信号转换回时域,得到增强后的语音信号。该模型采用了多次时频域和时域的切换和融合,通过不同域的处理模块提升语音增强效果。在并联结构中,输入的噪声信号通过STFT转换为时频域特征,经过Complex TF module处理后,再通过iSTFT转换回时域信号。与此同时,信号也会通过一个Time domain module进行处理。两者输出的特征在Concat/Att模块中进行融合,之后信号再次经过Complex TF module进行时频域增强处理。最后,经过iSTFT将增强后的频域信号转换回时域,得到最终的增强语音。
图3 串联结构
图4 并联结构
实验结果表明,表1中的并行模型在多个指标(STOI 和 SISDR)上表现最佳,表明并行架构在增强语音质量和可懂度方面有优势。此外, 串联模型在多个指标上接近最优。
表1 不同模型对比结果
同时,我们对比了不同模型在unseen噪声情况的泛化能力,表2结果显示,提出的模型展示了良好的泛化能力。
表2 不同模型泛化能力对比
整理编辑:张雯,李雅,吴锡欣
指导:凌震华