语音增强的跨域优化:并行还是级联?

文摘   2024-11-08 18:00   北京  
为促进最新研究成果的传播与交流,CCF语音对话与听觉专委在专委会微信公众号启动论文导读栏目,定期分享最新语音、对话与听觉相关研究方向论文。本期分享一篇被IEEE/ACM TASLP接收的关于零样本对话语音生成方面的文章。


论文标题:Cross Domain Optimization for Speech Enhancement: Parallel or Cascade?
论文作者:万亮,刘宏清,师黎明,周翊,甘露
论文单位:重庆邮电大学,中国电信股份有限公司重庆分公司,伦敦布鲁奈尔大学
作者邮箱:hongqingliu@cqupt.edu.cn

论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10696964

Demo链接:https://wanliangdaxia.github.io/


论文亮点:

该论文提出了一种跨域优化的语音增强方法,通过将时域和时频域的表示进行融合,整合波形模型与复杂频谱模型的优势,采用串联与并行两种架构实现语音增强。首次系统地比较了串联与并行架构在语音增强任务中的性能差异,并通过引入正交投影误差分解技术,深入分析了影响语音质量的因素。此外,论文引入多重损失函数优化模型,使其在不同子模型中学习多样化的特征。实验表明,该方法在DNS挑战数据集上的表现优于现有基准模型,在语音质量和可懂度方面取得了显著提升。


引 言

近年来,语音增强技术取得了显著进展,尤其是在复杂噪声环境下的语音清晰度和可懂度方面。传统的语音增强方法通常基于时频域转换,利用短时傅里叶变换(STFT)来对语音信号进行处理。然而,时频域的操作可能导致相位误差,并且难以在全局上有效建模。此外,随着深度学习技术的发展,时域的直接处理开始受到更多关注,能够避免频域转换带来的误差并更好地保留原始语音的波形信息。基于此背景,本研究提出了一种结合时域和时频域的跨域优化方法,通过并行和串联架构在增强语音的同时减少噪声干扰。该方法不仅通过正交投影误差分解技术提高了语音质量,还通过多重损失函数的设计实现了对多样化特征的学习。实验结果表明,所提出的方法在多个基准数据集上的表现优于现有方法,展示了其在实际应用中的潜力。

研究背景

语音增强技术近年来在处理复杂噪声环境下的应用需求不断增加,特别是在自动语音识别、语音通话和助听器等领域中,语音的清晰度和可懂度至关重要。传统的语音增强方法大多基于时频域转换,利用短时傅里叶变换(STFT)对信号进行处理。然而,时频域方法虽然能有效分离频率分量,却在相位建模上存在困难,容易导致语音重建时的失真。同时,时频域转换处理高频成分时会产生误差,影响最终的语音质量。

随着深度学习的崛起,时域方法逐渐被引入到语音增强的研究中。这些方法通过直接处理语音的波形数据,避免了频域转换过程中可能引入的失真问题,并且在保持语音的时间结构上具有天然的优势。在这一背景下,本研究提出了一种跨域优化的语音增强方法,结合了时域和时频域的优势,利用并行和串联架构处理噪声和增强语音信号,从而在不同的噪声环境下提升语音的清晰度和质量。过去的研究表明,时域和时频域的融合可以在语音增强任务中获得更好的结果。

然而,如何高效地将两者结合,以及在复杂环境下优化语音增强模型,仍然是一个具有挑战性的研究方向。本研究在此基础上提出了新的方法论,通过正交投影误差分解技术,进一步分析并优化了模型的噪声处理能力,为语音增强领域的进一步发展提供了有力支持。


研究方法

图1和图2分别展示我们在这篇论文中设计的时域和频域模块。在时域模块中,包含下采样和上采样模块。通过1D卷积层对输入噪声语音信号进行特征提取,先通过下采样模块降低分辨率获取全局特征,再利用上采样模块逐步恢复信号的时间分辨率。模型还使用了“Crop and Concat”机制,结合不同分辨率的特征图,最终生成增强后的语音信号。在频域模型中,首先通过Conv-STFT将输入的噪声语音信号从时域转换到时频域。接着,经过一系列编码器(Encoder)层对时频域信号进行特征提取,并通过LSTM捕获序列依赖关系。之后,经过密集层(Dense)进一步处理,再经过解码器(Decoder)层进行反向重构,将增强后的信号恢复至与原始输入相同的特征维度。最后,通过Conv-iSTFT将增强后的频谱信号转换回时域,得到最终的增强语音。


图1时域模块


图2 频域模块


为了更好的利用时域和频域模块,我们设计了两种结构,一种是串联结构,另外一种是并联结构。在串联结构中,输入的噪声信号通过STFT(短时傅里叶变换)转换到时频域,接着经过Complex TF module进行时频域特征处理。然后,信号通过iSTFT转换回时域,并进入Time domain module进行时域特征处理。随后,信号再次经过STFT转换回时频域,进入第二个Complex TF module进行进一步的时频特征增强。最后,通过iSTFT将信号转换回时域,得到增强后的语音信号。该模型采用了多次时频域和时域的切换和融合,通过不同域的处理模块提升语音增强效果。在并联结构中,输入的噪声信号通过STFT转换为时频域特征,经过Complex TF module处理后,再通过iSTFT转换回时域信号。与此同时,信号也会通过一个Time domain module进行处理。两者输出的特征在Concat/Att模块中进行融合,之后信号再次经过Complex TF module进行时频域增强处理。最后,经过iSTFT将增强后的频域信号转换回时域,得到最终的增强语音。

图3 串联结构


图4 并联结构

实验结果表明,表1中的并行模型在多个指标(STOI 和 SISDR)上表现最佳,表明并行架构在增强语音质量和可懂度方面有优势。此外, 串联模型在多个指标上接近最优。 


表1 不同模型对比结果

同时,我们对比了不同模型在unseen噪声情况的泛化能力,表2结果显示,提出的模型展示了良好的泛化能力。


表2 不同模型泛化能力对比


结 论
本文提出了一种跨域优化的语音增强方法,结合了时域和时频域的表示,利用并行与串联架构来处理复杂噪声环境中的语音信号。通过引入正交投影误差分解技术,该方法能够深入分析语音信号中的噪声特征,有效提升语音清晰度与可懂度。在实验中,我们的方法在多个基准数据集上都表现出了显著的性能提升,超越了现有的语音增强模型。未来,我们计划进一步优化模型架构,扩展其在更多应用场景中的适用性,探索其在实时语音处理、低功耗设备上的应用潜力。



整理编辑:张雯,李雅,吴锡欣

指导:凌震华


永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章