研究 | 多目标非侵入式助听器语音评估模型:HASA-Net+的提出与应用

科技   2024-12-11 18:31   江苏  




在助听器领域,评估语音的质量和可懂度对于改善听力受损用户的听觉体验至关重要。传统的评估方法依赖于主观听测,这种方法耗时且成本高昂。因此,开发客观的语音评估模型成为了一个重要的研究方向。随着深度学习技术的发展,基于深度学习的非侵入式语音评估方法取得了显著进展,它们能够在没有干净参考信号的情况下预测语音质量和可懂度。

研究人员在前人工作HASA-Net的基础上进行了改进,提出一种HASA-Net+的多目标非侵入式助听器语音评估模型,以解决现有模型在听力障碍用户语音质量评估中的局限性。该项成果发表于《美国声学学会杂志》(J. Acoust. Soc. Am.)

HASA-Net+不仅可以提高对正常听力(Normal Hearing, NH)和听力障碍用户的包容性,还通过整合预训练的语音基础模型(Speech Foundation Models, SFMs)和微调技术,扩展了预测能力,覆盖了包括噪声、去噪、混响、去混响和声码化在内的多种语音条件。此外,还验证了该模型在使用域外(Out-of-Domain, OOD)数据集时的泛化能力。

HASA-Net+模型

HASA-Net+模型是在HASA-Net的基础上提出的改进版本,通过以下几个方面对HASA-Net进行了改进:

1.包容性:HASA-Net+能够同时处理正常听力和听力障碍用户的语音数据。

2.整合预训练模型:HASA-Net+集成了预训练的语音基础模型(如WavLM、HuBERT和Whisper),并通过微调技术进一步优化模型性能。

3.扩展预测能力:HASA-Net+的预测能力扩展到了包括噪声、去噪、混响、去混响和声码化在内的多种语音条件,从而评估模型的鲁棒性。

4.验证泛化能力:使用域外数据集验证了HASA-Net+在不同设置下的泛化能力,包括零样本、少样本和全数据集设置。

HASA-Net+模型的架构

HASA-Net+模型的设计考虑了从原始语音波形中提取的语音基础模型潜在表示以及从听力图(audiogram)中提取的听力损失模式。这些输入被用于生成相应的语音质量和可懂度评分,作为地面真实值。HASA-Net+模型的架构包括以下几个关键部分:

1.语音基础模型:HASA-Net+使用了多种预训练的语音基础模型,如WavLM、HuBERT和Whisper。这些模型通过自监督学习从大量未标记数据中学习有意义的特征表示。

2.听力损失模式:听力损失模式是通过分析听力图中的听力阈值来生成的。研究人员选择了六个频率点(250Hz、500Hz、1000Hz、2000Hz、4000Hz和6000Hz)来描述听力阈值,并将这些模式作为模型的输入。

3.模型融合:HASA-Net+通过加法将语音基础模型的潜在表示和听力损失模式进行融合,然后将合并后的特征输入到双向长短期记忆网络(BLSTM)层中。

4.输出层:BLSTM层的输出经过一系列处理,包括多头注意力机制、全连接层和全局平均池化层,最终生成语音质量和可懂度的预测结果。

实验设计与结果

为了验证HASA-Net+模型的有效性,研究者在两个数据集上进行了实验:VCTK-DEMAND语料库用于域内任务,TIMIT语料库用于域外任务。实验设计包括以下几个方面:

1.数据集创建:使用VCTK-DEMAND语料库中的干净语音数据生成了包含噪声、去噪、混响、去混响和声码化语音的数据集。TIMIT语料库则用于评估模型在域外数据上的泛化能力。

2.听力图生成:从听力图中提取了六种不同类型的听力损失模式,并将其作为模型的输入。

3.模型训练与评估:使用五折交叉验证方法对模型进行训练和评估。实验结果表明,HASA-Net+在语音质量和可懂度预测方面均优于基线模型HASA-Net。

结果分析

实验结果显示,HASA-Net+模型在多种语音条件下均表现出优异的性能。具体来说:

1.语音质量预测:HASA-Net+在噪声、去噪、混响、去混响和声码化条件下的语音质量预测均表现出较高的相关性和较低的均方误差(MSE)。

2.可懂度预测:尽管可懂度预测比语音质量预测更具挑战性,但HASA-Net+在混响和去混响条件下仍表现出较好的性能。

3.泛化能力:HASA-Net+在使用域外数据集时的泛化能力得到了验证,零样本、少样本和全数据集设置下的实验结果均表明该模型具有良好的泛化性能。


讨论

HASA-Net+模型的主要优势在于其无需干净参考信号即可进行语音质量和可懂度预测,这克服了传统HASQI和HASPI指标需要干净参考信号的局限性。此外,HASA-Net+通过整合预训练的语音基础模型和微调技术,显著提高了模型的预测性能。实验结果还表明,HASA-Net+在不同语音条件和数据集上的泛化能力较强,具有较高的实际应用价值。

然而,该研究也存在一些局限性。例如,听力损失模式的生成和使用可能存在一定的主观性,未来可以考虑使用更客观的方法来生成这些模式。此外,尽管HASA-Net+在多种语音条件下表现出良好的性能,但在某些极端条件下(如极高噪声或严重混响)的性能仍有待进一步优化。

结论

研究人员提出的HASA-Net+模型通过整合预训练的语音基础模型和微调技术,实现了对听力障碍用户语音质量和可懂度的多目标非侵入式评估。实验结果表明,该模型在多种语音条件下均表现出优异的性能,并具有良好的泛化能力。未来工作将进一步优化模型的性能,并探索其在实际应用中的潜力。


   点击【阅读原文】,查看论文


  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

  合作推广  


稿件投稿 | 创业支持 | 知产服务 | 技术转化
请发送需求至以下邮箱,我们将派专人与您联系
21db@ioasonic.com

  版权声明  

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作,请与我们联系


21dB声学人
中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注声学技术创新与产业化发展,为十万声学人提供声学相关资讯与技术交流合作。
 最新文章