声学场景分类(ASC)是一种基于音频信号识别环境的技术,对于智能设备和物联网应用至关重要。然而,传统的卷积神经网络(CNN)模型通常需要大量的硬件资源,这对于资源受限的设备来说是一个挑战。此外,由于麦克风质量和特性的差异,不同设备间的性能一致性也是一个问题。近日,来自江苏师范大学和清华大学的研究人员共同探索了一种在低资源条件下改善声学场景分类的方法,并提出了一个名为DS-FlexiNet的新型模型。该模型结合了MobileNetV2中的深度可分离卷积和受ResNet启发的残差连接,以实现效率和准确性的平衡。为了解决硬件限制和设备异质性问题,DS-FlexiNet采用了量化感知训练(QAT)进行模型压缩,并运用了自动设备脉冲响应(ADIR)和频谱混合风格(FMS)等数据增强方法来提升跨设备的泛化能力。此外,该模型还从12个教师模型中采用知识蒸馏(KD)技术,以增强在未见过的设备上的性能。研究人员指出,DS-FlexiNet的架构包括一个定制的残差归一化层,用于处理不同设备之间的域差异,而深度可分离卷积则在不牺牲特征表示的情况下降低了计算开销。实验结果表明,DS-FlexiNet在资源受限条件下表现出色,具有很好的适应性和性能。
该研究还详细介绍了DS-FlexiNet的网络架构,包括多个阶段的DS-FlexiNet块,这些块以两个3x3的卷积层开始,后面跟着批量归一化(BN)和ReLU激活,旨在降低特征图的大小和复杂性,同时增强抽象能力。随着阶段的推进,通道数增加,提升了表示能力。残差连接用于保留并添加原始输入到卷积后输出,根据不同的通道和步幅差异进行调整,以改善信息流、训练效率和收敛速度。
在数据增强方面,研究团队采用了Freq-MixStyle和自动设备脉冲响应(ADIR)技术。Freq-MixStyle是MixStyle的一个变种,它在频率维度上而不是通道维度上操作,通过归一化频谱图的频率带,并使用混合的频率统计数据进行反向归一化,使模型能够在学习样本之间的混合特征时融入频率信息,增强了模型在音频数据处理中的鲁棒性和性能。ADIR通过适应脉冲响应模拟来提高模型性能,使模型在未见过的设备上保持高准确度。该方法通过与设备脉冲响应(DIR)的卷积,使模型对混响更加鲁棒,并更好地泛化到未见过的设备。
此外,研究还探讨了教师模型融合的知识蒸馏方法,通过融合12个独立训练的PaSST和CPResNet模型的logits输出,以软目标的形式整合这些logits,从而提高学生模型的理解和泛化能力。
在实验设置方面,研究团队选用了TAU Urban Acoustic Scene 2022 Mobile Development数据集,包含来自12个欧洲城市的64小时录音,涵盖10种声学场景和4种设备类型。实验中,DS-FlexiNet模型采用了32 kHz采样率和256-bin Mel频谱图进行训练和测试。数据增强包括随机时间域滚动和频率掩蔽。研究还涉及了量化感知训练,使用PyTorch的量化技术,特别是QAT,将DS-FlexiNet模型中的所有参数和计算转换为int8,以优化模型。研究结果表明,DS-FlexiNet在TAU Urban Acoustic Scenes 2022 Mobile数据集上表现出色,特别是在分类未知设备(如S4、S5和S6)的音频时,优于传统模型。量化感知训练优化了模型,减少了存储和计算成本,同时提高了有限数据下的性能。残差归一化(RN)显著提高了声学场景分类的准确性和鲁棒性,特别是在不同录音环境和设备上。通过融合教师模型的logits,学生模型能够更有效地适应不同的设备和资源限制,从而在不同场景下提高ASC的性能。表2 性能比较:比较实验基于SM4模型。ACC代表过去十轮的平均验证集准确率,而A、B和C表示在真实设备上的准确率。S1-S3和S4-S6分别表示在训练期间观察到和未观察到的模拟设备上的准确率。
本研究的方法在不同的设备上取得了显著的准确性提升,特别是在具有挑战性的测试数据集上。残差归一化和数据增强技术有效地解决了跨设备泛化问题,通过减少噪声、保留关键特征和减少失真来提高模型的鲁棒性和泛化能力。DS-FlexiNet结合了深度可分离卷积、QAT和KD,确保了在资源受限部署下的高性能,可解决低资源条件下的跨设备变异性和效率问题。更多信息:Zhi Chen, Yun-Fei Shao, Yong Ma, et al. Improving Acoustic Scene Classification in Low-Resource Conditions[J/OL]. arXiv:2412.20722v1 [eess.AS], 2024-12-30.
21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。稿件投稿 | 创业支持 | 知产服务 | 技术转化
文中所有图片和文字版权归21dB声学人所有
如需转载或媒体合作,请与我们联系