研究 | 一种基于深度学习的声源定位新方法,显著减少训练数据需求

科技   2024-12-26 18:30   江苏  




声源定位技术在机械故障检测、航空学和实时结构监测等领域具有重要应用。传统波束形成技术常用于声源成像,而机器学习方法如人工神经网络可用于解决工程问题,但其需要足够准确的训练数据,且多通道输入如麦克风阵列记录中的不同加权因子调制问题尚未得到充分研究。

德国亚琛工业大学的研究团队提出了一种基于深度学习和注意力机制的新型声源定位方法。该方法利用聚类自适应网络(Cluster-Self Adaptive Network ,CSAN) 架构,通过调制麦克风阵列数据进行声源预测,并展示了在不损失显著定位精度的情况下,可以将所需的实验数据减少50%。

研究团队进行了两组测试。实验选用摆锤冲击来激发声源,因其具有良好的实验可重复性。摆锤系统由一个直径 20 毫米的钢球构成,从与(垂直)y 轴呈特定角度(30° 和 15°)的位置手动释放,摆锤的杠杆臂连接着 250 毫米长的绳索,冲击在一块 400×400×40mm³ 的均质钢板上,钢板下端单边夹紧在 y=-200mm 处,并且整个实验都在严格控制边界条件的实验室环境中进行,确保摆锤运动仅在 y - z 平面,冲击位置在 x - y 平面且偏差不超 5 毫米。

图1.(a)摆锤以角度φ撞击垂直钢板区域的图片。(b)用于收集声学信号的仿生M - 112麦克风阵列发正视图。

为了记录声源信息,研究人员使用了 112 个麦克风组成的阵列(Bionic M - 112),其呈不对称圆形排列,有着 24 位分辨率和 48kHz 最大采样率,噪声水平低于 0.05mV,录音时长设为 6 秒,采集的声信号通过商业采集硬件存储。

在研究过程中,研究者提出了基于深度学习注意力的方法。首先,他们利用麦克风阵列布局的几何特性,通过镜像麦克风位置来增强数据。假设声波在空气中无失真传播,当冲击平面与麦克风平面平行且阵列对称时,对称位置麦克风记录的声信号有对称模式,据此可模拟更多声源信号。


图2.数据增强所需的麦克风平面与撞击平面之间的几何约束。


然后,采用连续小波变换提取声信号的相位和频率等特征,并利用主成分分析降低数据维度,在比较复 Morlet 和 Ricker 两种母小波后,选择了复 Morlet 小波。


图3.(a)为镜像偏差≤30 毫米的麦克风确定的主成分。(b)复 Morlet 小波与 Ricker 小波的主成分分析方差比比较。

图4.使用随机抽样(RS)和拉丁超立方抽样(LHS)对训练数据密度的研究。


在训练数据选择上,对比随机抽样和拉丁超立方抽样两种策略,发现低采样比例下拉丁超立方抽样效果更好,采样率超 60% 时两者精度相近。


研究人员还使用了聚类自适应网络(CSAN)架构来调制麦克风阵列的特征权重。通过注意力机制,将窗化声信号投影到降维后的特征空间作为输入,转换为查询(queries)、键(keys)和值(values)后计算注意力权重,并且有单头自注意力(Single-Head Self-Attention, SHSA)和多头自注意力(Multi-Head Self-Attention, MHSA)机制,注意力残差块的结构也能避免神经网络退化。


图5.设计的聚类自适应网络(CSAN)架构用于处理调制后的麦克风阵列并预测声源。其中采用了缩放点积注意力和多头自注意力机制。


实验结果表明,CSAN预测的声源位置与参考位置的一致性很高,即使在减少训练数据和麦克风数量的情况下。此外,CSAN架构在定位准确性上优于传统的延迟和求和波束形成方法,且使用的麦克风数量显著减少。

该研究的主要作者Georg Karl Kocur表示:“我们的研究展示了深度学习在声源定位中的高效性和准确性。通过减少实验数据的需求,我们不仅提高了效率,还为声源定位技术的发展开辟了新的可能性。”

这一发现证明了深度学习在声源定位中的潜力,尤其是在数据有限的情况下。研究成果发表在《NDT and E International》期刊上,为声源定位技术的进步提供了新的视角和解决方案。未来的工作将探索在不同距离下麦克风阵列和声源之间的定位性能,以及对同时发生的多个声源的定位能力。

更多信息:Georg Karl Kocur, Denny Thaler, Bernd Markert. Acoustic source localization by deep-learning attention-based modulation of microphone array data[J]. NDT&E International, 2024, 148: 103233. DOI: 10.1016/j.ndteint.2024.103233.


  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

  合作推广  


稿件投稿 | 创业支持 | 知产服务 | 技术转化
请发送需求至以下邮箱,我们将派专人与您联系
21db@ioasonic.com

  版权声明  

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作,请与我们联系


21dB声学人
中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注声学技术创新与产业化发展,为十万声学人提供声学相关资讯与技术交流合作。
 最新文章