西安交通大学机械工程学院马富银教授课题组和牛津大学工程科学系常金科研究员合作,提出一种基于超结构频率-幅值双重调节的迭代设计方法,进一步构建了一种多功能集成的听觉仿生声信号处理器,可以同时模拟听觉系统的物理和心理声学功能。器件基于掩蔽效应有效地提高了信号捕获过程的鲁棒性和信噪比,还可以实现对声信号的A计权调制,模拟心理声学等响度响应特性。该器件作为一种物理信号调制器,与数字调制协同工作,以提高系统的性能。子单元的数量和响应的灵活调节性能使得该处理器适用于广泛的应用场景。这项工作展示了纯被动超结构在创建具有复杂声信息处理功能的功能性仿生器件方面的潜力,未来在语音接口和机器人交互等方面具有发展前景。
相关研究成果以“用于增强物理和心理声学功能的仿生声信号处理器”(Bioinspired acoustic meta-processor for enhancing physical and psychoacoustic functions)为题,在线发表在《International Journal of Mechanical Sciences》[Int. J. Mech. Sci. 287, 109915, 2025]上。西安交通大学为第一作者单位,西安交通大学、伦敦大学学院和牛津大学为通讯单位,机械工程学院博士生刘一琪为第一作者,马富银教授和常金科研究员为共同通讯作者,机械工程学院硕士毕业生王林波对论文提供了重要贡献。
听觉系统是人类与外部环境交互的关键方式,也是体现人类智慧的主要渠道。除了其基本的物理功能,如信号感知和频率识别,听觉系统还包括复杂的心理声学现象,如响度效应、掩蔽效应和鸡尾酒会效应等。虽然通过信号处理和仿生设计能够有效捕获听觉功能的物理方面,但在解决声品质识别和声学诊断等任务的高阶心理声学功能方面力不从心。在传统基于声学的故障诊断任务中,识别细微特征的能力至关重要,但其在很大程度上依赖于工程经验和人类听觉系统的心理声学功能。毛细胞、基底膜和听觉神经系统复杂的机电过程是实现听觉系统心理功能的基础,这些功能尚未被现有方法准确复现。近年来,声学超结构因其优异的声波调控能力而受到越来越多的关注,人工制造的亚波长结构可以实现超越自然的非凡物理特性。然而,目前的超结构在声信息处理系统中大多作为滤波器件,尚未充分考虑用来实现更复杂的声学功能。如何在保证超结构滤波性能的基础上探索其被动机械调制能力,进一步设计多功能集成的仿生声信号处理器以实现复杂的声学功能,具有重要的学术和潜在工程应用价值。
论文采用简单规则的内缩管式Helmholtz谐振腔作为声信号处理器的子单元,其结构如图2所示。在单元幅频响应研究的基础上,论文提出了一种频率-幅值双重迭代调节方法以指导声信号处理器的构建。以期望的响应频率和幅值为目标,辅助以仿真模拟并综合考虑阵列排布方式和单元吸声的影响,论文针对子单元的六项结构参数(颈管长度和半径、腔体长度和半径、颈管内缩值、壁厚)进行了迭代优化设计,最终构建了具有多种功能的声信号处理器。该处理器由以一定规律排布的14个子单元和一个蜗状通道组成,从蜗顶到蜗底,子单元的体积逐渐减小,频率逐渐升高。14个子单元各自负责一定频段内声信号的采集捕获和调制,相互间具有不同的声调制特性。整体通过多个子单元通道的组合实现100~2700Hz频率范围内宽频声波的波形调制。具有不同特性的多通道子单元的组合使得复杂声信息处理功能的实现成为了可能。
图2 仿生声信号处理器子单元结构和响应及迭代设计流程示意图
论文进一步通过仿真对声信号处理器的性能进行了分析,如图3所示。在恒定幅值为1 Pa的变频声波刺激下,处理器各子单元(图中仅显示2、4、6、8、10、12和14)增强了其设计频带内的声信号。在声信号刺激下,处理器高频处的谐振放大特性使其具有高信噪比,从而对输入信号进行更高效的收集和处理。随着入射声波频率的增加,发生谐振响应的子单元逐渐从蜗顶向蜗底移动,这与外毛细胞控制下的耳蜗频率响应相似。整个声信号处理器在100 Hz到2700 Hz之间共有14个主要的谐振模式,各子单元在设计频段内完成对声信号增益和捕获功能。14个通道谐振响应的组合实现了基于掩蔽效应的宽频信号分段带通滤波功能,该处理器各部分对声信号表现出明显的频率选择性。随着子单元体积的减小,谐振响应频率逐渐升高,频带逐渐变宽,这体现了超结构利用亚波长尺寸进行声波调制的优势。声信号处理器的各主谐振响应包络区域连续分布在空间和频域,通过对不同位置子单元的多通道协同采集,实现了声能在空间和频域上的彩虹捕获功能。
图3 仿生声信号处理器的仿真声收集和捕获性能
图4 仿生声信号处理器的仿真声增强和调制性能
为了验证其所设计声信号处理器在实际工程应用中的多种调制能力,论文进一步搭建了声学测试系统对3D打印制作的处理器样品进行了测试,如图5所示。与仿真设置相同,外界声波和噪声通过处理器蜗底的通道口传入,同时作用于各通道子单元并产生响应,余波从另一端消散。声信号采集过程中,利用声学探头测量各子单元腔内的声响应。测试结果显示,各通道子单元通过谐振增强了其设计频带内的声信号。在子单元间耦合效应的作用下,处理器各主谐振峰值的相邻频带产生了耦合增强峰。随产生谐振响应的子单元由1变化到14,响应峰逐渐上升并向高频移动,与中心峰对应的响应包络频带逐渐变宽。相邻子单元之间的谐振耦合效应拓宽了相应工作频带,提供了更好的带通滤波性能,处理器实际的响应频带涵盖了100 Hz到2700 Hz的频率范围。由此可见,该处理器具有与耳蜗位置-频率选择性能类似的独特声信号捕获特性,在噪声和目标声波的共同作用下,基于掩蔽效应和谐振放大,该处理器能够实现带通滤波和彩虹捕获,是一种优秀的声信号收集器。
论文进一步对实物声信号处理器的降噪滤波性能进行了分析,如图6所示。在设置声刺激和自然背景噪声作用下,声信号处理器可以有效抑制0Hz~100 Hz频段内自然背景噪声的干扰。谐振响应峰值产生在100 Hz以上,幅值远高于背景噪声水平。根据对背景噪声的测量,论文进一步测试了该处理器各谐振模式下的响应灵敏度和信噪比。各通道子单元在其谐振峰处均产生了-45.95 dB以上的高灵敏度响应值,几个高频子单元展现出-20 dB左右的高响应灵敏度。在解除对声信号幅值和波形限制的前提下,该处理器整体能够具备更高的响应灵敏度。论文进一步对自然背景噪声的数据进行了处理,并计算出了各通道子单元的谐振峰值信噪比。高灵敏度水平使声信号处理器整体具有较高的信噪比,高频部分能够达到约50 dB,针对幅值和波形的调谐同样限制了处理器的信噪比水平。基于宽频分段增益,该处理器可以充分抑制0 Hz~100 Hz的自然噪声信号,在设计频段具有高灵敏度和信噪比,实现了高效声信号收集和降噪。
图6 仿生声信号处理器的噪声滤波性能和信噪比
最后,论文声信号处理器的波幅调制特性进行了分析,如图7所示。与仿真结果一致,子单元在各自设计频带内产生了预期的增益响应。根据14个谐振峰值数据,通过线性拟合得到了该声信号处理器的声调制曲线。调谐后的响应曲线变化趋势与A计权曲线一致,且两者之间的误差很小。在幅值调控的基础上,声通道的损耗效应同样助力了实际波形调谐,带来了更剧烈的趋势。论文进一步对响应结果进行了响度处理,得到了声信号处理器的响度响应特性。处理后的谐振峰值响应拟合曲线与40 Phon等响度曲线趋势一致。该声信号处理器对低频声信号比较迟钝,但对3000 Hz左右的声信号非常敏感,这意味着在该处理器的作用下,低频声波需要更高的强度才能达到与高频声波相同的响应水平,这一现象与人耳听觉系统的心理声学响度响应特性一致。对比A计权曲线和40 Phon响度曲线,处理器谐振峰值响应声压级残差的绝对值均不超过5,这说明该声信号处理器能够在一定精度范围内复现特定的响应。对两曲线的拟合标准差分别为2.46和2.65。声压增益方面,处理器针对两曲线的响应残差保持在1.78以内,标准差分别为1.33和1.36。响应结果可见,该声信号处理器具有与人耳听觉系统类似的响度特性,模拟了相应心理声学功能。
论文基于耳蜗外毛细胞仿生,介绍了一种基于Helmholtz谐振超结构的频率-幅值双重调节的迭代设计方法,构建了仿生多功能集成声信号处理器。基于Bark临界频带和Helmholtz谐振超结构的频率选择增益特性,所设计的处理器具有类似人类耳蜗的几何和频率分布特性。该处理器将100 Hz到2700 Hz的频率范围划分为14个子频段,在各频段内实现了基于掩蔽效应的信号放大和捕获,多通道的组合实现了带通滤波和彩虹捕获特性。此外,在谐振放大的作用下,处理器各子单元的对特定频率声信号具有高灵敏度,整体具备高信噪比。同时,声信号处理器实现了响应加权处理的调谐功能,这与听觉系统心理声学等响度响应特性密切相关。多种功能的集成能够增强现有的信号收集和处理系统,整体响应能够根据需求实现定制设计,无源机械调制的应用提高了系统稳定性和鲁棒性。在物理功能的基础上,心理声学特性(如掩蔽效应和响度调制)得到了实现,这使得该机械调制器能够作为额外的信号调制器,与数字调制协同工作以提高系统的性能。通过集成物理和心理声学功能,该声信号处理器呈现了近似人类听觉系统的高阶性能,未来在机器人听觉系统和模拟人类或动物听觉功能的工业设备等方面具有具有发展前景。
该工作得到了国家自然科学基金项目(No. 52250287)、陕西省杰出青年科学基金项目 (No. 2024JC-JCQN-49)和全球参与基金(GEF UCL, 574696)的资助。
论文链接: