研究 | 深度神经网络与多流架构在助听器中的性能比较:噪声环境中的语音处理

科技   2024-12-17 18:30   江苏  




虽然通过深度神经网络 (DNN) 实现的人工智能有可能进一步改善助听器的信号处理,但当前一代 DNN 是否能够与最先进的定向麦克风系统的性能相媲美仍不得而知。在本文中,研究人员将Signia 的多流架构 (MSA)与最近推出的助听器中的 DNN 技术在噪声中的语音性能进行了比较。 


在嘈杂环境中进行交流仍然是听力受损者面临的最大挑战之一。在群体对话中尤其如此,因为在复杂的背景噪声中可能会有多个移动的说话者,听众必须跟踪和注意这些噪声。助听器制造商已经开发出先进的技术来提高这种声学复杂通信情况下的性能。


传统上,这些技术的开发一直受到一些原则的指导,这些原则植根于对影响语音通信的声学和心理声学的不断增长的了解。这些技术会分析声学场景并调整其处理方式,以根据环境带来的独特听力挑战促进更好的通信。一项基于“人类智能”的技术是实时对话增强(RTCE) 处理,它基于Signia Integrated Xperience (IX) 助听器平台提供的多流架构 (MSA) 实现。


多流架构如何为助听器工作

多流架构始于增强聚焦 (AF) 技术,该技术将传入的声音分成两个不同的流(前声流与侧声流/后声流)。然后,使用具有独立压缩和降噪算法的单独路径处理每个流。这种方法在助听器信号处理中是独一无二的,所有现有技术都使用相同的处理路径处理来自前声流和后声流/侧声流。使用 AF,来自一个方向的重要语音声音可能会以更高的线性增益和更少的降噪来处理,以保留关键的声音特征(例如时间包络),而来自相反方向的竞争声音可能会被更多地衰减以最大限度地减少掩蔽效应。 


研究表明,与单流定向处理相比,AF 技术可将信噪比 (SNR) 提高 4 dB将语音接收阈值降低 3.9 dB并将噪声接受度提高 3 dB。同时,AF 对大脑处理背景噪声中的语音的方式有积极影响,包括增强佩戴者声景中语音之间的对比度(通过失配负性 (MMN) 量化)和减少听力努力的神经特征(通过脑电图 (EEG) 中的 alpha 功率量化)。


Signia 最近在 AF 技术的基础上引入了 RTCE 技术,该技术可针对来自听者前方不同位置的多个声源提供聚焦增强。RTCE 首先分析声学场景,以评估听者前方主要声音的性质。如果主要声音具有方向性且靠近听者,则分析将判定可能存在针对佩戴者的主动对话。然后,RTCE 估计目标声源(即通信伙伴)的数量及其相对于听者的特定空间位置(即方位角)。之后,RTCE 会向讲话者方向部署几个狭窄的定向波束。另一方面,如果声学场景分析器确定声音是弥散背景的一部分(例如,餐馆和咖啡馆中的嘈杂噪音)和/或距离较远,则这些声音不被视为对话的一部分,并且不会将聚焦波束指向这些声音。 


RTCE 的目标是通过捕捉和改善每个对话伙伴的 SNR,让佩戴者更轻松、更舒适地参与群组对话,即使对话伙伴四处走动并改变位置。RTCE 技术已被证明可以提高语音理解能力、减少聆听努力、提高噪声耐受度, 以及在真实对话中提供高水平的聆听满意度和偏好。据报道,这些行为益处的神经生理相关性还通过增强 MMN 反应和降低 EEG alpha 功率来听取噪声中的语音。


与“人类智能”的算法设计方法不同,一些助听器制造商最近尝试使用人工智能 (AI) 的一个子领域机器学习 (ML) 来解决噪声中的语音问题。ML 使用通用算法,通过观察示例数据来学习如何解决问题。这些算法没有明确说明如何解决问题。相反,这些算法可以自由地以它们认为最佳的方式解决问题。解决方案不必模仿传统方法或易于向人类解释。迄今为止 ,解决助听器噪声中的语音问题的 ML 方法依赖于深度神经网络 (DNN)。在算法开发过程中,通过向算法展示各种噪声中的语音场景来优化网络。希望 DNN 能够提供噪声中的语音优势,并将其推广到现实世界的聆听环境,包括那些未包含在训练场景中的环境。


不同制造商提供的基于 DNN 的降噪技术在复杂性和精密度方面存在很大差异。网络结构和网络训练所涉及的复杂性(例如用于训练的数据)都必须在助听器开发期间决定。此外,开发人员还需要考虑处理复杂性和电池消耗之间的平衡。因此,DNN 解决方案在不同的实现中可能存在很大差异。目前尚不清楚任何 DNN 优化的结果是否会超过基于“人类智能”的非 DNN 设备的结果。因此,应根据真实的聆听情况仔细评估 DNN 的功效。  


在本研究中,研究人员比较了两种助听器的噪声语音性能:一种采用基于多流架构的 RTCE 技术,另一种采用基于 DNN 的降噪技术。在模拟的群组对话设置中比较了这两种助听器,其中三个讲话者在声学复杂的环境中轮流从不同方位角(0°、30° 和 330°)在不同 SNR 范围内讲话。零假设是,在评估中使用的结果测量中,RTCE 和 DNN 算法之间的性能没有差异。


方法

参与者

先验功效分析表明,15名参与者足以在 0.8 的水平上完成这项研究。总共有 20 名老年人(平均年龄=74.5 岁,范围为64-90 岁,7名女性)参加了研究,他们双侧对称患有轻度至重度神经性听力损失(图 1)。所有参与者都是以美式英语为母语的人。20 名听众中有 13 名拥有超过 1 年的耳道内接收器 (RIC) 式助听器使用经验。所有参与者都通过了 Montral 认知评估 (MoCA,平均 = 27.9) 的认知筛查。该方案得到了外部机构审查委员会 (Salus;IRB:RP2402) 的批准,并获得了所有参与者的知情同意。


图 1:听众的个体(细线)和平均(粗线)气导阈值。


助听器

测试者使用双侧适配的 Signia Pure Charge & Go 7IX 助听器 (HA),该助听器采用了实时对话增强 (RTCE) 技术。将 RTCE 设备的性能与另一家制造商最近推出的高端产品进行了比较,后者采用了基于 DNN 的降噪技术。研究采用单盲设计,参与者不知道每台助听器的身份。HA 使用完全遮蔽的耳塞进行耦合,并根据参与者的听力阈值使用每个制造商的适配软件上实现的 NAL-NL2 适配目标进行编程。所有助听器都设置为“高噪声中的语音”程序,以确保激活 RTCE 和 DNN 功能。


设置

助听器的验配和测试在一个双层隔音室内进行,室内尺寸为 3 x 3 x 2 米(宽 x 长 x 高)。听众坐在房间中央,周围有八个扬声器。六个扬声器分别放置在方位角 0°、30°、120°、180°、240° 和 330°,距离听众 1 米(图2)。此外,两个扬声器分别放置在方位角 45° 和 315°,距离听众 1.5 米,指向房间角落,以形成漫射声场。所有扬声器都与耳朵齐平。


图 2:背景噪声中三个目标语音位置的测试设置。


噪声中的语音测试使用来自重复和回忆测试 (RRT) 的高语境句子进行。这些句子在句法上有效且在语义上有意义(例如“把冰淇淋放在冰箱里”),反映了真实聆听过程中的有意义的对话。目标句子在三个位置(0°、30° 和 330°)之间随机交替,模拟三个对话伙伴轮流对话。所有句子都由同一位男性讲话者说。语音级别根据听众表现使用贝叶斯引导算法进行调整。


在现实生活中,竞争声音包括静态背景噪声以及波动噪声和其他非目标讲话者的声音并不少见。为了模拟这种真实的噪声中对话情况,从120°、180° 和 240° 呈现持续的自助餐厅噪声,并从45° 和 315° 降低 -6 dB。两个类似语音的干扰信号(即国际语音测试信号,ISTS)模拟了对话之外的说话者,分别从 120° 和 240° 呈现,比自助餐厅噪音高出 +6 dB(图 2)。总背景噪声水平为72 dB SPL。


程序

噪声环境下的语音性能分两个阶段进行测量。第一阶段使用 RRT 句子估计听众的表现强度 (PI) 函数,通过根据贝叶斯引导算法自适应地改变语音水平。每次试验包括 32 个句子,每个句子有 3 或 4 个目标词得分。从 PI 函数中,研究人员得出了 25%、50%、75% 和 90% 正确词级语音接收阈值所需的 SNR(即 SRT-25、SRT-50、SRT-75 和 SRT-90)。这使研究者能够有效地估计不同水平的对话成功所需的 SNR。两个研究助听器(RTCE 和 DNN)以平衡顺序进行测试。 


第 2 阶段测量了每个听众在噪声中的语音表现,信噪比对应于第 1 阶段中为性能较差的技术测量的 SRT-50。单词和句子识别性能(正确重复的百分比)使用 32 个句子进行评估。沟通挑战还可能扩展到语音识别测量本身无法捕捉到的其他维度。例如,即使听众报告说语音足够响亮并且可以理解,聆听仍然会让人感到费力、疲惫和有压力。这种负面体验可能会导致听众放弃参与具有挑战性的聆听活动。


因此,每次试验后,参与者都被要求按 1 到 10 的等级对他们认为聆听情况的费力程度进行评分(1 =“最小费力”,5 =“中等费力”,10 =“非常费力的聆听”)。听众还被要求估计他们愿意花多长时间(以分钟为单位)在这种噪声条件下聆听(可忍受的时间)。


结果

语音识别性能

图 3(左)比较了 RTCE 和 DNN 技术在不同性能标准(SRT-25、SRT-50、SRT-75 和 SRT-90)下的辅助 SRT,这些标准是根据实验第 1 阶段测量的 PI 函数推断出来的。对于 20 位听众中的 19 位,RTCE 实现 50%、75%、90% 性能所需的 SNR 低于 DNN(20 位听众中的 18 位实现 25% 性能所需的 SNR 低于 DNN)。 


图 3 (右)总结了每个 SRT 性能标准下 RTCE 相对于 DNN 的平均优势。在这里,我们可以看到,在所有性能标准水平上,听众使用 RTCE 的表现都比使用 DNN 的表现更好(RTCE vs DNN;SRT-25:-10.5 vs -9.2 dB;SRT-50:= -7.5 vs. -5.7 dB;SRT-75:-4.4 vs. -2.1 dB;SRT-90:-1.6 vs. 1.2 dB)(所有 p < 0.001)。RTCE 相对于 DNN 的改进从 SRT-25 的 1.3 dB 增加到 SRT-90 的 2.8 dB。换句话说,在性能相对较差的 SNR(即 25% 的理解率)下,性能差异较小,而在性能相对较好的 SNR(即 90% 的语音理解率)下,性能差异较大。

图 3:散点图比较了每个听众使用 RTCE 和 DNN 实现 25%、50%、75% 和 90% 单词识别所需的 SNR(左)以及每个语音接收阈值下 RTCE 相对于 DNN 的平均收益(右);误差线表示受试者内的 95% 置信区间,*** p < 0.001。


SRT-50 噪声环境下语音性能

图 4 绘制了在较差的 HA 条件下,在固定 SNR 下测量的 RTCE 和 DNN 技术测得的句子和单词级别的性能分数,这些 SNR 对应于每个听众的辅助 SRT-50。大多数参与者(20名参与者中的16名)使用 RTCE 的表现优于使用 DNN 技术(图 3,左侧和中间)。平均而言,与使用 DNN 相比,RTCE 的单词性能高出 14.1%((19) = -4.41,p<0.001),句子性能高出17.4%((19)=-5.00,p<0.001)(单词:68.3% vs 54.2%;句子:45.8% vs 28.4%)(图3右)。

这表明,与使用 DNN 技术相比,听众可以使用 RTCE 更准确地跟踪同样声学复杂且困难的聆听环境中的多说话者对话。

图 4:使用 RTCE(红色)和 DNN(灰色)技术的单个单词(左)和句子级别(中)的识别性能(%)和平均性能数据(右);误差线表示受试者内 95% 置信区间,*** p < 0.001。

技术对聆听努力评级和留在嘈杂背景下的意愿的影响

图 5 绘制了两种 HA 条件下听众报告的聆听努力程度评分和可忍受时间。20 位听众中有 12 位认为使用 RTCE 比使用 DNN 更省力。RTCE 的平均努力程度评分为 6.8,DNN 的平均努力程度评分为 7.8,但差异并不具有统计学意义 ( (19) =1.86,  p =0.078)。20 位听众中有 15 位报告称,在使用 RTCE (平均值=16.1 分钟) 进行测试时,他们更愿意留在噪音中 (即可忍受的时间),而使用 DNN (平均值=8.7 分钟) 进行测试时则不然。这种差异具有统计学意义 ( (19) =-3.63,  p < 0.01),这表明听众在 RTCE 条件下比在 DNN 条件下更愿意在噪音中进行更长时间的群组对话。  

图 5:使用 RTCE(红色)和 DNN(灰色)技术的个人聆听努力评级(左,数字较小,更不费力或更好)、可容忍时间估计(以分钟为单位)(中间)和平均主观体验分数(右);误差线表示受试者内 95% 置信区间,** p < 0.01。

讨论:RTCE 与 DNN

这项研究表明,Signia IX 中采用的 RTCE 技术在噪声环境下的通话性能优于采用基于 DNN 技术的高级助听器。具体而言,与基于 DNN 的功能相比,RTCE 设备的平均 SNR 提高了 1.3 到 2.8 dB,在 SRT 标准为 50% 的情况下,单词理解能力提高了 14%,句子理解能力提高了 17%。大多数参与者(20 人中有 12 人)还认为使用 RTCE 比使用 DNN 更省力。与 DNN 技术相比,RTCE 将听众愿意在噪声环境中停留的时间延长了 7 分钟(或相对持续时间增加了 85%)。 

大多数参与者报告的听力努力评分降低表明,与 DNN 条件相比,RTCE 条件下的听众不需要使用太多自上而下的处理(例如使用上下文线索来纠正错过或听错的单词)来帮助理解语音。较少的努力可以增加听众继续参与交流的意愿,并促进更多地参与社交活动。与 DNN 条件相比,RTCE 报告的可容忍时间显著增加,支持了这一推测。


有趣的是,RTCE 相对于 DNN 的优势在各种听音条件下并不统一,而是从 SRT 标准理解度为25% 时的 1.3 dB 增加到SRT标准理解度为90%时的 2.8 dB。这一结果凸显了使用贝叶斯引导的 RRT 语音噪声测试的优势,该测试能够估计听音者的完整 PI 函数。通过估计完整的 PI 函数,我们能够确认,RTCE 相对于基于 DNN 的降噪的优势在每个听音者的一系列 SNR 上都得到了体现。此外,能够观察到,随着听音条件的改善和语音理解变得更有利于支持真实世界的对话,RTCE 相对于 DNN 的优势幅度会增加。 


换句话说,根据研究结果,RTCE 相对于 DNN 的优势并不局限于非常具有挑战性的 SNR,在这种情况下,听众的理解水平低于继续对话所需的水平(例如 <50%)。相反,最大的优势是在语音理解水平 >75% 的 SNR 下观察到的。这种中等挑战性的交流情况代表了人们在现实世界中更有可能遇到并花时间的对话。 


如前文所述,RTCE 的优势在于,它是根据开发人员对算法在日常情况下应如何工作的专业知识而设计的。开发人员可以完全控制处理过程。而当前一代 DNN 技术则并非如此。在考虑助听器的功效时,HCP必须考虑助听器(或算法)的设计和实施方式,而不仅仅是算法所基于的技术平台。

 

信息源于:hearingreview


  关于我们  


21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

  合作推广  


稿件投稿 | 创业支持 | 知产服务 | 技术转化
请发送需求至以下邮箱,我们将派专人与您联系
21db@ioasonic.com

  版权声明  

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作,请与我们联系


21dB声学人
中国科学院声学研究所苏州电声产业化基地旗下科技媒体,专注声学技术创新与产业化发展,为十万声学人提供声学相关资讯与技术交流合作。
 最新文章