研究 | 高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

科技 2024-12-30 18:33 江苏

在多说话者场景中，尤其是在极低信噪比（SNR）条件下，利用空间特征增强目标语音至关重要，但开发紧凑的多通道语音增强系统仍面临挑战。上海交通大学X-LANCE实验室的研究团队取得新突破，提出一种因果导向的 U-Net（CDUNet）模型，为语音增强技术带来了新的解决方案。

传统的多通道语音增强技术如波束形成器存在性能局限，而现有的神经网络方法也有诸多不足，如预定义目标语音区域、需较多麦克风、神经网络参数规模大以及忽视对下游任务的影响等。

研究团队针对 “鸡尾酒会问题” 开展研究，即从干扰语音中提取目标说话者的语音信号。他们提出的 CDUNet 模型采用了独特的三重导向空间选择方法，将三个导向向量与 U-Net 架构相结合，以此确定目标方向和增强范围。

图1. CDUNet架构的示意图。波束形成器的输出结合了目标方向和宽度输入，这捕捉了对于增强至关重要的空间区域信息。

在模型中，利用目标角度和通过对目标角度加减输入宽度得到的两个边缘角度，为波束形成器生成三个导向向量。同时，网络以两个原始麦克风信号的频域表示以及波束形成器在目标角度和两个边缘角度的输出作为输入，从而准确定位目标说话者方向，并能根据目标和干扰源的角度分离情况进行更精确的定向增强。

图2. 第一个固定目标数据集的模拟设置图示。目标方向在 85° 至 95° 之间，图中用红色星号表示，而干扰方向距目标方向 15°，由绿色星号指示。房间信息是从表中提供的范围内均匀采样得到的。

CDUNet 模型基于卷积 U-Net 架构，拥有强大的编码器 - 解码器结构，并结合了跳连接。在编码器和解码器之间，按照双路径循环神经网络（DPRNN）框架集成了频率序列层和长短期记忆（LSTM）层等序列建模模块。此外，模型还融入了卷积块注意力模块（CBAM），通过在解码器和跳连接中应用，重新校准时频（TF）特征图，提高目标重建精度。

在损失函数方面，研究团队创新性地提出了结合尺度不变信噪比（SI-SNR）和多分辨率短时傅里叶变换（MRSTFT）损失的组合损失函数，有效解决了仅使用 SI-SNR 损失时网络过度抑制低频分量的问题。

在数据集的构建上，所有的干净语音和干扰语音均从 LibriSpeech 和内部语料库中随机采样。

研究者模拟生成了固定目标数据集和可变目标数据集，其中固定目标数据集包含 250,000 个训练样本，目标方向固定在 85° 至 95° 之间，目标语音相对于干扰说话者混合信号的信噪比在 -5 dB 至 10 dB 之间变化；可变目标数据集则引入了目标说话者位置的可变性，干扰方向始终与目标方向相距 15°，信噪比和语句数量与固定目标数据集保持一致。

模型输入采用窗口大小为 512、步长为 256 的 STFT，输出采用逆 STFT，最终 CDUNet 模型的频域输入为 10 通道。

在评估环节，构建了固定目标和可变目标评估数据集，并选择了传统的延迟求和波束形成器（DAS）、广义旁瓣抵消器（GSC）、联合空间和时间光谱非线性滤波器（JNF）以及基于 U-Net 的不同模型作为基线。评估指标包括语音质量的感知评估（PESQ）和增强语音输入预训练 ASR 模型后的字错误率（WER）。

表1. 固定区域的 PESQ 分数（针对目标角度约为 90° 训练滤波器）。φ_inter 表示干扰语音的方向，Noisy Sp. 表示带噪语音。

实验结果表明，CDUNet 模型表现卓越。在固定区域和定向训练中，基于 U-Net 的模型优于无 U-Net 的模型，而 CDUNet 在固定目标数据集上训练时，仅用 74.4k 参数就比其他 U-Net 结构基线模型有显著提升。

在不同输入宽度的测试中，发现当 φwidth = 7° 时 CDUNet 性能最优。在定向语音增强方面，CDUNet 能够动态适应目标说话者，在不同目标角度下都能保持良好的增强效果，而其他基线模型在目标说话者位置变化时性能会大幅下降。

表2. 不同输入宽度的固定目标的 PESQ 得分。

表3. 不同目标说话者位置的 PESQ 得分。

在下游 ASR 任务中，CDUNet 不仅在语音质量上取得高分，在字错误率指标上也表现出色，如在 0 dB 信噪比下，CDUNet 的字错误率为 4.35%，优于其他对比模型。

表4. 固定目标说话者位置的下游任务性能（针对目标角度约为 90° 进行训练）。

CDUNet 模型通过仅使用两个麦克风就能高效运行，有效提高了语音质量，并在下游 ASR 任务中展现出优越性能，非常适合用于低延迟、设备上的流媒体应用，如助听器和自动语音识别系统，有力地推动了语音增强技术在实际场景中的发展与应用。

更多信息：Wen Wen, Qiang Zhou, Yu Xi, et al. Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario[J]. arXiv:2412.18141v1 [eess.AS], 2024.

▼ ▼ ▼ 点击【阅读原文】，查看论文

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学创业孵化、知识产权服务等。

合作推广

稿件投稿｜创业支持｜知产服务｜技术转化

请发送需求至以下邮箱，我们将派专人与您联系

21db@ioasonic.com

文中所有图片和文字版权归21dB声学人所有

如需转载或媒体合作，请与我们联系

21dB声学人

中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注声学技术创新与产业化发展，为十万声学人提供声学相关资讯与技术交流合作。

最新文章

网络研讨会 | 1月7日模态测试、分析与仿真，点击立刻报名

研究 | 创新的声学交通监测技术，解决数据稀缺难题，精准识别车辆信息

独特的回声：岩石艺术遗址的声学研究

研究 | 新模型改善低资源条件下的声学场景分类

研究 | 通过流匹配实现高效、高质量的文本转音频生成

讨厌噪音？你可能是个天才：叔本华论噪音

属于21dB声学人的2024年终总结

研究 | 创新无线声学传感网络助力城市环境噪声监测

直播回放 | 声学专利对话：聊聊知识产权那些事

研究 | 高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

动物间谍：情报机构眼中的 “秘密武器”

声学专利对话 | 直播预告：“聊聊知识产权那些事”主题分享周日开播

研究 | 基于模板模式匹配的声学定位模型实现高精度室内声源定位

研究 | 基因调控因子或可帮助失聪患者的听觉细胞再生，逆转耳聋

研究 | 一种基于深度学习的声源定位新方法，显著减少训练数据需求

专利 | 苹果新专利：通过手势激活耳机的隐私模式

专利 | 一种作为耳机扬声器单元的微型换能器

企业推介 | 中科声知知识产权：创新价值的守护与赋能者

研究 | 生物声学研究发现豹子可以通过其独特的吼叫声来识别

研究 | 低功率声学增强紧凑型热交换器，为电子设备的高效冷却提供新方案

从铃铛到唱诗班，独属于圣诞节的音色

前沿 | 近期【声学】相关学术论文整理

研究 | 西安交通大学研究出一种具有低噪声振荡读出电路的 MEMS 石英谐振加速度计

科普 | 太阳会发出噪音吗？

专利 | 带有噪声过滤功能的婴儿监视系统

降噪耳机能做什么和不能做什么

心灵之耳与内心之声：探究大脑的听觉想象力

专利 | 一种主动降噪音响系统

研究 | 为深基坑爆破开发的噪声与振动冲击模拟器

研究 | 贝多芬如何创作音乐？声音和振动在大脑中汇聚以增强感官体验

专利 | Verasonics 获超声波收发器设计专利，实现低失真和实时信号监控

前沿丨基于“虚拟透镜”的水下超分辨率声学成像

如何处理轴承的噪声与振动

推广：网络研讨会 | HBK与立讯 - MEMS扬声器的电声学测试，点击立刻报名

研究 | 深度神经网络与多流架构在助听器中的性能比较：噪声环境中的语音处理

研究 | 增强双模成像：新型换能器同时提供超声和光声成像

专利 | 一种减少压缩机噪声（特别是气动噪声）的消声器装置

研究 | 利用微金属透镜进行超声波成像以实现先进材料诊断

格力新专利：双层隔音棉结构实现宽频降噪

AirPods Pro 2 作为助听器效果如何？测评人员对其进行了测试

研究 | 脑图谱促进对精神分裂症患者语言和幻觉的理解

研究 | 增材制造吸声超材料综述

研究 | 微型机器人通过精准药物输送瞄准肿瘤

森海塞尔麦克风以沉浸式音频捕捉SpaceX星舰试飞

研究 | 多目标非侵入式助听器语音评估模型：HASA-Net+的提出与应用

研究 | 超声引导的微观“花”颗粒在靶向药物输送中显示出良好的前景

噪声增强 CAM（连续自回归模型）：推进实时音频生成

专利 | 格力新风降噪技术：为健康室内空气质量保驾护航

巴黎圣母院重新开放,大教堂内的声学效果有无改变？

研究 | 灵长类动物研究揭示了大脑中分离信号和噪声的神经机制

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉