高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

文摘 2025-01-01 18:01 北京

在多说话者场景中，尤其是在极低信噪比（SNR）条件下，利用空间特征增强目标语音至关重要，但开发紧凑的多通道语音增强系统仍面临挑战。上海交通大学X-LANCE实验室的研究团队取得新突破，提出一种因果导向的 U-Net（CDUNet）模型，为语音增强技术带来了新的解决方案。

论文地址：https://arxiv.org/pdf/2412.18141

传统的多通道语音增强技术如波束形成器存在性能局限，而现有的神经网络方法也有诸多不足，如预定义目标语音区域、需较多麦克风、神经网络参数规模大以及忽视对下游任务的影响等。

研究团队针对 “鸡尾酒会问题” 开展研究，即从干扰语音中提取目标说话者的语音信号。他们提出的 CDUNet 模型采用了独特的三重导向空间选择方法，将三个导向向量与 U-Net 架构相结合，以此确定目标方向和增强范围。

图1. CDUNet架构的示意图。波束形成器的输出结合了目标方向和宽度输入，这捕捉了对于增强至关重要的空间区域信息。

在模型中，利用目标角度和通过对目标角度加减输入宽度得到的两个边缘角度，为波束形成器生成三个导向向量。同时，网络以两个原始麦克风信号的频域表示以及波束形成器在目标角度和两个边缘角度的输出作为输入，从而准确定位目标说话者方向，并能根据目标和干扰源的角度分离情况进行更精确的定向增强。

图2. 第一个固定目标数据集的模拟设置图示。目标方向在 85° 至 95° 之间，图中用红色星号表示，而干扰方向距目标方向 15°，由绿色星号指示。房间信息是从表中提供的范围内均匀采样得到的。

CDUNet 模型基于卷积 U-Net 架构，拥有强大的编码器 - 解码器结构，并结合了跳连接。在编码器和解码器之间，按照双路径循环神经网络（DPRNN）框架集成了频率序列层和长短期记忆（LSTM）层等序列建模模块。此外，模型还融入了卷积块注意力模块（CBAM），通过在解码器和跳连接中应用，重新校准时频（TF）特征图，提高目标重建精度。

在损失函数方面，研究团队创新性地提出了结合尺度不变信噪比（SI-SNR）和多分辨率短时傅里叶变换（MRSTFT）损失的组合损失函数，有效解决了仅使用 SI-SNR 损失时网络过度抑制低频分量的问题。

在数据集的构建上，所有的干净语音和干扰语音均从 LibriSpeech 和内部语料库中随机采样。

研究者模拟生成了固定目标数据集和可变目标数据集，其中固定目标数据集包含 250,000 个训练样本，目标方向固定在 85° 至 95° 之间，目标语音相对于干扰说话者混合信号的信噪比在 -5 dB 至 10 dB 之间变化；可变目标数据集则引入了目标说话者位置的可变性，干扰方向始终与目标方向相距 15°，信噪比和语句数量与固定目标数据集保持一致。

模型输入采用窗口大小为 512、步长为 256 的 STFT，输出采用逆 STFT，最终 CDUNet 模型的频域输入为 10 通道。

在评估环节，构建了固定目标和可变目标评估数据集，并选择了传统的延迟求和波束形成器（DAS）、广义旁瓣抵消器（GSC）、联合空间和时间光谱非线性滤波器（JNF）以及基于 U-Net 的不同模型作为基线。评估指标包括语音质量的感知评估（PESQ）和增强语音输入预训练 ASR 模型后的字错误率（WER）。

表1. 固定区域的 PESQ 分数（针对目标角度约为 90° 训练滤波器）。φ_inter 表示干扰语音的方向，Noisy Sp. 表示带噪语音。

实验结果表明，CDUNet 模型表现卓越。在固定区域和定向训练中，基于 U-Net 的模型优于无 U-Net 的模型，而 CDUNet 在固定目标数据集上训练时，仅用 74.4k 参数就比其他 U-Net 结构基线模型有显著提升。

在不同输入宽度的测试中，发现当 φwidth = 7° 时 CDUNet 性能最优。在定向语音增强方面，CDUNet 能够动态适应目标说话者，在不同目标角度下都能保持良好的增强效果，而其他基线模型在目标说话者位置变化时性能会大幅下降。

表2. 不同输入宽度的固定目标的 PESQ 得分。

表3. 不同目标说话者位置的 PESQ 得分。

在下游 ASR 任务中，CDUNet 不仅在语音质量上取得高分，在字错误率指标上也表现出色，如在 0 dB 信噪比下，CDUNet 的字错误率为 4.35%，优于其他对比模型。

表4. 固定目标说话者位置的下游任务性能（针对目标角度约为 90° 进行训练）。

CDUNet 模型通过仅使用两个麦克风就能高效运行，有效提高了语音质量，并在下游 ASR 任务中展现出优越性能，非常适合用于低延迟、设备上的流媒体应用，如助听器和自动语音识别系统，有力地推动了语音增强技术在实际场景中的发展与应用。

更多信息：Wen Wen, Qiang Zhou, Yu Xi, et al. Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario[J]. arXiv:2412.18141v1 [eess.AS], 2024.

▼点击【阅读原文】，查看论文

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

语音之家

助力AI语音开发者的社区

天工版o1、4o同时上线！实时语音陪聊太上头

通过流匹配实现高效、高质量的文本转音频生成

语音/音频处理学术速递[1.6]

AI语音招聘岗位合集

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

活动报名丨第五届全国人工智能大赛

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

语音/音频处理学术速递[1.3]

AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

分享 10 款免费在线 TTS 工具，开启语音新世界大门

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

使用知识图谱增强大语言模型生成问答逻辑形式

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

ICASSP2025丨语音国家工程研究中心26篇录用论文分享

国产大模型全球“刷屏”，总训练成本557万美元，性能比肩GPT-4o

语音/音频处理学术速递[12.31]

ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

2024年人工智能年终总结报告｜Artificial Analysis

语音/音频处理学术速递[12.30]

AI语音招聘岗位合集

听见未来，AI+Audio｜2025中国国际音频产业大会（GAS）

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

全球首个中文安全领域事实性基准评测集发布

音频版ControlNet来了！Adobe推出Sketch2Sound

AI首次自主发现人工生命！人类窥见上帝造物

INFP：照片+音频让蒙娜丽莎秒变播客主理人

语音/音频处理学术速递[12.25]

CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

ICASSP2025丨人类语言技术实验室（HLT Lab）10篇录用论文分享

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

语音/音频处理学术速递[12.24]

ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

开源更新丨通义3D-Speaker多说话人日志功能

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

语音/音频处理学术速递[12.23]

AI语音招聘岗位合集

GAS"消费电子科创奖” | 展示消费电子行业突破性成果

WavChat：深入探索语音对话模型的前沿

Interspeech 2025丨首届言语健康挑战赛

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

内大语音理解与生成实验室最新视觉语音合成工作分享

语音/音频处理学术速递[12.20]

【AI对话系统新挑战】FutureDial-RAG Challenge详解

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

语音/音频处理学术速递[12.19]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉