ICASSP2024 | 基于音频质量的多策略目标说话人提取

文摘科技 2024-02-07 09:00 陕西

目标说话人提取（Target Speaker Extraction, TSE）旨在从包含多个说话人的复杂音频中分离出特定的说话人的语音。在诸如会议交流和家庭聚会等场景中，存在诸多干扰说话人和背景噪声，这种情况下对特定说话人的语音提取是一项极具挑战的任务。以往的TSE方法大多需要使用目标说话人的注册音频这一先验信息，但这些数据并不总能轻易获取。此外，当前大多数TSE方法的研究以音频质量作为评估指标，但往往并不能提升后端语音识别（ASR）系统的准确率。针对该问题，ICASSP2024上举办了以语音识别为评判标准的目标说话人提取评测，且引入唇动视觉信息作为目标说话人先验，即第三届基于多模态信息的语音处理（Multi-modal Information based Speech Processing，MISP）挑战赛的评测任务。
近期，西工大音频语音与语言处理研究组（ASLP@NPU）和马上消费合作参加了本届MISP竞赛，提交系统取得了第二名的优异成绩。依据提交系统撰写的论文“An Audio-quality-based Multi-strategy Approach For Target Speaker Extraction In the MISP 2023 Challenge”被语音研究顶级会议ICASSP2024接收。现对该论文进行简要的解读和分享。

论文题目：An Audio-quality-based Multi-strategy Approach For Target Speaker Extraction In the MISP 2023 Challenge

合作单位：马上消费

作者列表：韩润铎、闫晓鹏、许伟铭、郭鹏程、孙佳耀、王贺、陆全、蒋宁、谢磊

论文网址：https://arxiv.org/abs/2401.03697

图1 发表论文截图

图2 扫码直接看论文

背景动机

目标说话人提取（TSE）的目的是从包括背景噪音和多重说话人干扰的复杂声学环境中提取特定说话人的语音[1, 2]。近两年的ICASSP会议上举办的深度噪声抑制（DNS）竞赛均围绕TSE任务。NPU-ASLP实验室也携合作伙伴两次蝉联了冠军。

ICASSP2023 | TEA-PSE 3.0: 深度噪声抑制（DNS）竞赛个性化语音增强冠军方案解读

论文推介：腾讯天籁实验室-西工大ICASSP2022 DNS竞赛两阶段个性化语音增强系统

当前的TSE方案通常依赖于目标说话人的预先录制的注册音频，但这一苛刻的条件限制了其广泛应用[1]。此外，这些方案通常以音频质量指标（如主观听感）作为主要评估指标。但事实证明[3]主观听感的提升往往会带来后端语音识别率的下降。为此，MISP2023挑战赛[1]以远场6通道混合音频作为输入（如图3，使用Far Field 线性6麦克风阵列采集），以后端语音识别任务作为评估标准，同时引入了唇动视频数据（如图3，使用Middle Field摄像头进行采集）作为TSE任务的先验信息，而不是目标说话人注册音频。在这次多模态挑战赛上，为了确保前端提取的音频对后端ASR系统的有效性，该赛事采用了固定参数的ASR系统[4]来评估处理后语音识别的字错误率（CER）。在竞赛官方评估集上，我们的方法实现了33.2%的字符错误率（CER），取得了最终评估中第二名的优异成绩。

图3 MISP挑战赛数据采集场景[1]

提出的方案

为了应对这种音视频目标说话人提取（AV-TSE）任务，我们首先使用DNSMOS OVRL[5]分数作为音频质量评估标准，将音频分为高中低三组，然后对每组实施不同的提取技术。其次，由于GSS[6]会错误地将目标说话人的语音信号当做干扰说话人去除，因此我们使用多通道融合方法[2]，用来恢复GSS提取中丢失的目标语音信号，并进一步使用唇动视频数据的MEASE[1]网络进行目标说话人提取。此外，我们利用DRC-NET模型[7]进行进一步降噪，将原模型中的频谱映射方法[7]修改为频谱掩蔽方法，以平衡噪音的去除和语音的保留。

图4 竞赛提交方案的总体策略（a）以及高中低质量分组的TSE方案（b、c、d）模型结构

模型结构

针对不同质量水平的音频，一个关键的考虑因素是优先保留语音减少失真，更多地关注降噪，还是在两者之间寻求平衡。因此，我们根据DNSMOS OVRL分数将音频分为三类：分数高于

1.5 + \gamma

的被归类为高质量，

1.5 -\gamma

到

1.5 + \gamma

之间的被认为是中等质量，低于

1.5 -\gamma

的被命名为低质量。

1.5

（一点五）是基线系统在开发集[1]上的DNSMOS OVRL分数，我们认为它是区分音频质量的中间值。阈值

\gamma

是一个超参数，我们在实验中从{0.1, 0.2, 0.3, 0.4, 0.5}中调整，发现当

\gamma=0.3

时结果最好。然后对每个类别应用不同的处理策略，如图3(a)所示。

对于高质量音频，我们直接应用引导源分离（Guilded Source Separation, GSS）方法[6]，如图3(d)所示，它在提取多说话人音频时具有最小语音失真的优势。然而，对于中低质量音频，GSS会错误地将目标说话人的语音信号当做干扰说话人去除，并在去除噪音干扰方面效果不佳。因此，需要应用其他方法在GSS初步提取后进一步增强语音信号。

对于中等质量音频，我们增加了一个融合模块（Fushion block），用于合并多通道信息并弥补GSS导致的目标语音信号丢失，并利用多模态特征感知语音增强（Multimodal Embedding Aware Speech Enhancement，MEASE）网络[1]进行进一步提取。如图3(b)所示，Fushion block将8通道输入音频（包括远场6通道音频、其平均值和GSS处理过的音频）合并为单通道输出。8通道音频首先被标准化为-25db的响度。随后，它经过一个频率下采样（FD）层，以合并多通道的幅度信息。FD层的结构类似于[2]，包括门控卷积、累积层标准化（cLN）和PReLU。FD层的输出用作远场6通道音频平均幅度的掩码（Mask）。然后将掩蔽的时频域音频转换回时域，并输入到MEASE网络，该网络使用目标说话人的唇动视频作为目标说话者的先验信息，进一步从音频中提取目标语音。其结构类似于官方基线系统[1]，只是将音频和视频嵌入提取模块改为了不经过预训练的34层的ResNet结构。

对于低质量音频，我们使用DRC-NET[7]网络在GSS之后增强单通道音频，如图3(c)所示，可以有效地去除噪音和混响干扰。为了将过度增强引起的语音失真降低到最小，我们修改了原始网络结构，从频谱映射转为频谱掩蔽方法，选择了包含相位信息的CRM Mask[8]。网络的其余结构与[7]中描述的保持一致。

训练方式

模型训练分为两个阶段，使用仿真数据对前端系统进行预训练，然后与后端自动语音识别（ASR）系统在真实数据上进行联合训练。

在第一阶段，我们对融合块和MEASE网络（即中等质量情况）使用均方误差（MSE）损失 $L_{\text{MSE}}$ 。当训练DRC-NET网络（即低质量情况）时，损失函数被表示为 $L_{\text{DRC-NET}}$ ：

$\mathcal{L}_{\text{DRC-NET}} = \alpha \left\| |\hat{S}| - |S| \right\|_2 + (1 - \alpha)\left\| \text{Mag}(\hat{S}) - \text{Mag}(S) \right\|_2$

其中， $S$ 和 $\hat{S}$ 表示目标和估计的频谱， $\text{Mag}(\cdot)$ 是提取幅度频谱的操作， $\lVert \cdot \rVert_2$ 是L2范数。 $\alpha$ 设置为0.5。

在第二阶段，用于与后端ASR系统联合训练的损失函数 $L_{\text{ASR}}$ 与[1]中描述的一致，即CTC损失和CE损失的组合。

实验

数据集

实验在MISP2023挑战赛数据集上进行。远场6通道数据的仿真方法与[1]中描述的类似。在第一阶段训练期间，我们对干净音频进行动态加噪，随机在干净音频中添加-10db到+20db的噪声，并将其与其他近场麦克风音频结合（模拟干扰人声）。然后，根据房间尺寸添加混响，以模拟远场6通道音频。使用真实场景下的远场6通道音频用于第二阶段训练，即与后端ASR模型联合训练。所有作为语音提取先验信息的唇动视频数据都是由中场摄像机录制。模型效果在MISP 2023挑战赛官方Dev集和Eval集上进行测试。

结果

表1展示了在Dev集上进行的方案消融实验。DNSMOS OVRL分数表明，GSS后集成神经网络有效的去除了噪声，但代价是引入了一些语音失真。因此，针对不同音质采用不同的提取策略至关重要，这在Dev集上获得了最低的字错误率（CER）。融合模块与MEASE网络结合使用时，与单独使用MEASE网络相比，实现了更低的CER，证明了融合模块在整合多通道信息方面的有效性。

表1 Dev集上不同模型的CER和DNSMOS得分

如表2所示，在竞赛排名的Eval集上，我们的方法取得了比GSS和MEASE模型更低的CER，最终在挑战赛中获得了第二名的优异成绩。值得注意的是，更高的DNSMOS OVRL分数并不总是与更低的CER对齐，换句话说，音频质量指标不能单独用于评估后端ASR系统的性能。

表2 Eval集上不同模型的CER和DNSMOS得分

参考文献

[1] S. Wu, C. Wang, H. Chen, Yu. Dai, C. Zhang, R. Wang, H. Lan, J. Du, C. Lee, J. Chen, et al., “The multimodal information based speech processing (misp) 2023 challenge: Audio-visual target speaker extraction,” arXiv preprint arXiv:2309.08348, 2023.

[2] Y. Ju, J. Chen, S. Zhang, S. He, W. Rao, W. Zhu, Y. Wang, T. Yu, and S. Shang, “Tea-pse 3.0: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2023 dns-challenge,” in ICASSP. IEEE, 2023.

[3] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP. IEEE, 2018.

[4] Y. Dai, H. Chen, J. Du, X. Ding, N. Ding, F. Jiang, and C. Lee, “Improving audio-visual speech recognition by lip-subword correlation based visual pre-training and cross-modal fusion encoder,” in 2023 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2023.

[5] C. Reddy, V. Gopal, and R. Cutler, “Dnsmos p. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors,” in ICASSP. IEEE, 2022.

[6] D. Raj, D. Povey, and S. Khudanpur, “Gpu-accelerated guided source separation for meeting transcription,” in Interspeech, 2022.

[7] J. Liu and X. Zhang, “Drc-net: Densely connected recurrent convolutional neural network for speech dereverberation,” in ICASSP. IEEE, 2022.

[8] D. Williamson, Y. Wang, and D. Wang, “Complex ratio masking for monaural speech separation,” IEEE/ACM transactions on audio, speech, and language processing, 2015.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

‍

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427561&idx=1&sn=dff58f4c4550f78d74592dc30016653f

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉