INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

文摘科技 2024-08-05 09:30 陕西

随着手机、笔记本电脑等智能设备的普及，音频通信系统在人们的日常生活中起到了越来越重要的作用。然而，受硬件等多种因素的限制，通信系统中的语音信号经常因频率响应失真、不连续失真、响度问题、混响和噪声等受到损伤，影响听感。在ICASSP 2024语音信号改善挑战赛（SSIC）上，我们提出了基于修复和降噪的两阶段模型RaD-Net，旨在提升受损伤语音信号的质量，然而由于没有有效利用未来信息以及卷积感受野的约束，模型的性能受到了限制。

近期，由西工大音频语音与语言处理研究组（ASLP@NPU）与字节跳动合作论文“RaD-Net 2: A casual two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention”被语音研究顶级会议INTERSPEECH 2024接收，该论文在RaD-Net的基础上，提出了基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型RaD-Net 2，有效提升了模型处理不同类型音质损伤的能力。现对该论文进行简要的解读。

论文题目：RaD-Net 2: A casual two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention

合作单位：字节跳动

作者列表：刘铭帅，陈庄祺，闫晓鹏，吕元骏，夏咸军，黄传增，林丹峰，谢磊

论文Arxiv网址：https://arxiv.org/abs/2406.07498

发表论文截图

扫码直接看论文

背景动机

音频通信系统的广泛应用使得语音信号质量受到越来越多的关注。在通信系统中，语音信号在采集、模数转换、传输到播放的整个链路里可能会受到频率响应失真、不连续失真、响度问题、噪声和混响等多种不利因素的影响，从而严重损伤语音质量和可懂度。近年来，研究者们在降噪和去混响领域提出了多种性能优越的深度神经网络，展示了深度学习在语音信号质量改善方面的巨大潜力。

在ICASSP 2024语音信号改善挑战赛（SSIC）上，我们提出了一种基于生成式对抗网络的两阶段模型RaD-Net [1]，实现了对多种失真的有效处理。然而，由于忽略了未来信息对修复任务的重要性以及卷积感受野的约束，模型性能受到了限制。为了解决这些问题，我们进一步扩展了RaD-Net，提出了基于因果性蒸馏和复数轴向自注意力机制的更新方案——RaD-Net 2。首先，在第一阶段引入基于因果性的知识蒸馏，使用非因果模型作为教师模型来提升非因果模型的性能。此外，在第二阶段将复数轴向自注意机制应用于复数特征编码器和复数特征解码器。实验结果表明，与RaD-Net相比，RaD-Net 2在ICASSP 2024 SSI挑战盲测试集上带来了0.10 OVRL DNSMOS和0.15 OVRL SIGMOS的改进。

RaD-Net：ICASSP2024 | RaD-Net: 基于语音恢复和降噪的两阶段音质修复模型

RaD-Net 2

RaD-Net 2使用了与RaD-Net相同的两阶段架构。其中，一阶段模型负责修复频率响应失真、不连续失真和响度问题，并进行初步降噪和去混响；二阶段模型负责消除残余噪声和一阶段模型处理产生的瑕疵。

图1 RaD-Net 2模型结构

基于因果性的蒸馏

一阶段模型以TEA-PSE [2]中的COM-Net为主干网络，采用mapping的方式同时处理多种失真。在该阶段，模型的任务可以划分为两类：

生成受损音频的缺失成分，如频带扩展、丢包补偿等。
初步去除干扰信号，如消除背景噪声和电路噪声、去混响等。

对于第一类生成式任务来说，上下文表征对模型的性能起到了重要作用，由于因果模型无法获取未来信息，非因果模型在此类任务上的性能要优于因果模型。为此，我们在第一阶段引入基于因果性的蒸馏方案，通过因果的方式使用未来信息，进一步提升因果模型的性能。在蒸馏过程中，教师模型和学生模型分别使用非因果网络和因果网络。其中，非因果网络和因果网络采用相同的参数配置，不同之处在于，非因果网络TFCM模块中的卷积采用了非因果填充，而因果网络TFCM模块中的卷积采用了因果填充。

在教师模型训练和学生模型蒸馏过程中，使用了频域损失和对抗损失。其中，基于幅度谱x的频域损失包括：

在生成式对抗训练中，使用了多分辨率判别器和多子带判别器，分别对干净音频s 和修复音频进行判别，对抗损失包括：

复数轴向自注意力机制

二阶段模型以S-DCCRN[3]为骨干网络，采用mask的方式进一步去除残余噪声和伪影。如图2所示，二模型使用复数特征编码器（Complex Feature Encoder，CFE）和复数特征解码器（Complex Feature Decoder，CFD），在保持低分辨率的同时提取额外信息。然而，由于卷积感受野有限，特征的长程相关性不能被充分捕捉。因此，为了克服卷积感受野的限制，我们引入了轴向自注意力（Axial Self-Attention，ASA）机制[4]，在CFE和CFD中将复数卷积模块替换为复数ASA模块。

图2 复数ASA模块结构

如图2所示，复数ASA模块使用3层复数卷积分别预测query Q、key K以及value V。受D2Former [5]的启发，在后续运算中，对复数矩阵的绝对值应用softmax函数来计算复数ASA，具体定义如下：

在二阶段模型训练过程中，使用了时域损失、频域损失和对抗损失的组合。其中，对抗损失与一阶段模型相同，时域损失包括SI-SNR损失，频域损失包括谱压缩损失，分别定义如下：

实验

实验设置

实验数据：

干净人声、噪声均来自DNS 5竞赛数据。
数据仿真方面，在官方开源的仿真代码基础上，加入AAC、MP3和AMR三种编解码方式。
最终仿真1200训练集、30小时校验集。

对比系统：

RaD-Net：前作方案
Gesper[6]：音质修复领域的SOTA模型之一

评价指标：

DNSMOS
SIGMOS[7]：SIGMOS是ICASSP 2024 语音信号改善挑战赛中发布的非侵入式指标。该指标基于ITU - T P.804标准，用来评估全带音频的质量。SIGMOS从七个维度评估语音质量：speech signal (SIG)、coloration (COL)、discontinuity (DISC)、loudness (LOUD)、noisiness (NOISE)、reverb (REVERB)和overall quality (OVRL)。

实验结果分析

从表1可以得出以下结论。

基于因果性的蒸馏

与大尺寸的一阶段模型相比（Stage-1 Large）相比，非因果的一阶段模型（Stage-1 Non-causal）在DNSMOS和SIGMOS的各项指标上得分更高，证明了未来信息对音质修复模型的重要性。
使用非因果网络作为教师的一阶段模型（Stage-1+ $\text{KD}_{Non-causal}$ ）在DNSMOS和SIGMOS的OVRL指标上要优于不使用蒸馏的模型（Stage-1）以及使用大尺寸网络作为教师的一阶段模型（Stage-1+ $\text{KD}_{Large}$ ），证明了基于因果性蒸馏的有效性。

复数轴向自注意力机制

复数ASA模块有效提升了RaD-Net在DNSMOS和SIGMOS上的表现，证明了其有效性。

表1 在ICASSP 2024语音信号改善挑战赛盲测集的DNSMOS和SIGMOS

如表2所示，我们提出的系统在DNSMOS上的表现优于Gesper。

表2 在ICASSP 2023语音信号改善挑战赛盲测集的DNSMOS

样例展示

样例1

样例2

样例3

参考文献

[1] M. Liu, Z. Chen, X. Yan, Y. Lv, X. Xia, C. Huang, Y. Xiao, and L. Xie, “RaD-Net: A repairing and denoising network for speech signal improvement,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024.

[2] Y. Ju, S. Zhang, W. Rao, et al., “Tea-pse 2.0: Sub-band network for real-time personalized speech enhancement,” in SLT, 2023.

[3] S. Lv, Y. Fu, M. Xing, et al., “S-DCCRN: Super wide band DCCRN with learnable complex feature for speech enhancement,” in ICASSP, 2022

[4] G. Zhang, L. Yu, C. Wang, and J. Wei, “Multi-scale temporal frequency convolutional network with axial attention for speech enhancement,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2022, pp. 9122–9126.

[5] S. Zhao and B. Ma, “D2Former: A fully complex dual-path dualdecoder conformer network using joint complex masking and complex spectral mapping for monaural speech enhancement,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, pp. 1–5.

[6] W. Liu, Y. Shi, J. Chen, W. Rao, S. He, A. Li, Y. Wang, and Z. Wu, “Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction,” in Proc. INTERSPEECH 2023 – 24th Annual Conference of the International Speech Communication Association, 2023, pp. 4044–4048.

[7] N.-C. Ristea, A. Saabas, R. Cutler, B. Naderi, S. Braun, and S. Branets, “ICASSP 2024 Speech Signal Improvement Challenge,” in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2024.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428439&idx=1&sn=065293aa8f887330dd44a1da2d7444ec

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉