INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

文摘科技 2024-07-29 09:30 陕西

随着互联网和通讯技术的发展，实时的音频流传输已经成为网络通信的一个非常重要的部分。同时，由于各种因素，比如网络拥堵、带宽限制、硬件故障等，音频数据包在传输过程中可能会丢失，这会对语音通信的质量产生严重影响，造成用户体验下降。最近我们提出了一种针对全频段信号的频带分割丢包隐藏网络(BS-PLCNet)，虽然它在ICASSP 2024 PLC挑战赛中取得并列第一的优异成绩，但BS-PLCNet是一个具有8.95G FLOPS的高计算复杂度的模型，仍有较大改进空间。

近期，西工大音频语音与语言处理研究组（ASLP@NPU）和字节跳动合作论文 “BS-PLCNet 2: Two-stage Band-split Packet Loss Concealment Network with Intra-model Knowledge Distillation” 被语音研究顶级会议INTERSPEECH2024接收。作为冠军模型的改进，我们设计了双路径编码器结构(具有非因果路径和因果路径)，并利用模型内知识蒸馏策略将未来信息从非因果教师提炼到因果学生路径。BS-PLCNet 2只有BS-PLCNet 40%的参数量以及38%的计算量，在ICASSP 2024 PLC挑战盲集上获得了0.18的PLCMOS提升，实现了SOTA的性能。现对该论文进行简要的解读和分享。

论文题目：BS-PLCNet 2: Two-stage Band-split Packet Loss Concealment Network with Intra-model Knowledge Distillation

合作单位：字节跳动

作者列表：张子晗，夏咸军，黄传增，林丹峰，谢磊

论文Arxiv网址：https://arxiv.org/abs/2406.05961

Demo：https://zzhdzdz.github.io/BS-PLCNet2

发表论文截图

扫码直接看论文

背景动机

在过去的几年里，随着互联网的发展，再加上疫情的影响，网络电话语音(VoIP)技术逐渐成为我们日常生活中必不可少的一部分。然而，由于网络拥塞、时延和抖动、硬件故障等多种因素，音频数据包集在传输过程中可能会丢失，这会对语音通信的质量产生严重影响，造成用户体验下降。语音丢包补偿（Packet Loss Concealment，PLC）技术的主要目标是通过各种方式尽可能地恢复或掩饰丢失的数据包，从而保持语音通信的连续性和清晰度。

传统丢包补偿技术主要基于冗余编码或信号处理的插值等方式，如在许多编解码器中采用的前向纠错技术，当检测到不良网络条件时，发送方可以传输有关过去帧的冗余信息，以便恢复短丢包。该技术会引入额外的网络开销和额外的延迟，同时无法处理较长丢包。随着硬件和算法的进步与深度学习技术的发展，一种非常有前景的方法是通过神经网络进行 PLC。基于神经网络的深度PLC方法已经可以在16k Hz采样率实现低延迟的实时丢包补偿，且能够恢复的丢包长度与生成音频的质量都超越了传统算法[1]。然而，全带音频（48k Hz采样率）带来的高计算复杂度，使得高采样率音频的低延迟实时深度PLC仍是一个具有挑战性的问题。

在最近的ICASSP 2024 深度丢包隐藏挑战赛中，我们提出的BS-PLCNet[2]取得了并列第一的优异成绩，能够在20ms延时内实时处理全带音频，但其仍是一个具有8.95G FLOPS的高计算复杂度的模型。为了进一步降低参数量与计算量，同时提高对于长时丢包的补偿效果，我们提出了改进的BS-PLCNet2。我们设计了双路径编码器结构，并在丢包恢复后引入了一个轻量级的后处理模块，以恢复语音失真并去除音频信号中的残留噪声。BS-PLCNet2只有BS-PLCNet 40%的参数量以及38%的计算量，在ICASSP 2024 PLC挑战盲集上获得了0.18的PLCMOS提升。

ICASSP2024 | BS-PLCNet: 基于多任务学习框架和多判别器的分频带丢包隐藏网络

BS-PLCNet 2

如图2所示，BS-PLCNet 2与BS-PLCNet遵循相同的设计思想，是一个频域模型，丢包音频经过STFT变换到频域，按照频率0-8K Hz与8-24K Hz分为两个频带，分别由宽带模块(Wide-band Module)和高频模块(High-band Module)处理。同时为节省计算量，后处理模块也仅对0-8K Hz的宽带做处理。

图1 BS-PLCNet 2模型总体结构

图2 (a)编码器结构 (b)解码器结构 (c)高频带处理模块结构 (d) 后处理模块结构

模型内蒸馏

由于因果的PLC模型仅能利用历史信息，与能够展望未来信息的非因果PLC模型相比，信息缺失不可避免的导致模型效果的下降。我们使用双路径卷积和模型内知识蒸馏来解决这个问题。类似的结构在自动语音识别(ASR)[3]和语音转换[4]中也产生了显著的效果。具体来说，双路径卷积基于深度可分离卷积，包含因果路径和非因果路径。在并行的深度卷积层中，通过修改深度卷积的填充模式，实现因果路径和非因果路径。在编码器的门控卷积模块和时频扩展卷积模块(TFDCM)中，所有时间方向上的卷积都被替换为双路径卷积，而其他模块保持不变并在非流式和流式推理中共享参数。在训练过程中，输入数据流并行通过两条不同的路径，并在编码器的输出计算蒸馏损失，使因果编码器输出尽可能接近非因果路径。

与师生（Teacher-Student）网络中典型的知识蒸馏不同，我们只在编码器的卷积层设计双路径，而其他层共享参数。因此，在训练过程中，解码器和瓶颈层可以同时接收因果输入和非因果输入，从而降低了知识迁移的难度。这种方法还允许我们在一个训练步骤中获得非因果与因果两个模型，避免了首先训练教师模型然后蒸馏学生模型的过程。采用模型内知识蒸馏策略，显著降低了训练成本。

网络优化与后处理

与BS-PLCNet相同，我们保留了生成对抗网络(GAN)架构。对于生成器，我们进行了以下改进。首先，我们用深度可分卷积层代替所有卷积层，以降低BS-PLCNet的计算复杂度。其次，修改TFDCM模块的层数。本文提出的层数是根据网络深度动态减少的，而不是采用[2]中固定的4层。随着神经网络层数的加深和特征维数的升高，膨胀卷积的层数相应减少，以适应更高维的信息，并允许更强地关注局部信息。最后，由于边际效应，反复堆叠同一层并不会带来明显的性能提升，经过实验，我们将三层F-T-LSTM替换为了单层F-T-GRU。

受多阶段语音增强网络的启发，我们还引入了一个后处理模块来处理潜在的失真。可能存在的噪音也在这个阶段被处理。考虑到整体计算复杂度的增加，后处理模块只处理0-8kHz频段，采用简单的基于GRU的结构。

实验

实验设置

实验数据：Librispeech[5],和第五届DNS竞赛数据集。
丢包仿真：如图3所示，Gilbert-Elliott模型使用两态一阶马尔可夫链来描述当前帧和下一帧的丢包状态，其中0表示无丢包，1表示存在丢包。如果当前帧传输正常，则下一帧丢失的概率为p。如果当前帧丢失，则下一帧不丢失的概率为q。通过设置p和q，可以将期望丢包率r控制为: r=p/(p+q)。这里我们设置p、q取10%-90%，丢包率小于50%。在第一个训练阶段，我们只模拟丢包。在第二训练阶段引入噪声(来自第五届DNS竞赛数据集)，SNR设置为10-20dB。

图3 丢包仿真的Gilbert-Elliott模型

测试集：ICASSP 2024 PLC Challenge盲测集和INTERSPEECH 2022 PLC Challenge盲测集。

实验结果

在表1中，我们对提出的方法在ICASSP 2024 PLC挑战赛盲测试集上进行了消融实验，并将其与在挑战赛中并列第一名的另外两个系统Team 1024K和BS-PLCNet进行了比较。对比S2与S3，改进的模型结构在复杂度大幅下降的同时保持了优秀的性能。S4在引入模型内蒸馏后PLCMOS从4.05显著提升到4.14。S5引入后处理模块提高了PLCMOS和DNSMOS，特别是BAK分数，而计算复杂度仅增加了0.11 GFLOPs。

表1. ICASSP 2024 PLC Challenge盲测集上的客观得分

在表2中，我们还使用Interspeech 2022盲测集将我们的系统与挑战赛中排名前三的系统(Team Kuaishou， LPCNet和PLCNet)进行了比较，我们的系统仍然具有明显优势。

表2. INTERSPEECH 2022 PLC Challenge盲测集上的客观得分

样例展示

样例1

未处理丢包音频

丢包补偿后音频

样例2

未处理丢包音频

丢包补偿后音频

参考文献

[1] L. Diener, S. Sootla, S. Branets, A. Saabas, R. Aichner, and R. Cutler, Interspeech 2022 audio deep packet loss concealment challenge, Interspeech, 2022.

[2] Z. Zhang, J. Sun, X. Xia, C. Huang, Y. Xiao, and L. Xie, BS-PLCNet: Band-split packet loss concealment network with multi-task learning framework and multi-discriminators, ICASSP, 2024.

[3] C. Liang, X.-L.Zhang, B. Zhang, D. Wu, S. Li, X. Song, Z. Peng, and F. Pan, Fast-U2++: Fast and accurate end-to-end speech recognition in joint CTC/attention frames, ICASSP, 2023.

[4] Z. Ning, Y. Jiang, P. Zhu, J. Yao, S. Wang, L. Xie, and M. Bi, DualVC: Dual-mode voice conversion using intra-model knowledge distillation and hybrid predictive coding, ICASSP, 2023.

[5] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, Librispeech: an ASR corpus based on public domain audio books, ICASSP, 2015.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428295&idx=1&sn=b8ddc9407421a5f3805715750164873f

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉