喜报!实验室获得第二届“声华杯”声学技术大赛多模态远距离拾音赛道冠军

文摘   科技   2024-11-19 11:11   陕西  

11月16日,由中国声学学会主办,华为终端有限公司赞助并承办的第二届“声华杯”声学技术大赛决赛在东莞华为溪村举办。本次大赛于2024年8月30日发布,分设多模态远距离拾音和智能眼镜防漏音系统设计两个赛题。

西工大音频语音与语言处理研究组(ASLP@NPU)研一刘子楷和研二王子谦两位同学组成的MSE小组参加了多模态远距离拾音赛题(赛题一)。按照初审打分成绩,综合考虑提交作品质量及实操性,大赛组委会评选出12支队伍入围决赛共同角逐最后的得奖名次。在11月16日下午主办方公布的结果中,实验室MSE小组从入围赛题一决赛的多支队伍中脱颖而出,一举获得该赛题冠军(一等奖)。

华为终端音频部部长刘凡帆(左)为刘子楷(中)和王子谦(右)同学颁奖

针对此次多模态远距离拾音赛题应用场景复杂、远场语音,人声信号较弱,以及方案低复杂度、低参数量、低时延要求,实验室团队基于SCNet做出优化,实现了一个因果的全频带低时延语音增强模型,同时,采用了基于Whisper表征损失和后端Wave2vec2 CTC损失的前后端联合优化方法。该模型降噪效果良好,计算成本较低,满足低时延的要求。
该模型使用三阶段训练策略,第一阶段为多判别器降噪预训练。该阶段的主要目的是使模型具备较强的降噪效果,同时使用Metric GAN,包括针对 Sig、Bak、Ovrl 的三个判别器,可以间接地对上述三个指标进行优化。第二阶段为语义感知训练。该阶段的主要目的是修补第一阶段引入的频谱失真,提高后端语音识别的效果。此阶段使用Whisper Encoder计算loss进行微调,不要文本抄本,因此可以在全量数据上进行微调。第三阶段为前后端联合优化。该阶段的主要目的是进一步提高后端语音识别的效果。此阶段使用Wav2vec2 CTC loss 进行微调,需要文本抄本,因此需要在部分有文本抄本的数据上进行微调。
据悉,此次获奖是实验室继上一届“声华杯”声学技术大赛语音增强赛道获得冠军后又一次卫冕冠军。
喜报!实验室获得首届“声华杯”声学技术大赛语音增强赛道冠军
实验室近期在语音增强方向上获得多项竞赛荣誉,包括2023年CHiME-7无监督域自适应对话语音增强赛道冠军、ICASSP2023 深度噪声抑制(DNS)竞赛个性化语音增强冠军、ICASSP 2024 丢包隐藏挑战赛(Deep PLC Challenge)冠军和ICASSP2024 语音信号改善(Speech Signal Improvement,SSI)挑战赛赛道一第二名,赛道二第三名等。
样例展示

远距离录音

音增强后

混响场景录音

拾音增强后




欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!

“打造最开放、最前沿、最落地的人工智能实验室”


音频语音与语言处理研究组
发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。
 最新文章