喜报！实验室获得第二届“声华杯”声学技术大赛多模态远距离拾音赛道冠军

文摘科技 2024-11-19 11:11 陕西

11月16日，由中国声学学会主办，华为终端有限公司赞助并承办的第二届“声华杯”声学技术大赛决赛在东莞华为溪村举办。本次大赛于2024年8月30日发布，分设多模态远距离拾音和智能眼镜防漏音系统设计两个赛题。

西工大音频语音与语言处理研究组（ASLP@NPU）研一刘子楷和研二王子谦两位同学组成的MSE小组参加了多模态远距离拾音赛题（赛题一）。按照初审打分成绩，综合考虑提交作品质量及实操性，大赛组委会评选出12支队伍入围决赛共同角逐最后的得奖名次。在11月16日下午主办方公布的结果中，实验室MSE小组从入围赛题一决赛的多支队伍中脱颖而出，一举获得该赛题冠军（一等奖）。

华为终端音频部部长刘凡帆（左）为刘子楷（中）和王子谦（右）同学颁奖

针对此次多模态远距离拾音赛题应用场景复杂、远场语音，人声信号较弱，以及方案低复杂度、低参数量、低时延要求，实验室团队基于SCNet做出优化，实现了一个因果的全频带低时延语音增强模型，同时，采用了基于Whisper表征损失和后端Wave2vec2 CTC损失的前后端联合优化方法。该模型降噪效果良好，计算成本较低，满足低时延的要求。

该模型使用三阶段训练策略，第一阶段为多判别器降噪预训练。该阶段的主要目的是使模型具备较强的降噪效果，同时使用Metric GAN，包括针对 Sig、Bak、Ovrl 的三个判别器，可以间接地对上述三个指标进行优化。第二阶段为语义感知训练。该阶段的主要目的是修补第一阶段引入的频谱失真，提高后端语音识别的效果。此阶段使用Whisper Encoder计算loss进行微调，不要文本抄本，因此可以在全量数据上进行微调。第三阶段为前后端联合优化。该阶段的主要目的是进一步提高后端语音识别的效果。此阶段使用Wav2vec2 CTC loss 进行微调，需要文本抄本，因此需要在部分有文本抄本的数据上进行微调。

据悉，此次获奖是实验室继上一届“声华杯”声学技术大赛语音增强赛道获得冠军后又一次卫冕冠军。

喜报！实验室获得首届“声华杯”声学技术大赛语音增强赛道冠军

实验室近期在语音增强方向上获得多项竞赛荣誉，包括2023年CHiME-7无监督域自适应对话语音增强赛道冠军、ICASSP2023 深度噪声抑制（DNS）竞赛个性化语音增强冠军、ICASSP 2024 丢包隐藏挑战赛（Deep PLC Challenge）冠军和ICASSP2024 语音信号改善（Speech Signal Improvement，SSI）挑战赛赛道一第二名，赛道二第三名等。

样例展示

远距离录音

拾音增强后

混响场景录音

拾音增强后

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648429028&idx=1&sn=b21d545cbabb22ec1e0371bf3087c421

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

喜报！实验室获得第二届“声华杯”声学技术大赛多模态远距离拾音赛道冠军

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉