喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

文摘科技 2024-09-06 17:38 希腊

CHiME (Computational Hearing in Multisource Environments) 挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起的一项重要国际赛事，重点围绕语音研究领域极具挑战的远场语音处理相关任务，今年已举办到第八届。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院等国际著名高校和研究机构，以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞、中科大等国内顶尖院校和研究所。

竞赛官网：https://www.chimechallenge.org/

图1 CHiME竞赛官方主页截图

本次 CHiME-8 研讨会作为 Interspeech 2024 的卫星会议，于当地时间 9 月 6 日在希腊科斯岛国际会议中心举办。会议赞助商包括亚马逊、Meta、微软和约翰霍普金斯大学。研讨会汇集来自语音增强、语音和说话人识别、计算听觉以及机器学习领域的众多研究人员，共同探讨在日常环境中语音处理的鲁棒性，即在声学环境嘈杂且声源的数量和性质未知的情况下，如何提高语音处理的稳定性和可靠性。

本次 CHiME-8 竞赛共包含三项任务：

DASR：重点关注远场会议的自动语音识别和说话人日志，强调在多种场景下的泛化能力。
NOTSOFAR：由微软主要负责组织，重点关注使用单个录音设备的远场说话人分离和自动语音识别，强调现实的对话场景。
MMCSG：由Meta主要负责组织，侧重于使用智能 Aria 眼镜记录的两人之间的自然对话。目标是使用音频、视频和 IMU 输入模式以流式方式获取带说话人标签的转录。

据竞赛官方宣布的结果，由黄凯勋（研二）、李越（研二）、王子谦（研一）、孙照凯（研一）、谢磊教授和合作方组成的西工大音频语音与语言处理研究组—腾讯天籁实验室联队（队名：NPU-TEA）分别在 MMCSG 任务的低时延赛道中取得第一名，高时延赛道中取得第二名；在 NOTSOFAR 任务的单通道与多通道赛道中均取得第二名。这是继去年实验室团队在CHiME-7竞赛语音增强赛道获得第一名之后在CHiME系列竞赛上又一次取得优异成绩。

喜报！实验室队伍获得CHiME-7无监督域自适应对话语音增强赛道冠军

图2 竞赛组织方Meta公布MMCSG获胜队伍

在研讨会上，黄凯勋同学代表团队受邀介绍了在 NOTSOFAR 与 MMCSG 任务上提交的方案（图3）。

图3 黄凯勋同学代表NPU-TEA联队进行方案分享

如图4所示，在 NOTSOFAR 任务中，团队构建了由语音分离（CSS）、语音识别（ASR）、说话人日志（SD）三个主要模块串联构成的系统。CSS 模块使用了 WavLM 加 conformer 的结构，将原始音频分离成三个无重叠的音频。ASR模块使用微调后的 Whisper-large v2，添加语音活动检测（VAD）与语言模型，对分离后的音频进行识别。SD 模块使用 ResNet293 作为说话人模型，根据 NME-SC 算法对说话人进行聚类。此外，还使用了组合 Rover 策略对多个单系统的结果进行融合。所提交的系统在单通道与多通道数据上分别取得了 18.7% 和 30.0% 的 tcpWER。

图4 NOTSOFAR 任务系统架构

如图5所示，在 MMCSG 任务中，团队提交了两种系统，分别是基于 SOT 和基于 CSS 的系统。其中在基于 SOT 系统中，音频会先经由自动增益控制（AGC）算法处理，然后通过 Beamformer 算法转为13通道，再输入 SOT ASR 模型中进行识别。在基于 CSS 的系统中，音频会首先经过 AGC 算法处理，再通过 CSS 分离成两个无重叠音频，经 ASR 识别后，由 SD 模块聚类出两个说话人。所提交的系统在时延小于 150ms、小于 350ms、小于 1000ms 和大于 1000ms 的测试集上分别取得了 16.8%、15.0%、14.4% 和 14.3% 的 WER。

图5 MMCSG 任务系统架构

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648428850&idx=1&sn=6657ebe8355dc04575375705ea3b1b17

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉