CHiME (Computational Hearing in Multisource Environments) 挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起的一项重要国际赛事,重点围绕语音研究领域极具挑战的远场语音处理相关任务,今年已举办到第八届。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院等国际著名高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞、中科大等国内顶尖院校和研究所。
竞赛官网:https://www.chimechallenge.org/
图1 CHiME竞赛官方主页截图
本次 CHiME-8 研讨会作为 Interspeech 2024 的卫星会议,于当地时间 9 月 6 日在希腊科斯岛国际会议中心举办。会议赞助商包括亚马逊、Meta、微软和约翰霍普金斯大学。研讨会汇集来自语音增强、语音和说话人识别、计算听觉以及机器学习领域的众多研究人员,共同探讨在日常环境中语音处理的鲁棒性,即在声学环境嘈杂且声源的数量和性质未知的情况下,如何提高语音处理的稳定性和可靠性。
本次 CHiME-8 竞赛共包含三项任务:
DASR:重点关注远场会议的自动语音识别和说话人日志,强调在多种场景下的泛化能力。
NOTSOFAR:由微软主要负责组织,重点关注使用单个录音设备的远场说话人分离和自动语音识别,强调现实的对话场景。
MMCSG:由Meta主要负责组织,侧重于使用智能 Aria 眼镜记录的两人之间的自然对话。目标是使用音频、视频和 IMU 输入模式以流式方式获取带说话人标签的转录。
据竞赛官方宣布的结果,由黄凯勋(研二)、李越(研二)、王子谦(研一)、孙照凯(研一)、谢磊教授和合作方组成的西工大音频语音与语言处理研究组—腾讯天籁实验室联队(队名:NPU-TEA)分别在 MMCSG 任务的低时延赛道中取得第一名,高时延赛道中取得第二名;在 NOTSOFAR 任务的单通道与多通道赛道中均取得第二名。这是继去年实验室团队在CHiME-7竞赛语音增强赛道获得第一名之后在CHiME系列竞赛上又一次取得优异成绩。
喜报!实验室队伍获得CHiME-7无监督域自适应对话语音增强赛道冠军
在研讨会上,黄凯勋同学代表团队受邀介绍了在 NOTSOFAR 与 MMCSG 任务上提交的方案(图3)。
如图4所示,在 NOTSOFAR 任务中,团队构建了由语音分离(CSS)、语音识别(ASR)、说话人日志(SD)三个主要模块串联构成的系统。CSS 模块使用了 WavLM 加 conformer 的结构,将原始音频分离成三个无重叠的音频。ASR模块使用微调后的 Whisper-large v2,添加语音活动检测(VAD)与语言模型,对分离后的音频进行识别。SD 模块使用 ResNet293 作为说话人模型,根据 NME-SC 算法对说话人进行聚类。此外,还使用了组合 Rover 策略对多个单系统的结果进行融合。所提交的系统在单通道与多通道数据上分别取得了 18.7% 和 30.0% 的 tcpWER。
如图5所示,在 MMCSG 任务中,团队提交了两种系统,分别是基于 SOT 和 基于 CSS 的系统。其中在基于 SOT 系统中,音频会先经由自动增益控制(AGC)算法处理,然后通过 Beamformer 算法转为13通道,再输入 SOT ASR 模型中进行识别。在基于 CSS 的系统中,音频会首先经过 AGC 算法处理,再通过 CSS 分离成两个无重叠音频,经 ASR 识别后,由 SD 模块聚类出两个说话人。所提交的系统在时延小于 150ms、小于 350ms、小于 1000ms 和大于 1000ms 的测试集上分别取得了 16.8%、15.0%、14.4% 和 14.3% 的 WER。
图5 MMCSG 任务系统架构
欢迎关注ASLP实验室微信公众号,获取更多语音研究相关资讯!
“打造最开放、最前沿、最落地的人工智能实验室”