ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

文摘科技 2024-02-29 09:01 陕西

为促进驾驶场景中语音处理和识别研究，在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上，西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学以及中国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛（ICMC-ASR）。作为大会的旗舰赛事之一，ICMC-ASR发布了在新能源汽车内录制的100多小时多通道语音数据（单通道计算）以及用于数据增广的40小时噪声数据。挑战赛设有语音识别 (ASR)和语音分离和识别 (ASDR)两个赛道，分别使用字符错误率 (CER)和连接最小排列字符错误率 (cpCER)作为评价指标。

本次挑战赛吸引了国内外共计98支队伍参赛，并在两个赛道上收到了53个有效提交结果。竞赛总结论文“ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge”已被语音研究顶级会议ICASSP2024接收。现对该论文进行分享，包括竞赛举办的背景、所采用的数据集、赛道设置、比赛结果和各参赛队伍所采用的关键技术等。

赛事网址：https://icmcasr.org/

论文题目：ICMC-ASR: The ICASSP 2024 In-Car Multi-Channel Automatic Speech Recognition Challenge

合作单位：理想、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学、中国信息通信研究院

作者列表：王贺、郭鹏程、李越、张奥、孙佳耀、谢磊、陈伟、周盼、卜辉、徐昕、张彬彬、陈卓、巫健、王龙标、Eng Siong Chng、李荪

论文原文：https://arxiv.org/abs/2401.03473

相关链接：NPU-ASLP实验室10篇论文被ICASSP2024录用

发表论文截图

扫码直接看论文

背景动机

随着深度学习的不断发展，语音识别（ASR）技术取得了长足的进步，其性能也获得了大幅提升。然而ASR系统在实际复杂远距离拾音场景中的表现远未达到满意的效果，干扰来自背景噪声、混响、说话人重叠和需要适配各种麦克风阵列几何结构拓扑等。为了应对这些挑战，CHiME系列竞赛应运而生，竞赛的宗旨是通过鼓励多通道信号处理算法的研究和创新来促进鲁棒 ASR系统的发展。

语音交互已经变成车机系统不可或缺的组成部分。不同于智能家居或者会议等常见语音识别 (ASR)系统部署的场景，密闭且不规则的驾驶舱的声学环境是相对更加复杂的。此外，在驾驶过程中存在着各种噪声，如风声、引擎声、轮胎声、车载广播和音乐、多人交谈等。因此，如何利用语音处理和识别领域的最新技术来提高汽车ASR系统的鲁棒性是一个值得研究的重要问题。

在2022年，我们举办了智能驾驶舱语音识别挑战 (ICSRC)[1]，并发布了一个在新能源汽车中收集的20小时单通道评估集，为车载ASR提供了一个公开评测的平台。然而，在车载ASR系统的基准测试中仍然缺乏较大规模的实录数据。为了填补这一空白，我们在ICSRC成功举办的基础上推出了ICASSP 2024车载多通道自动语音识别 (ICMC-ASR)挑战赛，专注于复杂驾驶条件下的语音处理和识别。此外，ICMC-ASR数据集包括了一个超过100小时的车内实录多通道、多说话人的普通话对话数据和40小时的汽车内录制的多通道噪声音频（时长均以单通道计算）。ICMC-ASR挑战赛包括语音识别和语音分离与识别 (ASDR)两个赛道，针对车内多说话人聊天场景，分别使用字错误率 (CER)和连接最小排列字符错误率 (cpCER)作为评估指标。最终，ICMC-ASR挑战吸引了国内外98支团队参赛，并在两个赛道中收到了53个有效结果。其中，USTC-iflytek团队在ASR赛道上13.16%的CER和ASDR赛道上21.48%的cpCER获得双赛道冠军，相较于基线系统有显著提升。

ISCSLP 2022丨ICSRC 赛事结果公布

ICASSP2024丨车载多通道语音识别挑战赛排名结果公布

竞赛描述

数据集

ICMC-ASR挑战赛数据集为图1所示的新能源车内实录多通道中文语音数据，车内说话人坐在不同的位置，包括驾驶位、副驾驶位和两个后排座位。具体而言，4个分布式麦克风分别放置在四个座位对应车门上方，录制每个座位上的说话人的“远讲”数据。为了方便语音转录，每位说话人都佩戴了高保真耳机，录制得到“近讲”数据。由于驾驶场景的真实声学环境复杂，同时涉及各种噪声干扰，我们精心设计了不同录制条件来尽可能覆盖所有的驾驶场景。我们通过排列组合与驾驶相关的各种因素，包括驾驶道路 (市区街道和高速公路)、车辆速度 (停车、缓慢、中等和快速)、空调 (关闭、中档和高档)、车载音响 (关闭和开启)、驾驶位车窗和天窗 (关闭、开启三分之一和开启一半)、驾驶时间 (白天和夜晚)，来达到这一目的。最终，构成了60种不同的驾驶场景，囊括了大部分的车内声学环境。

图1 数据录制的新能源车和内嵌麦克风示意

最终录制的ICMC-ASR数据集共计包含超过100小时 (近讲音频)的汽车内聊天数据，分为训练（

\text{Train}

）集、验证（

\text{Dev}

）集、ASR赛道测试集 (

\text{Eval}_1

)和ASDR赛道评估集（

\text{Eval}_2

）。对于每个集合，都包括4通道的远场音频，但只有训练集包含近场音频。特别地，

\text{Eval}_1

包括真实的说话人日志 (speaker diarization)信息。相反地，

\text{Eval}_2

则不提供此信息，需要参赛者使用说话人日志技术对测试音频进行分割。此外，我们提供了一个40小时的噪声数据集（

\text{Noise}

），按照远场数据的录制设置进行，唯一的区别在于没有说话人声。表1展示了每个数据子集的详细信息。

表1 ICMC-ASR数据集的统计信息，包括近场音频的时长 (Duration)、会话数 (Session)、是否提供真实说话人日志 (GT SD)、转录文本 (Transcription) 以及近场音频 (Near-field)。

赛道设置

Track1 — 语音识别 (Automatic Speech Recognition, ASR)：在此赛道中，参赛者会得到测试集上的真实时间戳信息。该赛道的主要目标是构建基于多通道多说话人语音数据的鲁棒ASR系统。参赛者需要设计并构建能够有效融合不同通道信息、抑制噪声、处理多说话人重叠的系统。对于此赛道，ASR系统的准确性将通过字错误率（CER）来衡量。

Track2 — 语音日志与识别 (Automatic Speech Diarization and Recognition, ASDR)：与Track1不同，Track2在评估过程中不提供任何关于说话人和时间戳的先验信息，包括每个语句的分割和说话人标签以及每个会话中的总说话人数等。此赛道的参赛者需要设计一个既可以获取说话人日志又可以进行语音转录的系统。对于此赛道，我们采用连接最小排列字错误率 (cpCER) 作为ASDR系统的度量标准。

竞赛结果及讨论

表2展示了在本次ICMC-ASR挑战赛中取得优异成绩的团队以及基于WeNet工具包[11]的基线系统的主要技术点和结果。如查看完整的排行榜和详细的系统报告，请参阅我们的竞赛官方网站。我们分别计算了35支参与Track1的团队和18支参与Track2团队的所提交结果的CER和cpCER指标。据此，ICASSP2024 ICMC-ASR挑战赛的两个赛道的冠军均是USTC-iflytek团队，在Track1和Track2上分别取得了13.16%的CER和21.48%的cpCER。下面就各团队所使用的技术展开讨论，包括语音前端、ASR以及说话人日志三个方面。

基线系统：https://github.com/MrSupW/ICMC-ASR_Baseline

竞赛官方网站：https://icmcasr.org/

表2 两个赛道的Top系统和竞基线系统所使用的主要技术和结果。语音前端和ASR在两个赛道中都被应用，而说话人日志技术仅用于Track2。加粗的团队受邀提交ICASSP 2024的技术报告论文。

语音前端 大多数团队都在语音前端方面沿用了基线系统中使用的声学回声消除 (AEC)和独立矢量分析 (IVA)技术。基于此，一些团队整合了用于去混响的加权预测误差 (WPE)和分离说话人语音的引导源分离 (GSS)技术，例如RoyalFlush团队、FawAISpeech团队和HLT2023-NUS团队。此外，许多参赛团队也使用了基于神经网络 (NN)的语音前端降噪模型，包括MP-SENet [3]、DCCRN-VAE [8]和DEEP-FSMN [5]。特别地，USTCiflytek团队在GSS中使用能量和相位差异代替传统的最大信号噪声比 (SNR)标准进行通道选择，同时在波束形成器中使用递归平滑技术评估功率谱密度矩阵，为下游ASR提供了更高质量的单通道音频。

ASR Backbone 根据ICMC-ASR挑战赛不允许使用额外文本数据的规则，许多团队选择使用开源音频数据训练自监督学习 (SSL)模型来生成音频特征，然后将其输入主流ASR模型进行训练。HuBERT [4] SSL模型是最受欢迎的模型之一，在分析讨论的7支团队中，有4支均使用了HuBERT模型。其余的三支队伍，Nanjing Longyuan团队使用了Data2vec2 [6]作为SSL模型，并在训练过程中引入了噪声增广技术；USTC-iflytek团队对未标记数据迭代生成伪标签，并提出了针对口音优化的Accent-ASR模型；FawAISpeech团队提出了基于E-Branchformer和交叉注意力[12]的多通道ASR模型，没有使用SSL模型。

说话人日志 除Fosafer Research和Nanjing Longyuan团队，大多数团队使用基于神经网络的VAD模型，在说话人日志技术上选择了TS-VAD [13]并基于此进行改进。具体地，USTC-iflytek团队将TS-VAD模型扩展到多通道音频，提出并使用了Multi-Channel TS-VAD [2]；RoyalFlush团队、喜马拉雅语音团队和HLT2023-NUS团队采用了类似的方法，使用不同的基于神经网络的模型提取说话人表征，取代了传统TS-VAD中所使用的i-vector特征。

本赛事相关数据后续会开源，敬请关注。

参考文献

[1] Ao Zhang, Fan Yu, Kaixun Huang, Lei Xie, et al., “The ISCSLP 2022 Intelligent Cockpit Speech Recognition Challenge (ICSRC): Dataset, Tracks, Baseline and Results,” in Proc. ISCSLP. IEEE, 2022, pp. 507–511.

[2] Ruoyu Wang, Maokui He, Jun Du, Hengshun Zhou, et al., “The USTC-Nercslip Systems for the CHiME-7 DASR Challenge,” 2023.

[3] Ye-Xin Lu, Yang Ai, and Zhen-Hua Ling, “MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra,” 2023.

[4] Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, et al., “Hubert: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units,” IEEE/ACM TASLP, vol. 29, pp. 3451–3460, 2021.

[5] Shiliang Zhang, Ming Lei, Zhijie Yan, et al., “Deep-FSMN for Large Vocabulary Continuous Speech Recognition,” in Proc. ICASSP, 2018, pp. 5869–5873.

[6] Alexei Baevski, Arun Babu, Wei-Ning Hsu, and Michael Auli, “Efficient Self-Supervised Learning with Contextualized Target Representations for Vision, Speech and Language,” in Proc. ICML. PMLR, 2023, pp. 1416–1429.

[7] Brecht Desplanques, Jenthe Thienpondt, and Kris Demuynck, “ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN based Speaker Verification,” in Proc. Interspeech. 2020, pp. 3830–3834, ISCA.

[8] Yang Xiang, Jingguang Tian, Xinhui Hu, et al., “A Deep Representation Learning-based Speech Enhancement Method using Complex Convolution Recurrent Variational Autoencoder,” arXiv preprint arXiv:2312.09620, 2023.

[9] Jingguang Tian, Xinhui Hu, and Xinkang Xu, “Royalflush Speaker Diarization System for ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Challenge,” arXiv preprint arXiv:2202.04814, 2022.

[10] Hui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, and Qian Chen, “CAM++: A Fast and Efficient Network for Speaker Verification using Contextaware Masking,” arXiv preprint arXiv:2303.00332, 2023.

[11] Zhuoyuan Yao, Di Wu, Xiong Wang, et al., “WeNet: Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit,” 2021.

[12] Pengcheng Guo, He Wang, Bingshen Mu, Ao Zhang, and Peikun Chen, “The NPU-ASLP System for Audio-Visual Speech Recognition in MISP 2022 Challenge,” in Proc. ICASSP. IEEE, 2023, pp. 1–2.

[13] Ivan Medennikov, Maxim Korenevsky, Tatiana Prisyach, Yuri Khokhlov, et al., “Target-Speaker Voice Activity Detection: A Novel Approach for Multispeaker Diarization in A Dinner Party Scenario,” pp. 274–278, 2020.

欢迎关注ASLP实验室微信公众号，获取更多语音研究相关资讯！

“打造最开放、最前沿、最落地的人工智能实验室”

‍

http://mp.weixin.qq.com/s?__biz=MzA3NTQzNzM1Ng==&mid=2648427599&idx=1&sn=3cfdff6d39316a8be9db8ed8f5cb736e

音频语音与语言处理研究组

发布关于音频语音与语言处理研究组的最新研究成果、技术分享、新闻动态和活动等。

最新文章

IEEE SPL | StreamVoice+：端到端流式零样本语音转换

西工大ASLP实验室第五届年度聚会在西安成功举办！

这个国庆假期圈儿里都发生了啥？听一段对话缓(Jia?)解(Ju?)你的焦虑。

IEEE SLT2024 ｜ DualSep：用于实时车载语音分离的轻量级双编码器卷积递归网络

IEEE SLT2024 | StutteringSpeech：普通话口吃事件检测和自动语音识别挑战赛总结

IEEE SLT2024 | 源说话人追踪挑战赛（SSTC）NPU-TeleAI 联队冠军方案分享

科研快讯｜IEEE TASLP：音色和风格灵活组合的零样本音色克隆模型U-Style

IEEE SLT2024 | 低资源构音障碍语音唤醒挑战赛（LRDWWS）ASLP-小米联队冠军方案

INTERSPEECH2024 | SCDNet: 基于自监督学习表征的说话人转换检测

喜报！西工大-腾讯联队在CHiME-8 NOTSOFAR与MMCSG竞赛中取得佳绩

ACM MM | UniStyle: 联合说话风格描述和风格化语音生成的风格建模

INTERSPEECH2024 | 迈向无需复习低遗忘的语音识别模型微调：基于LoRA和Whisper的探究

INTERSPEECH 2024｜基于转录提示的高效音频大语言模型鲁棒语音识别

INTERSPEECH2024|文本和上下文感知的高表现力有声书合成

喜报！西工大ASLP实验室夺冠NCMMSC2024第二届视觉语音识别挑战赛

INTERSPEECH2024 | Vec-Tok-VC+: 双重训练策略下基于渐进式损失约束和残差增强的鲁棒零样本语音转换

INTERSPEECH2024 | 利用分层韵律建模实现富有表现力的零样本语音合成

IEEE SPL | Distil-DCCRN：利用特征知识蒸馏技术的小型DCCRN语音增强模型

INTERSPEECH2024 | AS-70: 用于语音识别和口吃事件检测的中文口吃语音数据集

INTERSPEECH2024 | RaD-Net 2：基于因果性蒸馏和复数轴向自注意力机制的两阶段音质修复模型

IEEE SPL | MMGER：利用大语言模型改进口音和语音识别的多模态多粒度生成式错误纠正方法

INTERSPEECH2024 | BS-PLCNet2: 利用模型内蒸馏的两阶段分频带丢包补偿网络

INTERSPEECH2024 | FreeV: 使用梅尔滤波器的伪逆矩阵，一行代码提升声码器性能

INTERSPEECH2024 | DualVC 3：利用LM生成伪上下文的端到端低延迟流式语音转换

Speech Com | Whisper-SV：将Whisper自适应于低数据资源的说话人验证

Interspeech2024｜基于离散语音单元的流式解码器语音识别

挑战赛结果公布 | ISCSLP2024 对话语音克隆挑战赛（CoVoC）

INTERSPEECH2024 | WenetSpeech4TTS: 12800小时中文大规模语音生成模型训练数据集

INTERSPEECH2024 | Single-Codec: 面向高性能语音合成的单码本语音编解码器

Demo | 基于大模型的超拟人TTS

2024年ASLP实验室“人工智能落地计划”暑期实习开启报名啦！

NPU-ASLP实验室14篇论文被Interspeech2024 录用

ACL2024 | StreamVoice：基于流式上下文感知语言建模的实时零样本语音转换

ISCSLP2024 对话语音克隆挑战赛（CoVoC）

IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

IEEE TASLP | 基于多层级时序-通道说话人检索的零样本语音转换

GPT-4o, 语音的 ChatGPT 时刻终于来了！

ICME2024｜利用多编码器和多系统融合提高唇语识别性能

ICME2024｜利用自监督模型层级表征进行多语种语音识别

基于LLM的语音识别——在1.1万小时开源中文数据上的探索

ICME2024 | 基于半监督对比学习的表现力语音合成

IEEE TASLP | 基于文本-语音跨模态表征的对话语音识别

IEEE TASLP | METTS：基于跨说话人跨语种情感迁移的多语种情感语音合成

ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

ICASSP2024 | 面向多种阵列拓扑的多通道语音识别模型：自动通道选择和空间特征融合

ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

ICASSP2024 | SELM: 基于离散表征和语言模型的语音增强

ASLP实验室祝您新春快乐～～ 1+10+13+58+68 = 成果丰硕的一年！

ICASSP2024 | 基于音频质量的多策略目标说话人提取

ICASSP2024 | SponTTS: 面向自发风格的语音合成与风格迁移

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉