9月5日,在语音领域的年度盛会Interspeech闭幕式上,清华大学国家信息研究中心语音与语言技术团队的论文《CN-Celeb: Multi-Genre Speaker Recognition》荣获“ISCA Award for Best Paper Published in Speech Communication (2018-2022)”奖项。
Interspeech是语音领域规模最大、覆盖最广的年度学术会议,每年吸引大约2000-3000名参会者。今年的Interspeech 2024会议在希腊科斯岛举行,为期6天。在每年的Interspeech闭幕式上,会议的主办方——国际语音通讯协会(ISCA),会公布发表于其旗舰刊物《Speech Communication》上的最佳论文。为了保证公平性并反映论文的真实影响力,ISCA从过去2-6年间发表的论文中遴选出最具影响力的作品。因此,获奖论文都是经受住时间考验的杰出研究成果。本次获奖论文的评选时间范围为2018-2022年。获奖论文于2022年2月发表。该论文提出了“复杂场景说话人识别”这一全新的研究方向。在此之前,尽管说话人识别任务在特定测试集上已经取得了低于2%的等错误率,展现了优异的性能,但在实际应用中,表现却未能达到预期,难以推广应用。
研究团队发现,当时的研究未充分考虑实际应用中场景、年龄、设备、编码等因素的复杂性,因此未能真实反映说话人识别任务所面临的关键挑战,导致研究结论过于乐观,与现实情况脱节。
该论文主张将研究重心转向复杂场景下的说话人识别,以使研究更加贴近实际应用。为此,论文公开了一个多场景说话人识别数据库及对应的基线系统,并探索了多种可能的解决方案。自该论文发表以来,国内外众多研究团队将研究拓展至复杂场景领域,提出了元学习、场景自监督学习、隐空间对齐等多种新方法。这些研究不仅提升了说话人识别技术的鲁棒性,也深化了我们对说话人特性本身的理解。
https://www.sciencedirect.com/science/article/abs/pii/S0167639322000024