技术沙龙直播|3D-Speaker多模态说话人开源详解

文摘   科学   2024-05-20 19:13   浙江  

3D-Speaker是通义实验室语音团队贡献的一个结合声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。


该项目上线以来,受到了诸多开发者们的关注和喜爱,本次特别推出多种模态结合的新开源代码,并邀请三位代码贡献者工程师进行直播讲解。
分享嘉宾陈亚峰、王绘、程路遥
时间2024年5月22日晚 20:00-21:30

本项目同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究,供各位AI开发爱好者品鉴。


▎技术分享环节

NO.1 基于经典声学信息进行说话人和语种识别

3D-Speaker包含基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中,说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。代码提供多种数据增强算法,支持各SOTA模型多卡并行训练以及多种损失函数。
NO.2 结合视觉信息的说话人日志
除了传统的纯音频说话人日志路线,3D-Speaker开源了结合视觉信息的技术方案,通过同时挖掘音、视频特征,显著提高在复杂对话场景中的识别准确率。
NO.3 结合语义的说话人日志
音频中的说话人相关的语义信息不容易受复杂声学场景影响,3D-Speaker开源了相关语义说话人信息建模模块,并探索了语义信息结合的说话人日志技术。
NO.4 语义+视觉信息的说话人日志
3D-Speaker提出了一种将语义、视觉信息同时作用于基于聚类算法的说话人日志任务的统一框架,将多模态的信息统一建模为成对约束并应用到说话人日志任务中。
NO.5 3D-Speaker数据集开源
3D-Speaker同时开源了一个研究数据集3D-Speaker dataset,包含多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)信息的说话人数据集。

相关开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker




3D-Speaker数据集开源

3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset,涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本,适用于远近场、跨设备、方言等高挑战性的语音研究。

下载地址:
https://3dspeaker.github.io/
数据集论文:
https://arxiv.org/pdf/2306.15354.pdf


联系我们

欢迎对识别模型开源和应用感兴趣的研究人员和开发人员加入3D-Speaker开源社区交流群,共同探讨精进!







👇点击阅读原文,体验3D-Speaker模型

阿里语音AI
阿里巴巴通义实验室语音团队,基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验。