技术沙龙直播｜3D-Speaker多模态说话人开源详解

文摘科学 2024-05-20 19:13 浙江

3D-Speaker是通义实验室语音团队贡献的一个结合声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志，说话人识别和语种识别任务，开源了多个任务的工业级模型，训练代码和推理代码。

该项目上线以来，受到了诸多开发者们的关注和喜爱，本次特别推出多种模态结合的新开源代码，并邀请三位代码贡献者工程师进行直播讲解。

分享嘉宾：陈亚峰、王绘、程路遥

时间：2024年5月22日晚 20:00-21:30

本项目同时还开源了相应的研究数据集3D-Speaker dataset，涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本，适用于远近场、跨设备、方言等高挑战性的语音研究，供各位AI开发爱好者品鉴。

‍▎技术分享环节

NO.1 基于经典声学信息进行说话人和语种识别

3D-Speaker包含基于经典声学信息的说话人识别和语种识别相应的模型和算法。其中，说话人识别模块涵盖全监督说话人识别以及自监督说话人识别。代码提供多种数据增强算法，支持各SOTA模型多卡并行训练以及多种损失函数。

NO.2 结合视觉信息的说话人日志

除了传统的纯音频说话人日志路线，3D-Speaker开源了结合视觉信息的技术方案，通过同时挖掘音、视频特征，显著提高在复杂对话场景中的识别准确率。

NO.3 结合语义的说话人日志

音频中的说话人相关的语义信息不容易受复杂声学场景影响，3D-Speaker开源了相关语义说话人信息建模模块，并探索了语义信息结合的说话人日志技术。

NO.4 语义+视觉信息的说话人日志

3D-Speaker提出了一种将语义、视觉信息同时作用于基于聚类算法的说话人日志任务的统一框架，将多模态的信息统一建模为成对约束并应用到说话人日志任务中。

NO.5 3D-Speaker数据集开源

3D-Speaker同时开源了一个研究数据集3D-Speaker dataset，包含多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)信息的说话人数据集。

相关开源代码链接:

https://github.com/alibaba-damo-academy/3D-Speaker

‍▎3D-Speaker数据集开源

3D-Speaker同时还开源了相应的研究数据集3D-Speaker dataset，涵盖了10000人多设备(multi-Device)、多距离(multi-Distance)和多方言(multi-Dialect)的音频数据和文本，适用于远近场、跨设备、方言等高挑战性的语音研究。

下载地址：

https://3dspeaker.github.io/

数据集论文：

https://arxiv.org/pdf/2306.15354.pdf

‍▎联系我们

欢迎对识别模型开源和应用感兴趣的研究人员和开发人员加入3D-Speaker开源社区交流群，共同探讨精进！

‍

👇点击阅读原文，体验3D-Speaker模型

阿里巴巴通义实验室语音团队，基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术，实现“能听、会说、懂你”式的智能人机交互体验。