开源上新|通义语音处理技术ClearerVoice-Studio

文摘   科学   2024-12-06 10:52   浙江  

随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。

无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音,这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中,如何有效分离目标说话人的语音信号,避免其他干扰,一直是语音处理领域的难点和热点。

通义实验室开源 ClearerVoice-Studio,一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法,我们大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。

💡 ClearerVoice-Studio 能为您做什么?

  • 高效去除背景噪声,将嘈杂语音处理成高质量、清晰的语音信号;

  • 从复杂音频混合中轻松分离目标语音,满足多种语音处理需求;

  • 使用音视频结合的模型精确提取目标说话人的语音信号;

  • 使用模型训练和调优工具进行模型效果打磨;

📂 代码仓库

  • GitHub 仓库:ClearerVoice-Studiohttps://github.com/modelscope/ClearerVoice-Studio
  • 在线体验 Demo:Hugging Face Spacehttps://huggingface.co/spaces/alibabasglab/ClearVoice


核心模型与算法亮点

  • FRCRN 模型:在 2022 年 IEEE/INTER Speech DNS Challenge 中取得整体第二的优异成绩,展现出卓越的语音增强能力。
  • MossFormer 系列模型:在语音分离任务中表现卓越,首次超越 SepFormer,获得业内广泛认可。目前,MossFormer 框架已扩展至语音增强和目标说话人提取任务。基于 MossFormer2 的 48kHz 语音增强模型在有效抑制噪声的同时,大幅降低了语音失真。
我们致力于将这些先进模型和算法通过 ClearerVoice-Studio 平台开放给更多用户,希望为开发者、研究者和企业提供强大的语音处理工具,助力创新应用落地。

效果体验

点击以下链接即可轻松上手🔗https://huggingface.co/spaces/alibabasglab/ClearVoice
如何操作:
  1. 准备一段包含噪声的语音文件;
  2. 上传至指定页面;
  3. 一键处理后,您可以在线试听,也可以下载处理结果到本地。即刻获得清晰的音质、和卓越的降噪效果。
更多模型评测结果及技术细节,请访问 ClearerVoice-Studio 页面了解详情。
联系我们

🤝 加入 ClearerVoice-Studio 开源社区

ClearerVoice-Studio 是一个由社区开发者驱动的开源空间,我们深信协作的力量。您的每一份支持,都将推动语音处理技术更进一步!

🔗 支持我们的方式

  • 为 GitHub 仓库加星⭐,并分享给更多感兴趣的朋友;
  • 贡献代码,一起完善平台功能;
  • 提供反馈和使用案例,帮助我们不断改进;
  • 加入社区讨论,共创想法和技术创新。
让我们携手突破语音处理的边界,探索更清晰、更纯净的声音世界!
感谢您的支持与信任!❤️

相关文献参考:
【1】Zhao, Shengkui and Ma, Bin and Watcharasupat, Karn N. and Gan, Woon-Seng, “FRCRN: Boosting Feature Representation Using Frequency Recurrence for Monaural Speech Enhancement”, ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
【2】Zhao, Shengkui and Ma, Bin, “MossFormer: Pushing the Performance Limit of Monaural Speech Separation using Gated Single-head Transformer with Convolution-augmented Joint Self-Attentions”, ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
【3】Zhao, Shengkui and Ma, Bin et al, “MossFormer2: Combining Transformer and RNN-Free Recurrent Network for Enhanced Time-Domain Monaural Speech Separation”, ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).








👇点击阅读原文,直达代码仓库

阿里语音AI
阿里巴巴通义实验室语音团队,基于多模态大模型语音识别、语音合成、自然语言理解等 AI 技术,实现“能听、会说、懂你”式的智能人机交互体验。