WXRedian | 阿里语音AI | 开源上新｜通义语音处理技术ClearerVoice-Studio

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。

无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音，这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中，如何有效分离目标说话人的语音信号，避免其他干扰，一直是语音处理领域的难点和热点。

通义实验室开源 ClearerVoice-Studio，一个集成语音增强、语音分离和音视频说话人提取等功能的语音处理框架。通过融合复数域深度学习算法，我们大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

GitHub 仓库：ClearerVoice-Studio （https://github.com/modelscope/ClearerVoice-Studio）
在线体验 Demo：Hugging Face Space （https://huggingface.co/spaces/alibabasglab/ClearVoice）

‍▎核心模型与算法亮点

FRCRN 模型：在 2022 年 IEEE/INTER Speech DNS Challenge 中取得整体第二的优异成绩，展现出卓越的语音增强能力。

MossFormer 系列模型：在语音分离任务中表现卓越，首次超越 SepFormer，获得业内广泛认可。目前，MossFormer 框架已扩展至语音增强和目标说话人提取任务。基于 MossFormer2 的 48kHz 语音增强模型在有效抑制噪声的同时，大幅降低了语音失真。

我们致力于将这些先进模型和算法通过 ClearerVoice-Studio 平台开放给更多用户，希望为开发者、研究者和企业提供强大的语音处理工具，助力创新应用落地。

点击以下链接即可轻松上手🔗：https://huggingface.co/spaces/alibabasglab/ClearVoice

如何操作：

更多模型评测结果及技术细节，请访问 ClearerVoice-Studio 页面了解详情。

‍▎联系我们

ClearerVoice-Studio 是一个由社区开发者驱动的开源空间，我们深信协作的力量。您的每一份支持，都将推动语音处理技术更进一步！

让我们携手突破语音处理的边界，探索更清晰、更纯净的声音世界！

感谢您的支持与信任！❤️