多语言合成:采用了总共超15万小时的数据训练,支持中英日粤韩5种语言的合成,合成效果显著优于传统语音合成模型。 极速音色模拟:仅需要3~10s的原始音频,即可生成模拟音色,甚至包括韵律、情感等细节。在跨语种的语音合成中,也有不俗的表现。 富文本或自然语言的细粒度控制:支持以富文本或自然语言的形式,对合成语音的情感、韵律进行细粒度的控制,合成音频在情感表现力上得到明显提升。
多语言识别:采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型,中文与粤语上提升50%以上。 富文本识别: 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。 推理速度:SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-large。
同音交传:模拟音色与情感的多语言翻译
强情感交互的语音对话
专属AI博客电台
CosyVoice
SenseVoice
CosyVoice开源仓库:https://github.com/FunAudioLLM/CosyVoice
CosyVoice在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M
SenseVoice开源仓库:https://github.com/FunAudioLLM/SenseVoice
SenseVoice在线体验:https://www.modelscope.cn/studios/iic/SenseVoice
开源仓库:https://github.com/FunAudioLLM/CosyVoice 模型地址: CosyVoice-300M:https://www.modelscope.cn/models/speech_tts/CosyVoice-300M CosyVoice-300M-SFT:https://www.modelscope.cn/models/speech_tts/CosyVoice-300M-SFT CosyVoice-300M-Instruct:https://www.modelscope.cn/models/speech_tts/CosyVoice-300M-Instruct 在线体验:https://www.modelscope.cn/studios/iic/CosyVoice-300M 小程序体验:
SenseVoice
开源仓库:https://github.com/FunAudioLLM/SenseVoice 模型地址:https://www.modelscope.cn/models/iic/SenseVoiceSmall 在线体验:https://www.modelscope.cn/studios/iic/SenseVoice 小程序体验:
点击阅读原文,直达项目开源主页