此前,硅基流动SiliconCloud上线了语音识别模型SenseVoice-Small(可免费使用),让开发者可以通过API(兼容OpenAI的API协议)快速接入到语音转文字类应用场景。
Playground传送门
https://cloud.siliconflow.cn/playground/text-to-speech/17885302608
API文档
https://docs.siliconflow.cn/capabilities/text-to-speech
fish-speech-1.4的特点
零样本 & 小样本TTS:输入10到30秒的声音样本即可生成高质量的TTS输出。
多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖:模型具备强大的泛化能力,不依赖音素进行TTS,能够处理任何文字表示的语言。
高准确率:在5分钟的英文文本上,达到了约2%的CER(字符错误率)和WER(词错误率)。
Token工厂SiliconCloud
Qwen2.5(7B)、Llama3.1(8B)等免费用
除了fish-speech-1.4,SiliconCloud已上架包括Stable Diffusion 3.5 Large、Llama-3.1-Nemotron-70B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-Coder、Qwen2.5-Math-72B、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、Llama-3.1、GLM-4-9B-Chat在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。