SiliconCloud上线Fish Audio:一站式开发端到端实时语音应用

文摘   2024-10-31 18:00   北京  

此前,硅基流动SiliconCloud上线了语音识别模型SenseVoice-Small(可免费使用),让开发者可以通过API(兼容OpenAI的API协议)快速接入到语音转文字类应用场景。

在获得Fish Audio商业授权后,SiliconCloud现在正式上线了推理加速版语音合成模型fishaudio/fish-speech-1.4(企业版),包含网络传输时间在内,让模型输出延迟低至200ms,实现实时语音合成,为你的生成式AI应用带来更高效的用户体验。

  Playground传送门

https://cloud.siliconflow.cn/playground/text-to-speech/17885302608

  API文档

https://docs.siliconflow.cn/capabilities/text-to-speech

感受一下SiliconCloud上的fish-speech-1.4的效果。值得一提的是,SiliconCloud支持的fish-speech-1.4 API支持提供平台开箱即用的8种预置音色,支持用户预置音色以及动态音色。
SiliconCloud上线fish-speech-1.4后,免去开发者的模型部署门槛与成本,只需轻松调用fish-speech-1.4 API就可接入有声读物、流媒体音频输出、虚拟助手等文字合成语音类场景。目前,fish-speech-1.4在平台上的价格为105元/百万UTF-8字节(UTF-8是一种字符编码方式,每个字符占用1到4个字节)。
当然,结合SiliconCloud上的SenseVoice-Small及平台上其他各类大模型,开发者可以开发端到端语音交互应用了。


fish-speech-1.4的特点


fish-speech-1.4在音色还原方面具有令人印象深刻的能力,尤其在保留说话者独特语气、语调变化以及自然停顿等细微情感表达上,为用户带来了更为生动、真实的语音体验。
同时,用户只需上传少量的样本数据,fish-speech-1.4便能迅速学习并克隆出相似的声音。这款工具不仅适用于视频配音,还可以生成独特的音频内容,满足音频创作者的多种需求。
具体而言,主要包括以下功能:
  • 零样本 & 小样本TTS:输入10到30秒的声音样本即可生成高质量的TTS输出。

  • 多语言 & 跨语言支持:只需复制并粘贴多语言文本到输入框中,无需担心语言问题。支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。

  • 无音素依赖:模型具备强大的泛化能力,不依赖音素进行TTS,能够处理任何文字表示的语言。

  • 高准确率:在5分钟的英文文本上,达到了约2%的CER(字符错误率)和WER(词错误率)。


Token工厂SiliconCloud

Qwen2.5(7B)、Llama3.1(8B)等免费用


作为集合顶尖大模型的一站式云服务平台,SiliconCloud致力于为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

除了fish-speech-1.4,SiliconCloud已上架包括Stable Diffusion 3.5 LargeLlama-3.1-Nemotron-70B-InstructQwen2-VL、InternVL2Qwen2.5-Coder、Qwen2.5-Math-72BQwen2.5-7B/14B/32B/72BFLUX.1DeepSeek-V2.5InternLM2.5-20B-ChatBCE、BGESenseVoice-SmallLlama-3.1GLM-4-9B-Chat在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。

其中,Qwen2.5(7B)、Llama3.1(8B)等多个大模型API免费使用,让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本,实现“Token 自由”。

永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章