SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

文摘 2024-10-31 18:00 北京

此前，硅基流动SiliconCloud上线了语音识别模型SenseVoice-Small（可免费使用），让开发者可以通过API（兼容OpenAI的API协议）快速接入到语音转文字类应用场景。

在获得Fish Audio商业授权后，SiliconCloud现在正式上线了推理加速版语音合成模型fishaudio/fish-speech-1.4（企业版），包含网络传输时间在内，让模型输出延迟低至200ms，实现实时语音合成，为你的生成式AI应用带来更高效的用户体验。

Playground传送门

https://cloud.siliconflow.cn/playground/text-to-speech/17885302608

API文档

https://docs.siliconflow.cn/capabilities/text-to-speech

感受一下SiliconCloud上的fish-speech-1.4的效果。值得一提的是，SiliconCloud支持的fish-speech-1.4 API支持提供平台开箱即用的8种预置音色，支持用户预置音色以及动态音色。

SiliconCloud上线fish-speech-1.4后，免去开发者的模型部署门槛与成本，只需轻松调用fish-speech-1.4 API就可接入有声读物、流媒体音频输出、虚拟助手等文字合成语音类场景。目前，fish-speech-1.4在平台上的价格为105元/百万UTF-8字节（UTF-8是一种字符编码方式，每个字符占用1到4个字节）。

当然，结合SiliconCloud上的SenseVoice-Small及平台上其他各类大模型，开发者可以开发端到端语音交互应用了。

fish-speech-1.4的特点

fish-speech-1.4在音色还原方面具有令人印象深刻的能力，尤其在保留说话者独特语气、语调变化以及自然停顿等细微情感表达上，为用户带来了更为生动、真实的语音体验。

同时，用户只需上传少量的样本数据，fish-speech-1.4便能迅速学习并克隆出相似的声音。这款工具不仅适用于视频配音，还可以生成独特的音频内容，满足音频创作者的多种需求。

具体而言，主要包括以下功能：

零样本 & 小样本TTS：输入10到30秒的声音样本即可生成高质量的TTS输出。
多语言 & 跨语言支持：只需复制并粘贴多语言文本到输入框中，无需担心语言问题。支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
无音素依赖：模型具备强大的泛化能力，不依赖音素进行TTS，能够处理任何文字表示的语言。
高准确率：在5分钟的英文文本上，达到了约2%的CER（字符错误率）和WER（词错误率）。

Token工厂SiliconCloud

Qwen2.5（7B）、Llama3.1（8B）等免费用

作为集合顶尖大模型的一站式云服务平台，SiliconCloud致力于为开发者提供更快、更便宜、更全面、体验更丝滑的模型API。

除了fish-speech-1.4，SiliconCloud已上架包括Stable Diffusion 3.5 Large、Llama-3.1-Nemotron-70B-Instruct、Qwen2-VL、InternVL2、Qwen2.5-Coder、Qwen2.5-Math-72B、Qwen2.5-7B/14B/32B/72B、FLUX.1、DeepSeek-V2.5、InternLM2.5-20B-Chat、BCE、BGE、SenseVoice-Small、Llama-3.1、GLM-4-9B-Chat在内的多种开源大语言模型、图片生成模型、代码生成模型、向量与重排序模型以及多模态大模型。

其中，Qwen2.5（7B）、Llama3.1（8B）等多个大模型API免费使用，让开发者与产品经理无需担心研发阶段和大规模推广所带来的算力成本，实现“Token 自由”。

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

http://mp.weixin.qq.com/s?__biz=MzI4OTQyNzA0Ng==&mid=2247533181&idx=1&sn=9c5e7564013b651f0f57701174e143a7

语音之家

助力AI语音开发者的社区

最新文章

上交大与上海人工智能研究所联合推出医学多语言模型，模型数据代码开源

CCF语音对话与听觉专委 “走进高校”系列活动—走进江苏大学

语音/音频处理学术速递[11.12]

诺奖AI成果开源了！ AlphaFold3代码人人可以免费下，Nature亲自撰文推荐

PersonaTalk：无需训练即可创建数字人，视频口型编辑超SOTA

智谱，让AI视频正式迈入“有声时代”

语音/音频处理学术速递[11.11]

AI语音招聘岗位合集

王仁华：“这是我们民族的事，应该自己闯出这条路！” | 先生

重磅！刚刚Sam Altman万字采访：AGI将在2025年实现，通往 AGI 的道路已经清晰可见

语音增强的跨域优化：并行还是级联？

文本图格式大一统！首个大规模文本边基准TEG-DB发布 | NeurIPS 2024

语音/音频处理学术速递[11.8]

【直播预告】Xmart•学生论坛丨刘濠赫：LDMs in audio decoding

港科大、中科大等推出最强扩散Transformer，「黑神话」级3A大作AI实时游戏生成！

语音/音频处理学术速递[11.7]

CNCC2024技术论坛“多模态大模型时代的语音音频技术：带来哪些机遇与挑战？”圆满举行

腾讯混元开源最大 MoE大模型

语音/音频处理学术速递[11.6]

技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞

语音/音频处理学术速递[11.5]

自回归量化连续语音合成，潜在扩散模型；多模态音频理解基准

倒计时3天，ISCSLP2024大会即将开幕！注册参会持续开放中

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

语音/音频处理学术速递[11.4]

AI语音招聘岗位合集

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

Meta发布全新后训练方式CGPO，编程水平直升5%

语音/音频处理学术速递[11.1]

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

SiliconCloud上线Fish Audio：一站式开发端到端实时语音应用

o1驾驶无人机后空翻，OpenAI开发者日惊掉下巴！2分钟爆改代码写App

语音/音频处理学术速递[10.31]

MaskGCT：登上GitHub趋势榜榜首的TTS开源大模型

博士招生机会！

智源研究院发布千万级多模态指令数据集Infinity-MM：驱动开源模型迈向SOTA性能

语音/音频处理学术速递[10.30]

语音/音频处理学术速递[10.29]

新扩散模型OmniGen一统图像生成，架构还高度简化、易用

可在嘈杂环境中识别声音，新型液态声学传感器模拟鲸鱼额隆

超越Transformer，全面升级！MIT等华人团队发布通用时序TimeMixer++架构，8项任务全面领先

开放下载丨超自然对话语音合成数据集NCSSD

对话语音合成大模型GPT-Talker: Generative Expressive CSS

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

语音/音频处理学术速递[10.28]

AI语音招聘岗位合集

7B新王登基！Zamba 2完胜同级模型，推理效率比Llama 3提升20%，内存用量更少

语音/音频处理学术速递[10.25]

直播预告丨RTE2024 第十届实时互联网大会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉