.01
.02
.03
Slow Transformer:负责解析文本中的全局语言结构,捕捉句子和语段中的复杂语言逻辑。 Fast Transformer:专注于提取细节和语音的声学特征,确保语音输出更自然、清晰。
.04
词错误率(WER):Fish Agent的WER为6.89%,远远低于CosyVoice的22.20%和F5-TTS的13.98%,显示出在不同语言和情境下的出色表现。 延迟:Fish Agent的延迟仅为150毫秒,这在实时对话中具备明显优势,适用于需要快速响应的场景。
.05
多语言对话助手:Fish Agent能轻松应对跨语言对话,为智能语音助手提供更自然的语音输出,不论是英语、中文还是其他语言的切换都游刃有余。 无障碍应用:对于需要听觉辅助的用户,Fish Agent能准确捕捉并生成不同语言的语音信息,为多语言环境中的无障碍应用提供支持。 语音克隆和语音合成:Fish Agent在语音克隆和语音合成方面表现优异,能够生成高度相似的用户声音,为个性化语音助手和语音导航等应用提供支持。
.06
.07
参考:
https://github.com/fishaudio/fish-speech