最近想拍短视频,把视频号做起来。但对新手来说,真的很费事。话说AI能力这么强,能不能自动生成可用的视频效果呢?声音逼真程度很关键!
那种一听就是合成声音的,很难让人产生信任,对IP打造也没帮助。前几天出的Fish Audio效果就不错, 拟真程度很高了。比如下面这个视频,纯AI生成的。
声音克隆,语音合成,文本转语音(TTS)有很多,最近也好像卷起来了。这里汇总一些开源的文本转语音(TTS)模型。
GPT-SoVITS
支持英语、日语和中文 零样本文本到语音能力 集成工具包 GitHub: https://github.com/RVC-Boss/GPT-SoVITS
GPT-SoVITS,语音克隆神器!零样本也能秒变声线,多语言支持超给力。对新手友好,让创意无限发挥,真心好用!
Fish Speech v1.2
效果稳定,支持声音克隆 经过30万小时英语、中文和日语音频数据训练 在线版本可用 模型: https://huggingface.co/fishaudio/fish-speech-1.2 在线demo: https://fish.audio/zh-CN/
Fish Speech v1.2,太惊艳了!这TTS工具声音超自然,宛如真人。处理文本也超智能,让我每次使用都感叹不已,强烈推荐!
CosyVoice (阿里巴巴)
多语种、混合语言支持 音色和情感控制能力 在零样本语音生成、跨语言语音克隆和指令跟踪方面表现优秀
CosyVoice,真牛!音色自然得就像真人,各种场景都能应对自如。阿里出品,必属精品,强烈推荐给需要的朋友们!
SenseVoice (阿里巴巴)
FunAudioLLM框架的一部分 结合先进的语音理解和生成技术 适用于语音翻译、情感语音聊天、互动播客和富有表现力的有声读物朗读等 项目地址: https://fun-audio-llm.github.io GitHub: https://github.com/FunAudioLLM
SenseVoice,语音识别大牛!多语言、情感识别全搞定,效率还超高。
ChatTTS
对话式TTS,支持多人 支持中英文 韵律细腻,仿真程度高 音色不好固定 GitHub: https://github.com/2noise/ChatTTS 模型: https://huggingface.co/2Noise/ChatTTS/tree/main
Seed-TTS (字节跳动)
期货产品,还未开源模型或API 支持多种语言,包括英语和中文 可进行同语言和跨语言生成 能处理各种文本类型和情感表达 项目介绍: https://bytedancespeech.github.io/seedtts_tech_report/
Parler-TTS (Hugging Face)
可控制音调、速度、性别、噪音水平和情绪特征等 GitHub: https://github.com/huggingface/parler-tts 模型: https://huggingface.co/parler-tts
MetaVoice-1B
支持多语言 在英语处理上实现了情感语音节奏 GitHub: https://github.com/metavoiceio/metavoice-src
MARS5-TTS
可为体育解说、动漫等韵律复杂和多样化场景生成语音 GitHub: https://github.com/Camb-ai/MARS5-TTS
OpenVoice
原生支持英语、西班牙语、法语、中文、日语和韩语 灵活的语音风格控制和零样本跨语言语音克隆能力 GitHub: https://github.com/myshell-ai/OpenVoice
EmotiVoice
支持中英文双语 包含2000多种不同音色 GitHub: https://github.com/netease-youdao/EmotiVoice/blob/main/README.zh.md
这个列表展示了各种TTS模型的不同能力、语言支持和独特特性,反映了语音合成技术领域的多样性和快速发展。
如果现在没有合意的模型,那可以”让子弹飞“一会。
就这样了,如果觉得有用,请点赞收藏转发评论。欢迎关注我!