上海交通大学开源的非常牛音生成模型 F5-TTS

文摘 2024-10-25 09:16 湖北

项目简介

F5-TTS ：带有 ConvNeXt V2 的扩散变压器，训练和推理速度更快。

E2 TTS ：Flat-UNet Transformer，最接近纸面的复制品。

Sway Sampling ：推理时间流步进采样策略，大大提高性能

安装

克隆存储库：

git clone https://github.com/SWivid/F5-TTS.gitcd F5-TTS

使用您的 CUDA 版本安装 torch，例如：

pip install torch==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118pip install torchaudio==2.3.0+cu118 --extra-index-url https://download.pytorch.org/whl/cu118

安装其他包：

pip install -r requirements.txt

[可选] ：我们提供了Dockerfile ，您可以使用以下命令来构建它。

docker build -t f5tts:v1 .

开发

发出 Pull 请求时，请使用预提交来确保代码质量：

pip install pre-commitpre-commit install

这将在每次提交之前自动运行 linter 和格式化程序。

Manually run using: 手动运行使用：

pre-commit run --all-files

注意：某些模型组件对 E722 具有 linting 例外，以适应张量表示法

准备数据集

Emilia 和 Wenetspeech4TTS 的示例数据处理脚本，您可以定制自己的脚本以及model/dataset.py中的 Dataset 类。

# prepare custom dataset up to your need# download corresponding dataset first, and fill in the path in scripts
# Prepare the Emilia datasetpython scripts/prepare_emilia.py
# Prepare the Wenetspeech4TTS datasetpython scripts/prepare_wenetspeech4tts.py

关于微调#57的初步指导。

使用finetune_gradio.py进行Gradio UI 微调，请参阅#143 。

Wandb日志记录

默认情况下，训练脚本不使用日志记录（假设您没有使用wandb login手动登录）。

要打开 wandb 日志记录，您可以：

使用wandb login手动登录：在此处了解更多信息
通过设置环境变量以编程方式自动登录：在https://wandb.ai/site/获取 API KEY 并设置环境变量，如下所示：

在 Mac 和 Linux 上：

export WANDB_API_KEY=<YOUR WANDB API KEY>

在 Windows 上：

set WANDB_API_KEY=<YOUR WANDB API KEY>

此外，如果您无法访问 Wandb 并且想要离线记录指标，您可以按如下方式设置环境变量：

export WANDB_MODE=offline

推理

预训练模型检查点可以通过🤗 Hugging Face和🤖 Model Scope到达，或者使用inference-cli和gradio_app自动下载。

目前支持单生成30秒，即提示音频与生成的总长度。 inference-cli和gradio_app支持使用块进行批量推理。

为了避免可能的推理失败，请确保您已阅读以下说明。
较长的提示音频允许较短的生成输出。超过30s的部分无法正常生成。考虑使用提示音频 <15s。
大写字母将被逐个字母地读出，因此对于普通单词使用小写字母。
添加一些空格（空白：“”）或标点符号（例如“，”“.”）以明确引入一些停顿。如果在代码转换生成中跳过前几个单词（因为不同语言的速度不同），这可能会有所帮助。

CLI 推理

您可以在inference-cli.toml中指定所有内容，也可以使用标志覆盖。保留--ref_text ""将使 ASR 模型自动转录参考音频（使用额外的 GPU 内存）。如果遇到网络错误，考虑使用本地ckpt，只需在inference-cli.py中设置ckpt_file

对于更改模型，请使用--ckpt_file指定要加载的模型，

要更改 vocab.txt，请使用--vocab_file提供您的 vocab.txt 文件。

python inference-cli.py \--model "F5-TTS" \--ref_audio "tests/ref_audio/test_en_1_ref_short.wav" \--ref_text "Some call me nature, others call me mother nature." \--gen_text "I don't really care what you call me. I've been a silent spectator, watching species evolve, empires rise and fall. But always remember, I am mighty and enduring. Respect me and I'll nurture you; ignore me and you shall face the consequences."
python inference-cli.py \--model "E2-TTS" \--ref_audio "tests/ref_audio/test_zh_1_ref_short.wav" \--ref_text "对，这就是我，万人敬仰的太乙真人。" \--gen_text "突然，身边一阵笑声。我看着他们，意气风发地挺直了胸膛，甩了甩那稍显肉感的双臂，轻笑道，我身上的肉，是为了掩饰我爆棚的魅力，否则，岂不吓坏了你们呢？"
# Multi voicepython inference-cli.py -c samples/story.toml

项目链接

https://github.com/SWivid/F5-TTS
https://arxiv.org/abs/2410.06885
https://huggingface.co/SWivid/F5-TTS

扫码加入技术交流群，备注「开发语言-城市-昵称」

合作请注明

关注「GitHubStore」公众号

http://mp.weixin.qq.com/s?__biz=MzkxNjQ4MzMyOA==&mid=2247491471&idx=1&sn=b904640ff837fd457f899bc4b827d4f6

GitHubStore

分享有意思的开源项目

最新文章

从文档中提取结构化数据Documind

将Markdown转换为精美海报图片

AI旅行助手

实时语音交互数字人平台VideoChat

图像不适宜内容检测工具NSFW Detector

Logo 生成器

开源机器人自动化项目SimpleAutomation

从构思到成文帮你组织和撰写文档的多智能体系统Kiroku

无所不能先进的混合型人脸识别工具包DeepFace！

保留原排版的PDF文档翻译工具：PDFMathTranslate

自适应的网页抓取工具Scrapling

智能会议记录与分析工具Offmute

超高精度将图像或 PDF 转换为 Markdown 或 JSON

开源向量数据库性能对比: Milvus, Chroma, Qdrant

基于openai破解验证码

基于苹果MLX框架的视频字幕生成工具：MLX-Auto-Subtitled-Video-Generator

浏览器智能助手cerebellum

群控软件LinkAndroid

E2B桌面沙箱：为大型语言模型提供图形桌面环境的沙盒服务

AI会议助手MeetingMind

视频生成神器：genmoai-smol

序列建模利器：Google开源序列建模库

构建可扩展的智能Agent应用框架Bee Agent Framework

KAG：基于 OpenSPG 引擎的知识增强生成框架

能在手机上实时运行的超轻量级虚拟人

AMT-APC自动钢琴伴奏

优雅阅读实时热门新闻的工具NewsNow

超快速的语音转文字工具whisper-turbo-mlx

wechat-article-exporter：微信文章批量下载

开源的飞书文档下载 Chrome 插件：Cloud Document Converter

功能颇为丰富的开源工具：eSearch

微型赛车Racer：开源的微型遥控赛车项目

实时AI图像生成器BlinkShot

上海交通大学开源的非常牛音生成模型 F5-TTS

微软推出的用于1bit大型语言模型推理的官方框架BitNet

一款虚拟试衣应用Virtual Try-On App

文档布局分析工具DocLayout-YOLO

可视化爬虫平台kspider

语义查询引擎LOTUS

Semantic Cache：基于语义相似性而非字面相等的模糊键值存储工具

基于知识图谱的智能问答系统：fact-finder

一款AI agent和RAG应用的监控分析工具：Laminar

Knowledge Table：简化从非结构化文档中提取和探索结构化数据

HAMi：针对 Kubernetes 的异构 AI 计算虚拟化中间件

跨多服务器构建和部署软件komodo

基于视觉模型的 PDF 分块处理工具Chunk My Docs

一款匿名聊天浏览器插件WebChat

从PDF和图片中智能识别并提取表格数据

MGDebugger：多粒度LLM代码调试工具

快速构建强大AI Agent的工具AgentStack

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉