推荐一款高效文本生成音频（Text-to-Audio）模型：TANGOFLUX

科技 2025-01-05 00:00 浙江

推荐一款高效文本生成音频（Text-to-Audio）模型：TANGOFLUX。模型免费、开源，可本地部署，能够通过提示词生成各种音效。

TANGOFLUX 拥有 5.15 亿参数，能在一块 A40 GPU 上，仅用 3.7 秒生成长达 30 秒、44.1kHz 高质量音频。开发 TTA 模型的一个关键难题是如何让它的输出更符合用户偏好。与大语言模型（LLMs）不同，TTA 没有像 “正确答案” 或 “明确奖励” 这样的参考标准，难以建立清晰的偏好数据。为了解决这个问题，TANGOFLUX 采用了一种叫 CLAP-Ranked Preference Optimization（CRPO）的新方法。这个框架可以自动生成和优化偏好数据，从而逐步提高 TTA 模型的效果。事实证明，使用 CRPO 生成的音频偏好数据比其它模型表现更好。

参考文献：
[1] 项目地址：https://tangoflux.github.io/
[2] 下载地址：https://github.com/declare-lab/TangoFlux
[3] 试用地址：https://huggingface.co/spaces/declare-lab/TangoFlux

欢迎支持我的知识星球（NLP工程化）：Dify源码剖析及答疑，Dify对话系统源码，电子书籍报告下载，公众号所有付费资料。若微信群二维码过期，则加微信buxingtianxia21进群。

NLP工程化知识星球

NLP工程化资料群

NLP工程化

专注于对话系统领域的技术分享，重点写《Dify应用操作和源码剖析》专栏。

最新文章

Diffbot LLM Inference Server：智能推理服务器

Vision Parse：将PDF文档转换为Markdown的智能工具

Solana Agent Kit：连接AI Agent与Solana协议的开源工具包

JupyterLab Magic Wand：JupyterLab笔记本中的智能助手

Smolgrad：小型自动微分引擎

CodebaseToPrompt：将本地文件转换为大型语言模型（LLM）提示的工具

LLM Cursor Rules：在软件开发中用Cursor和LLM的最佳实践规则

ts-rs：Rust与TypeScript之间的桥梁

llmstxt-generator：网站内容整合工具，将网站内容爬取并整合成文本文件

Prodigy+ScheduleFree：一种新的优化器

SQLFlow：流数据处理的SQL工具

less_slow.cpp：学习如何编写更高效的C++代码

有大佬已经放出了 DeepSeek-V3 的Q4_k_m 量化版本了

中国科学技术大学的人工智能基础课

Devin.cursorrules：Cursor或Windsurf升级成接近Devin智能编程

一个基于 AI 驱动的软件开发多智能体平台：OpenHands

GitDiagram：将任何GitHub代码库一键转换成互动式图表

LLM合集：awesome-llm-apps

推荐一款高效文本生成音频（Text-to-Audio）模型：TANGOFLUX

Panel Graphic Walker：像操作Tableau一样直观探索数据的图形界面工具

FlexRAG：为科研人员和开发者量身打造的高性能RAG框架

LLM-as-an-Interviewer：一个通过模拟面试过程来评估LLMs能力的框架

Mainframe-Orchestra：多智能体团队协作框架

OS-Genesis：自动化GUI Agent轨迹构建工具

MEDEC数据集：首个医疗错误检测与纠正的临床笔记数据集

青龙字幕工具：基于Lance数据库格式的视频自动字幕生成工具，使用Gemini API进行

机器学习系统学习资源库：为机器学习系统新手提供的入门阅读列表

独立开发者出海工具箱：一个集合了独立开发者出海所需技术栈和工具的平台

ai-hedge-fund，投资决策AI Agent，探索使用AI做出交易决策

2024生成模型综述

Text-to-CAD：写文本 Prompt 就能生成一个 CAD 模型

GitHubDaily 2024 年在微博所分享的开源项目，已分类整理到 GitHub 上

Cherry Studio 是一款支持多个大语言模型（LLM）服务商的桌面客户端

5个开源的LLM构建RAG的方案

Agentarium：一个强大的Python框架，用于轻松管理和协调AI Agent

Alibaba LangEngine：基于 Java 的 AI 应用开发框架

基于Docling和Llama 3.2实现本地部署的一个Excel表格的RAG

Hugging Face正式发布smolagents新型agent框架

Hugging Face 的智能体分级

NeurIPS 2024 LLM推理教程代码：大型语言模型推理Tutorial

Harbor：一站式管理本地AI环境

AI赋能技术栈全景指南

Trend Finder - 全天候社交趋势捕手

Simple CSC：一款基于大型语言模型的中文拼写纠错工具

Resume Matcher 是一个基于 AI 的免费开源工具，用于优化简历

Termite：AI驱动的终端界面生成器

一款将模特穿着服装的图像还原成平铺商品图的工具：TryOffAnyone

计算帝国：1500年以来技术与权力谱系

华佗GPT-o1：一款专为复杂医学推理设计的人工智能模型

分享一款 GitHub 上开源的 LLM 应用评估框架：opik

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉