OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

科技 2024-09-24 23:57 湖南

🍹 Insight Daily 🪺

Aitrainee | 公众号：AI进修生

Hi，这里是Aitrainee，欢迎阅读本期新文章。

我将向你展示一个精彩的项目，它可以让你从文本生成音乐。而且，只需使用普通的 GPU 内存，非常简单。我们将进行一步一步的教程，教你如何在本地安装，然后只需一个简单的文本提示，你就可以创建出色的高质量音乐。

这个项目，称为 Open Music（开放音乐）。在过去的一年中，我们看到了许多声称可以进行文本转音乐（TTM）的模型，但它们在质量上都存在问题，并且安装和运行也相当繁琐。

而现在基于扩散的文本转音乐模型逐渐受到关注，因为它们提供了一种创新的方法，从文本描述中合成音乐内容。实现这一生成过程中的高准确性和多样性需要大量高质量的数据，包括高保真音频波形和详细描述，而这些通常只占可用数据集的一小部分。

这个新范式或高质量音乐生成模型采用了一种质量感知训练策略，使生成模型在训练过程中能够辨别输入音乐波形的质量。它还利用了音乐信号的独特特性，首先适应并实施了扩散变换器（MDT）模型，展示了其在质量控制和增强音乐方面的独特能力。

我们将在本地系统上进行测试。首先创建一个虚拟环境，我将使用 Python 3.11 创建它。让我们等待创建完成，不会花太长时间，然后我将激活它。

接下来的步骤是确保安装 git lfs，因为我们需要从 git 下载模型和大文件。这个大文件系统也需要安装。

‍然后我们需要克隆 Open Music 的仓库。

克隆完还没有结束，还只需要一点时间来解析增量，所以请耐心等待。

增量解析完毕，现在正在过滤内容，正如我所说，这需要一点时间，所以我们必须耐心等待。这就是我们安装 git lfs 的原因，确保你安装了它，否则将无法正确下载。

让我们等待它完成安装，一切都已完成，

你可以忽略这些警告，这些对 Linux 来说并不重要。如果你使用 Windows，则可能需要再次检查这些文件是否已正确加载和下载。

下一步，快速执行 `ls -LTR`，你会看到有一个名为 Open Music 的目录。

我们需要做的事情之一是将其重命名为 QA MDT，这是该项目的要求，因为它使用了一些名为 QA MDT 的库。

完成后，下一步是安装所有先决条件，包括 torch、audio、Vision 等大量库，你可以从他们的 GitHub 仓库获取。

让我们等待它完成安装。如果你是全新安装，可能需要 2 到 3 分钟，所以请耐心等待。

现在所有先决条件都安装完成，

接下来，你需要做的就是进行推理。为此，只需创建一个 Python 文件，命名为任意名称，然后在你喜欢的编辑器中打开它。我将这个文件在 VS Code 中打开。

现在，你只需添加这三行代码，我们导入刚刚克隆的 QA MDT，然后通过扩散管道传递，并给出提示：我请求你制作现代合成器，创建未来感的音景。保存后，返回，接下来只需通过 `new do p` 运行这个 Python 文件。

我来运行一下。第一次运行时，你会收到一些警告，

然后它会下载一些模型，所以请耐心等待，这将需要几分钟来下载一些内容。它正在下载解码层等，稍等片刻。现在它正在下载采样器，所以请耐心等待。

好了，它完成了采样，并在同一目录中创建了一个名为 awesome.wav 的文件。

让我去那里，让我播放它。在播放这个音频文件之前，提醒一下，这是我们的提示：现代合成器，创造未来感的音景。好的，现在让我们听一下音频。

这真不错，不是吗？太棒了！

接下来我们再试一个例子。这次我给一个广告配乐，看看能生成什么。

现在听听广告配乐，

这真不错！

接下来再试一个。让我们尝试一些嘻哈音乐，可能我将其更改为 Hip Hop。把提示改为 Hip Hop，

接下来我将再次运行它。这次我不会展示整个过程，只会生成并播放它。让我们看看嘻哈音乐。这次让我播放。

这真不错！太棒了！

接下来，我尝试生成一些南亚的印度或巴基斯坦音乐，要求制作一首在城市里用 bansuri 笛子演奏的灵魂音乐，调子为 Yeman，

营造一个宁静的日落场景。请记住，这也取决于模型的训练。出于好玩，我来播放一下，

还不错，因为我认为模型并没有针对这个数据进行训练或微调，但它仍然能够生成一些东西。

无论如何，为了展示多样性，最后生成一些南美的音乐。为此，我要求生成阿根廷探戈乐器伴随的桑巴节奏。

我将巴西的元素与阿根廷的元素结合在一起。让我运行一下，然后我们播放。让我们等待。好的，检查一下南美音乐。

酷！

最后，让我们尝试一段中国音乐。

我要求生成在宁静的传统中国园林音景中，唤起雾霭山晨的和平感的 ethereal aru 旋律。

我们将播放它。现在听听这段中国音乐。

还不错！

所以，总的来说，你可以看到，如何轻松地仅通过几行代码在普通硬件上创建和生成音乐，完全免费。

🌟希望这篇文章对你有帮助，感谢阅读！如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我，以便我用来评估创作方向。

参考链接：
[1] github：https://github.com/ivcylc/qa-mdt
[2] huggingface：https://huggingface.co/jadechoghari/openmusic
[3] https://www.youtube.com/watch?v=L4dIRvYJ8g

知音难求，自我修炼亦艰

抓住前沿技术的机遇，与我们一起成为创新的超级个体

（把握AIGC时代的个人力量）

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247494262&idx=1&sn=e704e61de374b1ecf4238f583862c280

AI进修生

AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯，提升技术效率。

Memfree：一个混合 AI 搜索引擎，输入输出支持多模态内容（知识库+联网混合Rerank）

面试大厂被怼：怎么连Attention都不会？

GPTMe：这个 AI 代理最简单，可以做任何事情！（控制浏览器、搜索、代码、视觉）

ComfyUI Party：将LLM与图片工作流集成，图片、语音、文本、视觉一体！（graphRAG、ollama）

Bolt.new：这款全新免费编码代理太棒了！轻松超越 v0 和 Cursor！（告别 ChatGPT、Claude）

Flux-1.1 Pro 免费体验：AI绘画最先进的模型刚刚问世！（击败 Flux-1、SD-3！）

Vertex AI + ClaudeDev + Aider：谷歌300美元额度，免费体验 Claude-3.5 API ！

刚刚！最佳语音识别 Whisper-large-v3-turbo 上线，速度更快（本地安装 + Whisper-web）

Aider（已升级）：Aider利用双模型架构做到85% SOTA得分！（架构师/编辑师助你实现编程新高度）

免费工具！如何用Napkins和Llama-3.2快速生成网页应用？

Molmo ：开源多模态LLM超越 GPT-4o（实际测试）

Ai-artifacts：免费使用o1模型！还有Claude Artifacts 功能，几秒生成全栈APP（10+编程任务测试）

全新Llama 3.2系列：性能提升明显，但真的是最优选择吗？（已测试)

谷歌 Gemini 1.5 Pro-002 与 Flash-2 发布：快速、优质、低价的AI新选择！

OpenMusic：新手友好！用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

本地AI文件管理器：AI驱动+私有LLM，免费整理你的文件库

Claude Dev（最新升级）：新增文件引用、视觉捕获和更多自定义功能

Qwen-2.5 + ClaudeDev + Aider：这套免费的AI编程工具链，简直太棒了！

快速打造AI应用！Taipy：只用Python，轻松构建生产级AI Web应用，功能强大还简单!

Mistral Small-2 全新发布！API免费用，商业模型大降价50%

Qwen2.5：13个新模型来袭！开源通用、编码、数学模型全解读，72B超越Llama 405B - 本地安装测试

g1：o1推理链开源实现，原理竟如此简单！解决 60-80% 的困扰LLM的简单逻辑问题

Vchitect 2.0：开源文本到视频生成模型，创作20秒高质量短视频 Vs Gen-3、Kling、CogVideoX-5B

Sentient Agent：让 AI 控制你的浏览器，一键完成任务！三行代码自动控制浏览器（填表、查股票、播放视频）

Llama 3.1 70B AQLM-PV版发布！大模型压缩后可在24GB显存GPU上本地运行！！

GameGen-O来了！只需一句话，生成你的梦幻开放世界游戏，AI一键生成“ 类黑神话 ”？

ClaudeDev 升级：全面支持 o1 & Gemini，升级你的开发体验！

DataGemma RAG 27B - 第一款挑战幻觉的模型 - 本地安装

Piiranha-v1 - 使用 AI 模型保护你的个人信息 - 本地安装

Pixtral 12B：本地部署、图像分析和OCR功能全解析

Chai-1模型助力药物研发！一键本地安装，让AI预测分子结构（生物学多模态LLM）

Amica 与 Ollama：语音识别与3D渲染结合的AI聊天助手 - 本地安装

LLaMA-Omni ：Llama-3.1构建的低延迟、高质量端到端语音交互模型，旨在实现 GPT-4o 级别的语音能力

KAN 2.0：MIT 的 “ AI炼金术 ” 能否让科学发现像刷抖音一样快？

升级Ollama！MiniCPM-V2_6图像识别模型上线，适用于手机上单张图片、多张图片和视频的 GPT-4V 级 MLLM

VSCode+Aider+Supermaven：打造免费开源的顶级AI开发环境，别再为Cursor花钱了！

每日AI 9/10：DeepSeek-Coder再进化！音频驱动Loopy、KubeAI Kubernetes 上私有化AI部署

Dark Idol Llama-3.1 8B：最强角色扮演AI，未审查版助你尽情创作、不受限制的互动体验

Crawl4AI：AI驱动的网页抓取神器，结合LLM实现自动化数据提取与处理

Deep Seek V2.5：新一代上线！结合编码与通用能力，超越前作

Yi-Coder 9B、1.5B：最佳小型开源编码LLM就在这里！（击败 DeepSeek、Qwen 及其他）

Reflection 70B（已全面测试）：这个开源 LLM 击败了 Claude 3.5 Sonnet 和 GPT-4O？

ClaudeDev（已升级）：Ollama、Groq全面支持！轻松集成AI工作流

首个100%开源专家混合模型，7B参数仅1B推理成本、开源MoE新选择！（附安装教程）

我的世界中诞生AI文明！1000个自主智能体协作建立经济、文化、宗教和政府

Composio神器登场！为AI代理提供100+集成工具，代码、搜索、API全搞定

Aider （升级版）：最强AI编程助手新版发布！更强大、支持Shell命令、剪切和缓存！

时序+大模型火了！67篇研究洞察，ICLR等顶会热议新方向（LLM Prompt、Agent、视觉）

每日AI：Vercel v0 太棒了！！MLE-Agent、专注RAG与工具调用优化的Command R+

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉