OpenMusic:新手友好!用AI轻松创作、普通GPU+几行代码生成高质量音乐 - 本地安装

科技   2024-09-24 23:57   湖南  

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

我将向你展示一个精彩的项目,它可以让你从文本生成音乐。而且,只需使用普通的 GPU 内存,非常简单。我们将进行一步一步的教程,教你如何在本地安装,然后只需一个简单的文本提示,你就可以创建出色的高质量音乐。

这个项目,称为 Open Music(开放音乐)。在过去的一年中,我们看到了许多声称可以进行文本转音乐(TTM)的模型,但它们在质量上都存在问题,并且安装和运行也相当繁琐。

而现在基于扩散的文本转音乐模型逐渐受到关注,因为它们提供了一种创新的方法,从文本描述中合成音乐内容。实现这一生成过程中的高准确性和多样性需要大量高质量的数据,包括高保真音频波形和详细描述,而这些通常只占可用数据集的一小部分。

这个新范式或高质量音乐生成模型采用了一种质量感知训练策略,使生成模型在训练过程中能够辨别输入音乐波形的质量。它还利用了音乐信号的独特特性,首先适应并实施了扩散变换器(MDT)模型,展示了其在质量控制和增强音乐方面的独特能力。

我们将在本地系统上进行测试。首先创建一个虚拟环境,我将使用 Python 3.11 创建它。让我们等待创建完成,不会花太长时间,然后我将激活它。

接下来的步骤是确保安装 git lfs,因为我们需要从 git 下载模型和大文件。这个大文件系统也需要安装。

然后我们需要克隆 Open Music 的仓库。

克隆完还没有结束,还只需要一点时间来解析增量,所以请耐心等待。

增量解析完毕,现在正在过滤内容,正如我所说,这需要一点时间,所以我们必须耐心等待。这就是我们安装 git lfs 的原因,确保你安装了它,否则将无法正确下载。

让我们等待它完成安装,一切都已完成,

你可以忽略这些警告,这些对 Linux 来说并不重要。如果你使用 Windows,则可能需要再次检查这些文件是否已正确加载和下载。

下一步,快速执行 `ls -LTR`,你会看到有一个名为 Open Music 的目录。

我们需要做的事情之一是将其重命名为 QA MDT,这是该项目的要求,因为它使用了一些名为 QA MDT 的库。

完成后,下一步是安装所有先决条件,包括 torch、audio、Vision 等大量库,你可以从他们的 GitHub 仓库获取。

让我们等待它完成安装。如果你是全新安装,可能需要 2 到 3 分钟,所以请耐心等待。

现在所有先决条件都安装完成,

接下来,你需要做的就是进行推理。为此,只需创建一个 Python 文件,命名为任意名称,然后在你喜欢的编辑器中打开它。我将这个文件在 VS Code 中打开。

现在,你只需添加这三行代码,我们导入刚刚克隆的 QA MDT,然后通过扩散管道传递,并给出提示:我请求你制作现代合成器,创建未来感的音景。保存后,返回,接下来只需通过 `new do p` 运行这个 Python 文件。

我来运行一下。第一次运行时,你会收到一些警告,

然后它会下载一些模型,所以请耐心等待,这将需要几分钟来下载一些内容。它正在下载解码层等,稍等片刻。现在它正在下载采样器,所以请耐心等待。

好了,它完成了采样,并在同一目录中创建了一个名为 awesome.wav 的文件。

让我去那里,让我播放它。在播放这个音频文件之前,提醒一下,这是我们的提示:现代合成器,创造未来感的音景。好的,现在让我们听一下音频。

这真不错,不是吗?太棒了!

接下来我们再试一个例子。这次我给一个广告配乐,看看能生成什么。

现在听听广告配乐 ,

这真不错!

接下来再试一个。让我们尝试一些嘻哈音乐,可能我将其更改为 Hip Hop。把提示改为 Hip Hop,

接下来我将再次运行它。这次我不会展示整个过程,只会生成并播放它。让我们看看嘻哈音乐。这次让我播放。

这真不错!太棒了!

接下来,我尝试生成一些南亚的印度或巴基斯坦音乐,要求制作一首在城市里用 bansuri 笛子演奏的灵魂音乐,调子为 Yeman,

营造一个宁静的日落场景。请记住,这也取决于模型的训练。出于好玩,我来播放一下,

还不错,因为我认为模型并没有针对这个数据进行训练或微调,但它仍然能够生成一些东西。

无论如何,为了展示多样性,最后生成一些南美的音乐。为此,我要求生成阿根廷探戈乐器伴随的桑巴节奏。

我将巴西的元素与阿根廷的元素结合在一起。让我运行一下,然后我们播放。让我们等待。好的,检查一下南美音乐 。

酷!

最后,让我们尝试一段中国音乐。

我要求生成在宁静的传统中国园林音景中,唤起雾霭山晨的和平感的 ethereal aru 旋律。

我们将播放它。现在听听这段中国音乐 。

还不错!

所以,总的来说,你可以看到,如何轻松地仅通过几行代码在普通硬件上创建和生成音乐,完全免费。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

参考链接:
[1] github:https://github.com/ivcylc/qa-mdt

[2] huggingface:https://huggingface.co/jadechoghari/openmusic
[3] https://www.youtube.com/watch?v=L4dIRvYJ8g                               

知音难求,自我修炼亦艰

抓住前沿技术的机遇,与我们一起成为创新的超级个体

(把握AIGC时代的个人力量)

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI进修生
AI算法工程师 / Prompt工程师 / ROS机器人开发者 | 分享AI动态与算法应用资讯,提升技术效率。
 最新文章