🍹 Insight Daily 🪺
Aitrainee | 公众号:AI进修生
Hi,这里是Aitrainee,欢迎阅读本期新文章。
我将向你展示一个精彩的项目,它可以让你从文本生成音乐。而且,只需使用普通的 GPU 内存,非常简单。我们将进行一步一步的教程,教你如何在本地安装,然后只需一个简单的文本提示,你就可以创建出色的高质量音乐。
这个项目,称为 Open Music(开放音乐)。在过去的一年中,我们看到了许多声称可以进行文本转音乐(TTM)的模型,但它们在质量上都存在问题,并且安装和运行也相当繁琐。
而现在基于扩散的文本转音乐模型逐渐受到关注,因为它们提供了一种创新的方法,从文本描述中合成音乐内容。实现这一生成过程中的高准确性和多样性需要大量高质量的数据,包括高保真音频波形和详细描述,而这些通常只占可用数据集的一小部分。
这个新范式或高质量音乐生成模型采用了一种质量感知训练策略,使生成模型在训练过程中能够辨别输入音乐波形的质量。它还利用了音乐信号的独特特性,首先适应并实施了扩散变换器(MDT)模型,展示了其在质量控制和增强音乐方面的独特能力。
我们将在本地系统上进行测试。首先创建一个虚拟环境,我将使用 Python 3.11 创建它。让我们等待创建完成,不会花太长时间,然后我将激活它。
接下来的步骤是确保安装 git lfs,因为我们需要从 git 下载模型和大文件。这个大文件系统也需要安装。
然后我们需要克隆 Open Music 的仓库。
克隆完还没有结束,还只需要一点时间来解析增量,所以请耐心等待。
增量解析完毕,现在正在过滤内容,正如我所说,这需要一点时间,所以我们必须耐心等待。这就是我们安装 git lfs 的原因,确保你安装了它,否则将无法正确下载。
让我们等待它完成安装,一切都已完成,
你可以忽略这些警告,这些对 Linux 来说并不重要。如果你使用 Windows,则可能需要再次检查这些文件是否已正确加载和下载。
下一步,快速执行 `ls -LTR`,你会看到有一个名为 Open Music 的目录。
我们需要做的事情之一是将其重命名为 QA MDT,这是该项目的要求,因为它使用了一些名为 QA MDT 的库。
完成后,下一步是安装所有先决条件,包括 torch、audio、Vision 等大量库,你可以从他们的 GitHub 仓库获取。
让我们等待它完成安装。如果你是全新安装,可能需要 2 到 3 分钟,所以请耐心等待。
现在所有先决条件都安装完成,
接下来,你需要做的就是进行推理。为此,只需创建一个 Python 文件,命名为任意名称,然后在你喜欢的编辑器中打开它。我将这个文件在 VS Code 中打开。
现在,你只需添加这三行代码,我们导入刚刚克隆的 QA MDT,然后通过扩散管道传递,并给出提示:我请求你制作现代合成器,创建未来感的音景。保存后,返回,接下来只需通过 `new do p` 运行这个 Python 文件。
我来运行一下。第一次运行时,你会收到一些警告,
然后它会下载一些模型,所以请耐心等待,这将需要几分钟来下载一些内容。它正在下载解码层等,稍等片刻。现在它正在下载采样器,所以请耐心等待。
好了,它完成了采样,并在同一目录中创建了一个名为 awesome.wav 的文件。
让我去那里,让我播放它。在播放这个音频文件之前,提醒一下,这是我们的提示:现代合成器,创造未来感的音景。好的,现在让我们听一下音频。
这真不错,不是吗?太棒了!
接下来我们再试一个例子。这次我给一个广告配乐,看看能生成什么。
现在听听广告配乐 ,
这真不错!
接下来再试一个。让我们尝试一些嘻哈音乐,可能我将其更改为 Hip Hop。把提示改为 Hip Hop,
接下来我将再次运行它。这次我不会展示整个过程,只会生成并播放它。让我们看看嘻哈音乐。这次让我播放。
这真不错!太棒了!
接下来,我尝试生成一些南亚的印度或巴基斯坦音乐,要求制作一首在城市里用 bansuri 笛子演奏的灵魂音乐,调子为 Yeman,
营造一个宁静的日落场景。请记住,这也取决于模型的训练。出于好玩,我来播放一下,
还不错,因为我认为模型并没有针对这个数据进行训练或微调,但它仍然能够生成一些东西。
无论如何,为了展示多样性,最后生成一些南美的音乐。为此,我要求生成阿根廷探戈乐器伴随的桑巴节奏。
我将巴西的元素与阿根廷的元素结合在一起。让我运行一下,然后我们播放。让我们等待。好的,检查一下南美音乐 。
酷!
最后,让我们尝试一段中国音乐。
我要求生成在宁静的传统中国园林音景中,唤起雾霭山晨的和平感的 ethereal aru 旋律。
我们将播放它。现在听听这段中国音乐 。
还不错!
所以,总的来说,你可以看到,如何轻松地仅通过几行代码在普通硬件上创建和生成音乐,完全免费。
🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。
[1] github:https://github.com/ivcylc/qa-mdt
[2] huggingface:https://huggingface.co/jadechoghari/openmusic
[3] https://www.youtube.com/watch?v=L4dIRvYJ8g
知音难求,自我修炼亦艰
抓住前沿技术的机遇,与我们一起成为创新的超级个体
(把握AIGC时代的个人力量)
点这里👇关注我,记得标星哦~