旋律即所需!开源项目MG²重新定义音乐生成新范式

科技   2024-12-05 19:27   北京  


在人工智能音乐创作领域,如何在有限资源下生成高质量音乐一直是一个重要挑战。近日,开源模型 MG² 通过创新性的旋律引导机制,取得了突破性的进展。该模型以其独特的技术方案和卓越的性能表现,为 AI 音乐创作开辟了一条全新的发展路径。

以下是一个小测试,请你选择你认为是 AI 生成音乐的片段:

答案可以在论文 https://arxiv.org/pdf/2409.20196 章节 6.1 中找到。


模型创新:小巧高效,潜力巨大

MG² 模型采用了一种新颖的基于旋律引导的文本到音乐生成方法。MG² 用非常简单的方式和极其有限的资源,取得了出色的效果。

具体来说,MG² 采用了两阶段的技术方法:首先通过对比语言-音乐预训练(Contrastive Language-Music Pretraining,CLMP)方法,创新性地将文本与音频波形及其相关的旋律进行对齐,使得学习到的文本表示能够融合隐式的旋律信息。

其次,设计了基于检索增强的扩散模块(retrieval-augmented diffusion module),同时利用文本提示和检索到的旋律显式地引导扩散模型生成音乐表征,确保生成的音乐既能准确表达文本描述的内容,又能在旋律引导下保证音乐所需的美感和韵律。

值得注意的是,MG² 仅使用了不到开源 SOTA 模型 1/3 的参数量或 1/200 的训练数据,就实现了媲美甚至超越现有开源模型的性能。

▲ 模型框架图


多维度评估:客观与主观结合

为了全面评估 MG² 的性能,技术团队结合了客观实验指标与大量人类主观评估。从客观实验指标来看,MG² 模型在多个方面达到了 SOTA 水平:

1. 在模型效率方面,MG² 仅使用 416M 参数量和 132 小时的音乐训练数据,就达到了超越现有 SOTA 的性能。相比之下,其他模型要么参数量更大(如 Mustango 的 1.4B),要么需要更长的训练时间(如 AudioLDM2-Full 的 29510 小时)。

2. 在评估指标上,MG² 在多个关键指标上都达到了 SOTA 水平:
  • 在 MusicBench 数据集上,FAD 和 KL 指标分别达到 0.99 和 1.07,均为所有模型中最优
  • 在 MusicCaps 数据集上,FAD 为 1.91,KL 为 1.21,同样优于现有 SOTA 模型
  • IS 指标在两个数据集上也达到了具有竞争力的水平(2.11 和 2.62)

这些结果表明,MG² 不仅在生成质量上达到了 SOTA 水平,而且在计算效率和资源利用方面也具有明显优势。模型能够在较小的参数量和较短的训练时间下,实现与甚至超越现有模型的性能
▲ 音乐生成实验结果
在人类主观评估方面,项目团队邀请了多元化的评估群体,包括 125 名普通用户、18 名专业音乐人和 20 名短视频博主(来自抖音、B 站和小红书,粉丝量最多达到 77000),从多个维度对 MG² 生成的音乐进行了全面评估:
描述相关性:平均得分达到 3.88(满分 5 分),其中 76.55% 的评估者认为生成的音乐与文本描述高度相关。
用户满意度:普通用户的平均满意度达到 3.54 分,超过 60% 的用户对生成音乐表示满意。

专业品质:来自专业音乐人的评估显示,55.56% 的专业人士认为生成音乐具有较高的技术和艺术水平。

市场潜力:在短视频创作者群体中,75.72% 的博主认为 MG² 生成的音乐适合用于内容创作,46.43% 表示愿意付费使用,充分证明了模型的实际应用价值。
这些多维度的评估结果不仅验证了 MG² 在音乐生成质量上的优异表现,也展示了其在实际应用场景中的巨大潜力。


开放平台:共享资源,共享成果

为了让更多的创作者和开发者能够体验 MG² 的魅力,项目团队提供了以下平台和资源:

论文标题:

MG²:Melody Is All You Need For Music Generation

项目主页:

https://awesome-mmgen.github.io/

学术论文:

https://arxiv.org/abs/2409.20196

Github:

https://github.com/shaopengw/Awesome-Music-Generation

在线Demo:

https://mg2.vip.cpolar.cn/ (欢迎大家一键使用在线音乐生成服务)

详细视频介绍:

MG²:一键生成个性化音乐_哔哩哔哩_bilibili(https://www.bilibili.com/video/BV1K84FeBEqo/?spm_id_from=333.999.0.0&vd_source=5ac6038506ac5b47f2640964dc0ccb20)


项目进展与影响

MG² 于 2024 年国庆期间上线,发布以来获得了显著的关注和认可:

技术影响

a)截止 2024 年 11 月 27 日项目主页访问量突破 3700 次,访问者遍布全球

b)GitHub 仓库自发布以来获得 117 个 Star

c)已受邀接入 Huggingface Transformers 库,标志着项目的技术水平获得主流开发社区认可

国际社区反响

Reddit 社区:MG² 在 Reddit 的讨论 

https://www.reddit.com/r/StableDiffusion/comments/1gj18p2/mg%C2%B2_melody_is_all_you_need_for_music_generation/

YouTube:知名创作者(2.3万订阅)制作专题介绍视频,获得观众积极评价:

https://www.youtube.com/watch?v=PEj8GHajyA0



展望未来:开辟音乐创作的新天地

MG² 的出现,标志着人工智能在音乐创作领域的一次重要进展,为未来音乐产业的创新提供了新的可能性。项目团队相信,随着技术的不断进步,人工智能生成音乐将在个性化音乐创作、音乐推荐和智能作曲等方面发挥重要作用。

项目团队欢迎技术交流与合作,联系方式:

邮箱:shaopeng.wei@gxu.edu.cn
微信:gxu_wsp


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
 最新文章