一、引言
伴随着Suno、Udio等闭源音乐生成模型的出圈,GenAI在音乐生成领域的能力也重新受到了关注。近期,清华、港中文等研究机构发布了采用双序列语言模型SongCreator的相关研究,旨在解决基于歌词生成包含声乐和伴奏的歌曲的挑战。
凭借其创新的技术,SongCreator能够将简单的歌词转化为具有丰富声乐和器乐伴奏的音乐作品。用户只需提供歌词,SongCreator就能自动生成歌曲的旋律和伴奏,甚至可以对已有的音乐片段进行编辑和调整,提供了一种全新的音乐制作和编辑方式。
二、核心技术架构
SongCreator系统包括一个歌词编码器、人声解码器和一个伴奏解码器。这个过程首先将音乐分解成更小、易于理解的部分,称为语义标记,然后将其转换为音频。这种方法使用到2个创新的技术,分别是双序列语言模型和一个附加注意力掩码策略。
● 双序列语言模型(Dual-Sequence Language Model,DSLM):该模型用于捕捉歌曲生成所需的人声和伴奏信息。通过对语言模型的特殊设计,能够理解歌词以及与之相关的音乐元素之间的关系,为准确生成歌曲的各个部分提供基础。
例如,对于一段给定的歌词 “阳光洒在大地上”,DSLM 可以根据其学习到的音乐知识和语言与音乐的关联,确定适合的旋律走向、节奏类型以及可能的伴奏风格等信息,以便后续生成对应的音乐部分。
● 附加的注意力掩码策略(Attention Mask Strategy):这是应用于 DSLM 的一种策略。它使得模型能够理解、生成和编辑歌曲,使其适用于各种与歌曲相关的生成任务。注意力掩码策略可以帮助模型在处理大量的音乐和语言信息时,聚焦于关键的部分,忽略不相关或次要的信息,从而更高效地生成高质量的歌曲。
比如在生成歌曲的过程中,对于歌词中强调的情感关键词,模型可以通过注意力掩码策略加强对这些关键词的关注,从而在音乐生成中更好地体现出相应的情感氛围。
三、功能介绍
实验表明,SongCreator 在八种不同的任务中都表现出色,尤其是在歌词创作歌曲或仅生成人声方面。
歌曲生成——仅提供歌词
在仅提供歌词的情况下,SongCreator 无论是用于生成仅包括人声音轨的版本,还是用于生成完整包含伴奏的歌曲,均展现出了卓越的表现能力。在转换后的作品中,人声部分的清晰度极高,并且富有强烈的节奏感。特别是在涉及完整歌曲生成的评测中,最终的成品歌曲都成功地实现了人声与伴奏的自然融合,两者相得益彰,未出现任何人声不清晰或伴奏模糊的问题。这凸显了 SongCreator 本次展现的最核心的功能。
So if I let down my guard, if I rip up my scars, and I show you my heart, am I beautiful? If I tell you my secrets, show my dark and my demons, tell me, what do you see? Am I beautiful?
✓ SongCreator在高质量中文数据集中的尝试
尤其值得注意的是,研究者们还使用大约 20,000 小时的高质量中文歌曲数据对SongCreator 进行了重新训练,以验证其生成其他语言高质量歌曲的能力。
研究者们提供知名华语歌曲的歌词,同时将SongCreator生成的结果和定位为专业AI音乐创作平台的Suno的生成结果进行了比较。
与Suno相比,SongCreator在多个方面的表现更为优异。首先,在旋律的忠实还原上,SongCreator明显更贴近原版的创作,这使得每一个音符和节拍都更耐人寻味,更能引起听者的共鸣。
其次在断句方面,SongCreator也展现出对中文标点规律的更深理解。在第二个例子中,尽管歌词在“我怀念的,是”中做了隔断,但Suno明显没能充分理解需要在”,“处稍作停顿,但SongCreator不仅能够准确地把握句子的节奏和呼吸,还能在合适的位置进行断句,让歌词的流畅度和语感大大提升。
另外,SongCreator在处理人声方面拥有显著的优势。通过先进的音频处理技术,SongCreator可以确保人声在混音中的清晰度和突出度,这不仅使得每一个歌词更易于辨识,也让整体的听觉体验更加丰富动听。
歌曲生成——人物、伴奏提示的生成
在这部分功能测试中,研究者提供来自同一片段的语音提示和伴奏提示各3s,SongCreator在这两个提示的基础上结合歌词就能扩写整首歌曲。生成的歌曲中,人声宛如天籁之音,轻盈地飘荡在流畅的伴奏之上,二者完美融合,和提供的伴奏片段相比毫无违和之感。
歌词:Too far from home, all I do is searching and wondering, never knew the one I hoped for is here waiting, do you feel the same?
Pre-determined Accompaniment:
SongCreator:
歌词:Don't know why I run, don't know why I hide, don't know why I try to keep these issues, running through my mind all to myself, don't know what I want, don't know who I am, don't even remember who I used to be, before the storm came crashing down.
Pre-determined Vocal:
SongCreator:
歌曲生成——歌曲续写
为了进一步展示 SongCreator 强大且多样化的音乐生成功能,研究者进一步进行了歌曲延续的测试,通过提供5秒左右的不同风格伴奏,让SongCreator进行延续创造。
SongCreator不仅能够准确地捕捉和理解每种音乐风格,还能在此基础上创新和延伸。无论是从节奏、旋律,还是和声的渐变,都显得非常自然流畅,丝毫没有出现突兀或不连贯的变化。整个音乐片段听起来仿佛是一气呵成的原生作品,毫无拼接痕迹。
Music Prompt:
SongCreator:
歌曲编辑
在这个板块的测试中,研究者针对一段现有的歌词进行了改动,替换和修改了一些特定的词句。当提供原曲作为参考时,SongCreator可以完全不受原歌词的限制和干扰,自动生成与更新后的新歌词完美契合的新歌曲。
不仅如此,SongCreator还具备极高的音乐理解力和创造力,能够在生成新歌曲的同时,保留原曲的风格和精髓。这意味着重新创作的歌曲既能传达出新的歌词含义,又不会失去原有的音乐情感和氛围,带给听众熟悉而又新鲜的听觉体验。无论是旋律、节奏还是伴奏,SongCreator都能巧妙地进行调整和再创作,使得新歌曲在各方面都达到高水准的音乐表现。
Original Song:
SongCreator:
四、总结
无论是从单个使用角度还是与Suno进行横向比较,SongCreator在音乐创作,尤其是人声生成方面展现了卓越优势。该系统集乐队与作曲家功能于一体,堪称一个迷你音乐团队,无疑是一个开创性的工具,将彻底重塑人们创作音乐的方式。这不仅降低了初学者的创作门槛,也极大提升了资深音乐家的创作效率与灵感。
不过作者也提到了,SongCreator存在一些局限性,包括目前无法通过文本描述控制输出歌曲的流派和风格,以及由于伴奏的干扰,BEST-RQ无法完全编码声乐信息,导致合成声乐的清晰度有限。同时,在安全性上,作者也进行了审慎的评估,包括滥用模仿某人的声音来生成虚假信息或深度伪造音频的可能性。项目作者承诺负责任地推进该领域的发展,并表示不会发布在完整数据集上训练的检查点。
此外,字节近期也发布了Seed Music(https://arxiv.org/pdf/2409.09214),随之而来的是即梦上线了音乐生成功能,在中文歌曲的生成质量非常高。后续我们也将关注这方面的动态,大家可以多多关注。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai