工具与测评 | AI音乐未来可期？双序列语言模型「SongCreator」

文摘 2024-09-27 17:56 广东

一、引言

伴随着Suno、Udio等闭源音乐生成模型的出圈，GenAI在音乐生成领域的能力也重新受到了关注。近期，清华、港中文等研究机构发布了采用双序列语言模型SongCreator的相关研究，旨在解决基于歌词生成包含声乐和伴奏的歌曲的挑战。

凭借其创新的技术，SongCreator能够将简单的歌词转化为具有丰富声乐和器乐伴奏的音乐作品。用户只需提供歌词，SongCreator就能自动生成歌曲的旋律和伴奏，甚至可以对已有的音乐片段进行编辑和调整，提供了一种全新的音乐制作和编辑方式。

二、核心技术架构

SongCreator系统包括一个歌词编码器、人声解码器和一个伴奏解码器。这个过程首先将音乐分解成更小、易于理解的部分，称为语义标记，然后将其转换为音频。这种方法使用到2个创新的技术，分别是双序列语言模型和一个附加注意力掩码策略。

● 双序列语言模型（Dual-Sequence Language Model，DSLM）：该模型用于捕捉歌曲生成所需的人声和伴奏信息。通过对语言模型的特殊设计，能够理解歌词以及与之相关的音乐元素之间的关系，为准确生成歌曲的各个部分提供基础。

例如，对于一段给定的歌词 “阳光洒在大地上”，DSLM 可以根据其学习到的音乐知识和语言与音乐的关联，确定适合的旋律走向、节奏类型以及可能的伴奏风格等信息，以便后续生成对应的音乐部分。

● 附加的注意力掩码策略（Attention Mask Strategy）：这是应用于 DSLM 的一种策略。它使得模型能够理解、生成和编辑歌曲，使其适用于各种与歌曲相关的生成任务。注意力掩码策略可以帮助模型在处理大量的音乐和语言信息时，聚焦于关键的部分，忽略不相关或次要的信息，从而更高效地生成高质量的歌曲。

比如在生成歌曲的过程中，对于歌词中强调的情感关键词，模型可以通过注意力掩码策略加强对这些关键词的关注，从而在音乐生成中更好地体现出相应的情感氛围。

三、功能介绍

实验表明，SongCreator 在八种不同的任务中都表现出色，尤其是在歌词创作歌曲或仅生成人声方面。

歌曲生成——仅提供歌词

在仅提供歌词的情况下，SongCreator 无论是用于生成仅包括人声音轨的版本，还是用于生成完整包含伴奏的歌曲，均展现出了卓越的表现能力。在转换后的作品中，人声部分的清晰度极高，并且富有强烈的节奏感。特别是在涉及完整歌曲生成的评测中，最终的成品歌曲都成功地实现了人声与伴奏的自然融合，两者相得益彰，未出现任何人声不清晰或伴奏模糊的问题。这凸显了 SongCreator 本次展现的最核心的功能。

So if I let down my guard, if I rip up my scars, and I show you my heart, am I beautiful? If I tell you my secrets, show my dark and my demons, tell me, what do you see? Am I beautiful?

✓ SongCreator在高质量中文数据集中的尝试

尤其值得注意的是，研究者们还使用大约 20,000 小时的高质量中文歌曲数据对SongCreator 进行了重新训练，以验证其生成其他语言高质量歌曲的能力。

研究者们提供知名华语歌曲的歌词，同时将SongCreator生成的结果和定位为专业AI音乐创作平台的Suno的生成结果进行了比较。

与Suno相比，SongCreator在多个方面的表现更为优异。首先，在旋律的忠实还原上，SongCreator明显更贴近原版的创作，这使得每一个音符和节拍都更耐人寻味，更能引起听者的共鸣。

其次在断句方面，SongCreator也展现出对中文标点规律的更深理解。在第二个例子中，尽管歌词在“我怀念的，是”中做了隔断，但Suno明显没能充分理解需要在”，“处稍作停顿，但SongCreator不仅能够准确地把握句子的节奏和呼吸，还能在合适的位置进行断句，让歌词的流畅度和语感大大提升。

另外，SongCreator在处理人声方面拥有显著的优势。通过先进的音频处理技术，SongCreator可以确保人声在混音中的清晰度和突出度，这不仅使得每一个歌词更易于辨识，也让整体的听觉体验更加丰富动听。

歌曲生成——人物、伴奏提示的生成

在这部分功能测试中，研究者提供来自同一片段的语音提示和伴奏提示各3s，SongCreator在这两个提示的基础上结合歌词就能扩写整首歌曲。生成的歌曲中，人声宛如天籁之音，轻盈地飘荡在流畅的伴奏之上，二者完美融合，和提供的伴奏片段相比毫无违和之感。

歌词：Too far from home, all I do is searching and wondering, never knew the one I hoped for is here waiting, do you feel the same?

Pre-determined Accompaniment：

SongCreator：

歌词：Don't know why I run, don't know why I hide, don't know why I try to keep these issues, running through my mind all to myself, don't know what I want, don't know who I am, don't even remember who I used to be, before the storm came crashing down.

Pre-determined Vocal：

SongCreator：

歌曲生成——歌曲续写

为了进一步展示 SongCreator 强大且多样化的音乐生成功能，研究者进一步进行了歌曲延续的测试，通过提供5秒左右的不同风格伴奏，让SongCreator进行延续创造。

SongCreator不仅能够准确地捕捉和理解每种音乐风格，还能在此基础上创新和延伸。无论是从节奏、旋律，还是和声的渐变，都显得非常自然流畅，丝毫没有出现突兀或不连贯的变化。整个音乐片段听起来仿佛是一气呵成的原生作品，毫无拼接痕迹。

Music Prompt：

SongCreator：

歌曲编辑

在这个板块的测试中，研究者针对一段现有的歌词进行了改动，替换和修改了一些特定的词句。当提供原曲作为参考时，SongCreator可以完全不受原歌词的限制和干扰，自动生成与更新后的新歌词完美契合的新歌曲。

不仅如此，SongCreator还具备极高的音乐理解力和创造力，能够在生成新歌曲的同时，保留原曲的风格和精髓。这意味着重新创作的歌曲既能传达出新的歌词含义，又不会失去原有的音乐情感和氛围，带给听众熟悉而又新鲜的听觉体验。无论是旋律、节奏还是伴奏，SongCreator都能巧妙地进行调整和再创作，使得新歌曲在各方面都达到高水准的音乐表现。

Original Song：

SongCreator：

四、总结

无论是从单个使用角度还是与Suno进行横向比较，SongCreator在音乐创作，尤其是人声生成方面展现了卓越优势。该系统集乐队与作曲家功能于一体，堪称一个迷你音乐团队，无疑是一个开创性的工具，将彻底重塑人们创作音乐的方式。这不仅降低了初学者的创作门槛，也极大提升了资深音乐家的创作效率与灵感。

不过作者也提到了，SongCreator存在一些局限性，包括目前无法通过文本描述控制输出歌曲的流派和风格，以及由于伴奏的干扰，BEST-RQ无法完全编码声乐信息，导致合成声乐的清晰度有限。同时，在安全性上，作者也进行了审慎的评估，包括滥用模仿某人的声音来生成虚假信息或深度伪造音频的可能性。项目作者承诺负责任地推进该领域的发展，并表示不会发布在完整数据集上训练的检查点。

此外，字节近期也发布了Seed Music(https://arxiv.org/pdf/2409.09214)，随之而来的是即梦上线了音乐生成功能，在中文歌曲的生成质量非常高。后续我们也将关注这方面的动态，大家可以多多关注。

关于LitGate

大家好，我是LitGate，一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例，以及已经沉淀的AI游戏创意demo，相信一定能让你大开眼界！

我们还有一个讨论群📣，如果你对AI创作感兴趣，或者有什么问题想要咨询，欢迎加入我们的讨论群，和大家一起交流学习！（PS：目前群内人数较多，为了有一个优质的讨论环境，请各位添加社区管理员企业微信账号邀请入群

更多精彩活动和功能筹备上线中，敬请期待~

关注我们，一起探索AI创作的无限可能吧！

新版官网地址：www.litgate.ai

LitGate

AI赋能游戏开发，一站式创作者社区 http://www.litgate.ai

最新文章

绫波丽的早餐约会：可灵1.6打破次元壁

Sam耍猴落幕，Sora圣诞首测：从期待到现实的全景剖析

万字字节AI全景：从豆包到全系产品布局的秘密

工具与测评 | Sora首日关停注册，我只能在网上‘拼图’体验

工具与测评 | Vidu 多主体一致性：一场视频生成的冒险

工具与测评 | 即梦AI发布全新视频生成模型：精准细节与多镜头切换引爆创作体验

工具与测评 | 用Cursor构建基于AI的搜索引擎实战教学

学术交流 | 大模型检索增强生成综述

神秘 AI 新贵？成立两年融资过亿美金，志在成为NPC的 “大脑” 缔造者

AI生产实践 | 从梦境到游戏：Oasis的探索与未来潜力

工具与测评 | 从视频风格化到特效创意，AI视频生成工具新功能大盘点

工具与测评 | 2024年50个热门LoRA模型推荐-Stable Diffusion

MiniMax、商汤科技、面壁智能、西湖心辰、声网都来了！RTE 大会「实时互动和大模型」专场开启报名

跑团新作亮相Steam新品节，AI跑团体验迎来新突破

小心！和你热聊的可能不是美女，也不是抠脚大汉，而是AI！(1.5万字解读Seed-TTS技术)

Ola Friend：字节试水 AI 智能体耳机，豆包能否打破硬件魔咒？

时事杂谈 | 大模型比作“人类”，如何成为利器

工具与测评 | AI音乐未来可期？双序列语言模型「SongCreator」

游戏实操课 | AI我用AI做游戏：打造2D角色生成工作流

学术交流 | ReferenceNet 简介及相关算法整理

视频主体一致性大突破：Vidu「主体参照」功能王炸更新

Flux.1 with ComfyUI：新的图像生成冲击波？（内附工作流）

工具与测评 | GPT-4o 更快了，但也更脏了

AI陪伴，不止聊天：《逆水寒》自捏友人新玩法测评

AI生产实践 | 基于大语言模型的海外KOL视频总结与问答

AI界疯狂推出新产品：大模型应用知识梳理

工具与测评 | 字节AI产品大盘点

工具与测评 | 万字长文研究TTS前沿动态

解密AI陪伴类产品趋势：技术进步与市场潜力

学术交流 | 人人都能成为Prompt工程师 - 方法篇

工具与测评 | 驱动万物：LivePortrait

AI战友来袭：《永劫无间》中的“最强辅助“与未来游戏革命

学术交流 | 手把手教你训练属于年轻人的第一个模型

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

线下纪实 | AI Summer School 游戏作品导览

Steam上的智能革新，AI如何玩转游戏新纪元？

工具与测评 | 可灵 vs LUMA ：谁是meme之王？

工具与测评｜换脸哪家强？12款AI照片合成软件深度测评

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉