整理自 | 字节跳动技术团队、豆包大模型团队、机器之心
订、阅 | 010-86092062
当AI与音乐这一充满魅力的艺术形式相遇,精彩就此开启。近日,字节跳动豆包大模型团队全新推出了Seed-Music,助力人们在音乐创作领域探索更多可能性。
Seed-Music是一个具备灵活控制能力的音乐生成模型家族。它巧妙地将语言模型与扩散模型的优势相结合,并融入作曲工作流之中,适用于小白、专业人士的不同音乐创作场景。
本文将深入解读Seed-Music的技术能力,揭示其在音乐生成和编辑方面的突出表现。
Seed-Music官网:https://team.doubao.com/seed-music
AI音乐难点重重
Seed-Music放新招
虽说AIGC很火,但相较于语音合成、文本生成,音乐生成面临着更为复杂的挑战。目前,业界在AI音乐领域的研究主要集中在以下几个核心问题:
音乐信号的复杂性
音乐信号包含多个重叠音轨、丰富的音调和音色以及广泛的频率带宽,不仅要保持短期旋律的连贯性,还要在长期结构上展现出一致性。
评估标准的缺乏
音乐作为一种开放、主观的艺术形式,缺乏一套通用的问题表述和用于比较的黄金指标,评估局限性大。
用户需求的多样性
不同的用户群体,如音乐小白、音乐初学者、资深音乐人等,对音乐创作的需求差异很大。
无论是传统的音乐辅助创作工具,还是当下热门的AI音乐生成的研究和产品,面向上述问题均还处于摸索阶段。
比如针对音乐信号复杂性,Google、Meta、Stability AI等各家在音频、演奏、曲谱层面上做了建模尝试,效果各有优缺,而且各家的评估方法均有局限,人工评测仍必不可少。
面对这些挑战,字节Seed-Music采用了创新的统一框架,将语言模型和扩散模型的优势相结合,并融入符号音乐的处理。
通过官方视频展示,我们发现,与其他音乐模型相比,Seed-Music能更好地满足不同群体的音乐创作需求。
满足多元需求
专门提供高灵活编辑
据豆包大模型团队官网介绍,Seed-Music是一个具有灵活控制能力的音乐生成系统,包含可控音乐生成、谱转曲、词曲编辑、零样本人声克隆四大核心功能,具体涵盖十种创作任务。
01
Lyrics2Song 可控音乐生成
Lyrics2Song功能包含“1分钟片段生成”、“3分钟全曲生成”、“歌曲仿写”以及“纯器乐生成”这四种音乐生成任务。
只需输入一些简单的文本指令,如音乐风格、歌词、情绪、节奏等,Seed-Music就能快速生成一段与之相符的AI音乐。
除了文本提示外,Seed-Music还能基于参考音频进行歌曲仿写。在下面的demo中,以英文歌曲音频为参考,生成听感高度相似的中文音乐,展现了Seed-Music在跨语言歌词创作方面的能力。
02
Lyrics2Leadsheet2Song 谱转曲
lead sheet即“领谱”,通常包括歌曲的主旋律、歌词以及和弦标记等信息,它就像是一张音乐地图或指南,用于指导演奏者或歌手进行表演。
Seed-Music将领谱集成到AI辅助创作的工作流程中,增强了音乐创作的可解释性和可控性,旨在帮助专业音乐人提升效率,专注于音乐的创意表达。
对于专业音乐人来说,使用AI工具辅助创作,最大痛点莫过于无法对音乐进行编辑。Seed-Music创新点之一,在于能通过lead sheet来编辑音乐,这增加了音乐创作可解释性。
无论是基于歌词生成领谱、从领谱到完整演奏的生成,还是从领谱到声乐的演绎,音乐家们都可直接在lead sheet上进行编辑和调整,轻松对音符的音高、时长、位置以及节奏的快慢进行调整,从而可视化地控制音乐的创作过程。
03
Music Editing 词曲编辑
基于扩散模型实现的Music Editing能够精确对歌词或旋律进行局部改编,并确保编辑区域的平滑过渡。
比如,在一首歌曲中,创作者想要把某句歌词从“一捧黄河水”改成“一捧长江水”,同时希望保持旋律和伴奏的连贯性,Music Editing就可以轻松做到,而且效果自然。
04
Singing Voice Conversion 零样本人声克隆
零样本人声克隆也是Seed-Music的一大创新,模型无需针对特定音色进行大规模训练。创作者只需要使用自己10秒的语音(支持清唱或者说话)作为输入,系统便可模仿指定音色生成完整的歌曲。
这使得创作者无需花费大量时间进行录音,就能快速预览声音效果,从而拓宽了音乐创作的边界。
惊喜的是,Seed-Music能将中文人声输入转换为英文声乐输出,实现了跨语种人声克隆,扩大了音乐小白们的创作空间。
统一框架
实现高质量音乐生成
那为什么Seed-Music能做到生成高质量音乐、提供灵活编辑能力呢?
来自豆包大模型团队的研究者们表示,这主要得益于统一框架,关键技术贡献如下:
Seed-Music 架构
根据官方论文,如上图所示,从高层次来看Seed-Music有着统一的音乐生成框架,主要包含以下三个核心组件:一个表征模型,用于将原始音频波形压缩成某种压缩表征形式;一个生成器,经过训练可以接受各种用户控制输入,并相应地生成中间表征;一个渲染器,能够从生成器输出的中间表征中,合成高质量的音频波形。
基于统一框架,Seed-Music建立了三种适用于不同场景的中间表征:音频token、符号音乐token 和声码器latent。
如图所示,中间表征对整个系统来说很重要,每种表征都有其特点和适用场景,具体选择取决于用户的音乐创作任务。
Seed-Music pipeline
音频token通常以低于音频采样率的标记率学习,旨在有效编码语义和声学信息,能轻松桥接不同模态,但不同音乐信息高度纠缠,给生成器带来挑战。
而基于音频token的链路,包括tokenizer、自回归语言模型、token扩散模型和声码器,音频token有效地存储了原始信号的显著音乐信息,语言模型根据用户控制输入生成音频token,token扩散模型处理音频token以生成具有增强声学细节的音频波形。
符号音乐token如MIDI、ABC记号或钢琴卷帘记号等,本质上离散,可被大型语言模型操作,具有可解释性,便于用户在辅助音乐创作中交互,但缺乏声学信息,依赖渲染器生成声学细节。
而基于符号音乐token的链路采用符号音乐token作为中间表征,与音频token基于的管道类似,但有一些区别,如lead sheet tokenizer将信息编码为token,语言模型学习预测lead sheet token序列,lead sheet token是可解释的,并且允许在训练和推理中注入人类知识,但扩散模型从lead sheet token预测声码器 latent更具挑战性,需要更大的模型规模。
声码器latent在探索基于扩散模型的音乐音频生成中,可作为中间表征,与量化音频标记相比,信息损失少、渲染器权重更轻,但生成器输出不可解释,且由于仅用波形重建目标训练,可能不够有效作为训练生成器的预测目标。
而基于声码器latent的链路遵循通过latent扩散建模从文本直接生成音乐到声学声码器latent表征的工作,通过变分自编码器和扩散模型将条件信号映射到归一化和连续的声码器latent空间。
在上述链路中,Seed-Music经历三个训练阶段:预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型;微调包括基于高质量音乐数据集的数据微调,以增强音乐性,或者针对特定创作任务提高可控性、可解释性和交互性的指令微调;后训练是通过强化学习进行的,从整体上提高了模型的稳定性。
此外,在推理时,样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。
回顾过往,新技术往往能够激发新创新。Seed-Music将音乐生成自然地嵌入不同创作群体的工作流中,使AI音乐具备独特的社交属性,这是其与传统音乐创作模式的不同之处。在未来,或许会由此涌现创作音乐、欣赏音乐、分享音乐的新场景。
推荐阅读
9期热点&导读| 巴黎奥运会赛事转播的技术革新与创意表现、AI助力微短剧高质量发展 | |
纪录片《两宋浮沉三百年》制作解密——实拍、XR与AI技术的完美融合 | |
央卫视2024秋晚亮点纷呈!艺术与科技“狠活儿”的多样态融合 | |
“史上最拥挤”的中秋档将至,20余部影片官宣定档中秋 | |
超高清+三维“菁彩声”,央视2024年中秋晚会将为全球观众呈现电影级别的文化盛会 |
我知道你在看哟