字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲、片段编辑等

科技 2024-09-23 16:18 北京

整理自 | 字节跳动技术团队、豆包大模型团队、机器之心

订、阅 | 010-86092062

当AI与音乐这一充满魅力的艺术形式相遇，精彩就此开启。近日，字节跳动豆包大模型团队全新推出了Seed-Music，助力人们在音乐创作领域探索更多可能性。

Seed-Music是一个具备灵活控制能力的音乐生成模型家族。它巧妙地将语言模型与扩散模型的优势相结合，并融入作曲工作流之中，适用于小白、专业人士的不同音乐创作场景。

本文将深入解读Seed-Music的技术能力，揭示其在音乐生成和编辑方面的突出表现。

Seed-Music官网：https://team.doubao.com/seed-music

AI音乐难点重重

Seed-Music放新招

虽说AIGC很火，但相较于语音合成、文本生成，音乐生成面临着更为复杂的挑战。目前，业界在AI音乐领域的研究主要集中在以下几个核心问题：

音乐信号的复杂性

音乐信号包含多个重叠音轨、丰富的音调和音色以及广泛的频率带宽，不仅要保持短期旋律的连贯性，还要在长期结构上展现出一致性。

评估标准的缺乏

音乐作为一种开放、主观的艺术形式，缺乏一套通用的问题表述和用于比较的黄金指标，评估局限性大。

用户需求的多样性

不同的用户群体，如音乐小白、音乐初学者、资深音乐人等，对音乐创作的需求差异很大。

无论是传统的音乐辅助创作工具，还是当下热门的AI音乐生成的研究和产品，面向上述问题均还处于摸索阶段。

比如针对音乐信号复杂性，Google、Meta、Stability AI等各家在音频、演奏、曲谱层面上做了建模尝试，效果各有优缺，而且各家的评估方法均有局限，人工评测仍必不可少。

面对这些挑战，字节Seed-Music采用了创新的统一框架，将语言模型和扩散模型的优势相结合，并融入符号音乐的处理。

通过官方视频展示，我们发现，与其他音乐模型相比，Seed-Music能更好地满足不同群体的音乐创作需求。

满足多元需求

专门提供高灵活编辑

据豆包大模型团队官网介绍，Seed-Music是一个具有灵活控制能力的音乐生成系统，包含可控音乐生成、谱转曲、词曲编辑、零样本人声克隆四大核心功能，具体涵盖十种创作任务。

Lyrics2Song 可控音乐生成

Lyrics2Song功能包含“1分钟片段生成”、“3分钟全曲生成”、“歌曲仿写”以及“纯器乐生成”这四种音乐生成任务。

只需输入一些简单的文本指令，如音乐风格、歌词、情绪、节奏等，Seed-Music就能快速生成一段与之相符的AI音乐。

除了文本提示外，Seed-Music还能基于参考音频进行歌曲仿写。在下面的demo中，以英文歌曲音频为参考，生成听感高度相似的中文音乐，展现了Seed-Music在跨语言歌词创作方面的能力。

Lyrics2Leadsheet2Song 谱转曲

lead sheet即“领谱”，通常包括歌曲的主旋律、歌词以及和弦标记等信息，它就像是一张音乐地图或指南，用于指导演奏者或歌手进行表演。

Seed-Music将领谱集成到AI辅助创作的工作流程中，增强了音乐创作的可解释性和可控性，旨在帮助专业音乐人提升效率，专注于音乐的创意表达。

对于专业音乐人来说，使用AI工具辅助创作，最大痛点莫过于无法对音乐进行编辑。Seed-Music创新点之一，在于能通过lead sheet来编辑音乐，这增加了音乐创作可解释性。

无论是基于歌词生成领谱、从领谱到完整演奏的生成，还是从领谱到声乐的演绎，音乐家们都可直接在lead sheet上进行编辑和调整，轻松对音符的音高、时长、位置以及节奏的快慢进行调整，从而可视化地控制音乐的创作过程。

Music Editing 词曲编辑

基于扩散模型实现的Music Editing能够精确对歌词或旋律进行局部改编，并确保编辑区域的平滑过渡。

比如，在一首歌曲中，创作者想要把某句歌词从“一捧黄河水”改成“一捧长江水”，同时希望保持旋律和伴奏的连贯性，Music Editing就可以轻松做到，而且效果自然。

Singing Voice Conversion 零样本人声克隆

零样本人声克隆也是Seed-Music的一大创新，模型无需针对特定音色进行大规模训练。创作者只需要使用自己10秒的语音（支持清唱或者说话）作为输入，系统便可模仿指定音色生成完整的歌曲。

这使得创作者无需花费大量时间进行录音，就能快速预览声音效果，从而拓宽了音乐创作的边界。

惊喜的是，Seed-Music能将中文人声输入转换为英文声乐输出，实现了跨语种人声克隆，扩大了音乐小白们的创作空间。

统一框架

实现高质量音乐生成

技术报告地址：https://arxiv.org/pdf/2409.09214

那为什么Seed-Music能做到生成高质量音乐、提供灵活编辑能力呢？

来自豆包大模型团队的研究者们表示，这主要得益于统一框架，关键技术贡献如下：

·提出了一种基于新型token和语言模型（LM）的方法，并引入了一种能够根据不同类型用户输入生成专业生成内容（PGC）质量音乐的训练方法。

·提出了一种全新的基于扩散模型的方法，特别适合音乐编辑。

·引入了一种在歌唱声音背景下的零样本声音转换的新颖方法。系统可以根据用户短至10秒的参考歌唱或甚至普通语音的音色生成完整的声乐混音。

Seed-Music 架构

根据官方论文，如上图所示，从高层次来看Seed-Music有着统一的音乐生成框架，主要包含以下三个核心组件：一个表征模型，用于将原始音频波形压缩成某种压缩表征形式；一个生成器，经过训练可以接受各种用户控制输入，并相应地生成中间表征；一个渲染器，能够从生成器输出的中间表征中，合成高质量的音频波形。

基于统一框架，Seed-Music建立了三种适用于不同场景的中间表征：音频token、符号音乐token 和声码器latent。

如图所示，中间表征对整个系统来说很重要，每种表征都有其特点和适用场景，具体选择取决于用户的音乐创作任务。

Seed-Music pipeline

音频token通常以低于音频采样率的标记率学习，旨在有效编码语义和声学信息，能轻松桥接不同模态，但不同音乐信息高度纠缠，给生成器带来挑战。

而基于音频token的链路，包括tokenizer、自回归语言模型、token扩散模型和声码器，音频token有效地存储了原始信号的显著音乐信息，语言模型根据用户控制输入生成音频token，token扩散模型处理音频token以生成具有增强声学细节的音频波形。

符号音乐token如MIDI、ABC记号或钢琴卷帘记号等，本质上离散，可被大型语言模型操作，具有可解释性，便于用户在辅助音乐创作中交互，但缺乏声学信息，依赖渲染器生成声学细节。

而基于符号音乐token的链路采用符号音乐token作为中间表征，与音频token基于的管道类似，但有一些区别，如lead sheet tokenizer将信息编码为token，语言模型学习预测lead sheet token序列，lead sheet token是可解释的，并且允许在训练和推理中注入人类知识，但扩散模型从lead sheet token预测声码器 latent更具挑战性，需要更大的模型规模。

声码器latent在探索基于扩散模型的音乐音频生成中，可作为中间表征，与量化音频标记相比，信息损失少、渲染器权重更轻，但生成器输出不可解释，且由于仅用波形重建目标训练，可能不够有效作为训练生成器的预测目标。

而基于声码器latent的链路遵循通过latent扩散建模从文本直接生成音乐到声学声码器latent表征的工作，通过变分自编码器和扩散模型将条件信号映射到归一化和连续的声码器latent空间。

在上述链路中，Seed-Music经历三个训练阶段：预训练、微调和后训练。预训练旨在为音乐音频建模建立强大的基础模型；微调包括基于高质量音乐数据集的数据微调，以增强音乐性，或者针对特定创作任务提高可控性、可解释性和交互性的指令微调；后训练是通过强化学习进行的，从整体上提高了模型的稳定性。

此外，在推理时，样本解码方案对于从训练模型中诱导出最佳结果至关重要。研究者们同时会应用模型蒸馏和流式解码方案来提高系统的延迟。

回顾过往，新技术往往能够激发新创新。Seed-Music将音乐生成自然地嵌入不同创作群体的工作流中，使AI音乐具备独特的社交属性，这是其与传统音乐创作模式的不同之处。在未来，或许会由此涌现创作音乐、欣赏音乐、分享音乐的新场景。

推荐阅读

	9期热点&导读\| 巴黎奥运会赛事转播的技术革新与创意表现、AI助力微短剧高质量发展
	纪录片《两宋浮沉三百年》制作解密——实拍、XR与AI技术的完美融合
	央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合
	“史上最拥挤”的中秋档将至，20余部影片官宣定档中秋
	超高清+三维“菁彩声”，央视2024年中秋晚会将为全球观众呈现电影级别的文化盛会

我知道你在看哟

http://mp.weixin.qq.com/s?__biz=MjM5NTM1NjE2Mw==&mid=2649670299&idx=1&sn=96efa9688e3a35bed70dd9d34b9ccb20

影视制作

《影视制作》创刊于1994年，由国家广播电视总局主管，是国家级影视制作专业期刊。专注于影视节目摄制、编辑、后期制作等技术的推广，致力推动我国影视制作业整体水平的提高。2014年荣获中国出版政府奖（出版行业最高奖）期刊类提名奖。

最新文章

专访《王者荣耀·2024共创之夜》导播，谈大型活动的电影化制作

上线Netflix！《珠帘玉幕》创作历程分享

13/5813——第五届“华为影像·金鸡手机电影计划”荣誉作品大赏

第二季开播即爆，除了砸钱，火到破圈的《双城之战》还做对了什么？

UE5.5正式发布！“无限”灯光新技术太牛了！

“年度品质爆款”诞生！《小巷人家》或成现实题材“爽剧”

2024百度世界大会 | 从“超级应用”到“超级有用”

聚焦VP、XR、AIGC、数智人！VPS 2024上海国际虚拟制作大会亮点速递

100部！“与时代同行”——优秀纪录片推介研讨展播活动在广州举行

古装奇幻剧视觉新思路！和《永夜星河》一起进入赛博书境世界！

《中国微短剧行业发展白皮书（2024）》八大主要发现

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

200TB海量素材、4K全流程制作！《叶尔羌河》剪辑手记分享

开播即爆！《西北岁月》立体展现西北革命群英谱

游戏科学兄弟公司浮出水面？对话杨奇、孙木子：我们也只是草台班子

历时7年、超2000个视效镜头，灾难类型片《焚城》带来港片新套路

运用先进技术，打造视觉盛宴！中国视听佳作走向世界

虚拟制作技术用量创新高！《大梦归离》全景呈现中式奇幻美学

8K 3D！苹果首部沉浸式VR电影《Submerged》上线

资金扶持！广电总局2024-2025年度“网络视听节目精品创作传播工程”扶持项目申报已开启

“以精为尺，创新多元”，2024腾讯微短剧赛道合作模式升级

星光奖纪录片特辑：注重文化传承与创新，实现美学叙事与国际化表达上的新突破

咪蒙微短剧“爆款”背后的情感逻辑与产品思维

8年制作周期、3.5亿投资，从生物类特殊效果声音设计角度解读不一样的《749局》

2024综艺市场宏观趋势与增长路径，解读爆款内容流量密码

超100项新功能！Adobe MAX 2024带来从图像到视频的全新视界

总局权威解读！现在开机拍摄的电视剧要满足超高清六项标准

10期热点&导读｜2024综艺市场宏观趋势与增长路径，星光奖获奖纪录片特辑

科技创新绘就诗情画意，《千秋诗颂》第二辑正式开播

青年影视人行业盛会——第七届初心榜荣誉名单重磅揭晓！

获近五年国产剧集豆瓣评分Top1，《山花烂漫时》是怎样改编的？

“困在算法里的胶片电影”主题对谈活动干货全纪录

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

宣传片正式发布！庆祝《广播与电视技术》创刊50周年《影视制作》创刊30周年

首届中国广播电视精品创作大会在京开幕！“重温经典论坛”及“政策信息发布和交流会”议程发布

广电总局推优！73部网络视听作品入选

潞晨Video Ocean震撼发布，人人皆可当导演

个性化玩法诗赞北京！“AI我北京AI我国——我和AI有个诗会”正式推出

“最害怕就是这些人被遗忘”——《志愿军：存亡之战》以赤子心致敬英雄

走进2024总台丰晚，三大创意亮点礼赞丰收中国

地表最强AR眼镜！Meta AI加持的十年保密项目到底有多强？

首届中国广播电视精品创作大会将在京举行

年度最佳纪录电影《里斯本丸沉没》：如何还原沉没82年的历史真相？

巴黎奥运会乒乓球赛事转播含“AI”量极高！转速、落点、轨迹均实现可视化

【刊庆有奖互动】小书童or大学士？快来查看您的论文创作成绩单！

字节音乐大模型炸场！Seed-Music发布，支持一键生成高质量歌曲、片段编辑等

9期热点&导读| 巴黎奥运会赛事转播的技术革新与创意表现、AI助力微短剧高质量发展

纪录片《两宋浮沉三百年》制作解密——实拍、XR与AI技术的完美融合

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉