Seed-Music：字节跳动开发的音乐生成模型支持多种数据输入生成和编辑音乐！

文摘 2024-09-19 00:01 江苏

Seed-Music是一个由字节跳动研发的音乐生成模型，用户可以通过输入多模态数据（如文本描述、音频参考、乐谱、声音提示等）来生成音乐，并且提供了方便的后期编辑功能，比如修改歌词或旋律。

Seed-Music 结合了自回归语言模型和扩散模型，在保持音乐生成质量的同时，提供了对生成音乐的精确控制。

Seed-Music还支持用户上传短暂的语音片段，系统会将其转换为完整的歌声。此外，Seed-Music不仅支持声乐和器乐生成，还支持歌声合成、歌声转换、音乐编辑等功能，适用于不同的用户群体。

大家可以点击下面视频试听一下效果！

主要功能

高质量音乐生成：支持生成声乐和器乐作品，用户可以通过文本、音频等多种方式输入，实现多样化的音乐创作。
受控音乐生成：提供细粒度的音乐控制，允许用户根据歌词、风格描述、参考音频、乐谱等生成符合要求的音乐。

多模态输入：Seed-Music 支持多种输入方式，如歌词、音乐风格描述、参考音频、乐谱、语音提示等，从而实现细粒度的控制。
风格控制：用户可以通过文本或音频参考，指定音乐的风格、节奏、曲调等，生成符合需求的作品。

歌声合成与转换：

歌声合成：生成自然且富有表现力的歌声，支持多语言。
零样本歌声转换：只需10秒的语音或歌声录音，即可将其转换为不同风格的音乐。
歌词转歌曲 (Lyrics2Song)：将输入的歌词转化为带有伴奏的声乐音乐，支持短篇和长篇音乐生成。
音频提示和风格转换：支持音频延续和风格转换，基于已有音频生成相似风格的新音乐。
器乐生成：生成高质量的纯器乐音乐，适用于无歌词的场景。

音乐后期编辑：支持歌词、旋律的修改，允许用户在生成的音频上直接进行编辑和调整。

歌词与旋律编辑：Seed-Music 提供了交互式的工具，允许用户在生成的音频中直接编辑歌词和旋律，方便进行后期调整。
音乐混音与编曲：系统不仅能生成完整的歌曲，还支持对生成的歌曲进行修改，如调整乐器部分、混音效果等。

多风格与多语言支持：Seed-Music 能够生成涵盖多种音乐风格（如流行、古典、爵士、电子等）的作品，并支持多语言歌声生成，使其适用于全球用户。

实时生成与流媒体支持：支持实时音乐生成和流媒体输出，提升用户的互动性和创作效率。

架构概述

Seed-Music的架构由三大模块组成：表示学习模块、生成模块和渲染模块。这些模块协同工作，通过多模态输入（如文本、音频、乐谱等）生成高质量的音乐。

表示学习模块：将原始音频信号压缩为三种中间表示（音频符号、符号音乐标记和声码器潜在表示），每种表示适用于不同的音乐生成和编辑任务。
生成模块：通过自回归语言模型和扩散模型，基于用户的多模态输入生成相应的音乐表示。
渲染模块：将生成的中间表示转化为高质量的音频波形，使用扩散模型和声码器渲染最终的音频输出。

技术方法

Seed-Music采用了多种生成技术，确保系统能够灵活应对不同的音乐生成和编辑需求：

自回归语言模型 (Auto-Regressive Model)：基于用户输入（如歌词、风格描述、音频参考等），逐步生成音频符号。此方法适用于需要强语境依赖的音乐生成任务，如歌词生成和风格控制。这个技术可以一步步生成音乐符号，就像根据一段歌词逐字逐句写出一首歌。它能很好地控制音乐的节奏、旋律和歌词的匹配。

扩散模型 (Diffusion Model)：适用于复杂的音乐生成和编辑任务，能够通过逐步去噪生成清晰的音乐表示。扩散模型非常适合需要多步预测和高保真度的任务，如精细的音频编辑。它通过把复杂的音频逐渐“打磨”成清晰的音乐，非常适合后期编辑或调整音乐的细节。

声码器 (Vocoder)：类似于把“音乐代码”翻译成高质量的声音文件，生成可以直接播放的音乐。负责将生成的表示转换为最终的高质量音频。通过变分自编码器 (VAE) 技术，声码器可以生成44.1kHz的高保真立体声。

中间表示

Seed-Music采用三种不同的中间表示，分别用于不同的生成任务：

音频符号 (Audio Tokens)：用于编码旋律、节奏、和声等音乐特征，适合自回归模型。包含音乐的旋律、节奏等信息，适合生成具体的音乐片段。
符号音乐标记 (Symbolic Music Tokens)：像乐谱一样，用来表示音乐的旋律和和弦，可以用于乐谱生成和编辑。如MIDI，适用于乐谱生成与编辑任务，提供可读、可编辑的音乐表示。
声码器潜在表示 (Vocoder Latents)：处理更复杂的声音细节，适合精细编辑和生成复杂的音乐作品。适用于扩散模型的生成和编辑任务。

训练与推理

Seed-Music 的模型训练分为三个阶段：预训练、微调和后训练：

预训练：通过大规模的音乐数据预训练模型，建立生成音乐的基础能力。
微调：通过特定的任务或数据微调模型，提升模型在具体生成任务中的表现，例如提高音乐性、生成准确度等。
后训练（强化学习）：通过强化学习优化生成结果的可控性和音乐质量，使用奖励模型如歌词与音频匹配度、音乐结构一致性等来优化输出质量。

推理时，Seed-Music 使用流媒体生成技术，使用户能够实时体验生成过程，并根据实时生成的内容进行反馈和调整。

感谢你看到这里，也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

http://mp.weixin.qq.com/s?__biz=MzU2OTg5NTU2Ng==&mid=2247487942&idx=1&sn=c5cf359298f55ffa1b824ddae43812dd

AIGC Studio

一个有趣有AI的AIGC公众号：关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线，还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦！

ChatTTS：对话式高可控的语音合成模型，最强文本转语音工具！

Facechain：只需1张照片，10秒就可以生成多种风格个人写真！

MS-Diffusion：一键合成你喜爱的所有图像元素，个性化生成新思路！

IFAdapter：用于基础文本到图像生成的实例特征控制，即插即用，无缝应用于各种社区模型。

Unimate,可根据单张图片和姿势指导生成视频。

AnyControl：精准控制下的创意风暴，高质量图像一键生成！

EchoMimic来袭，音频+面部标志，让你的肖像“活”起来！

FLUX的ID保持项目来了! 字节开源PuLID-FLUX-v0.9.0，开启一致性风格写真新纪元！

商汤发布UniTalker，实现高质量音频驱动3D面部动画生成。

EAFormer：场景文本分割新SOTA，图像文本擦除无痕迹！

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

3D生成新方法！GIMDiffusion：能生成合理的展开贴图和高质量mesh，速度和图像生成平齐！

Unique3D：一键操作，轻松将图片转为逼真高质量3D网格！

StructLDM：高质量可控3D生成并支持编辑。

MotionClone:一键克隆视频运动，让创意无界限！

Motionshop：AI一键替换视频人物为3D角色，效果逼真！

LLM+知识图谱新工具！ iText2KG：使用大型语言模型构建增量知识图谱。

Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

RegionDrag：通过手动拖拽实现图像编辑！

StructLDM：高质量可控3D生成并支持编辑。

新个性化时尚解决方案！Prompt2Fashion：自动生成多风格、类型时尚图像数据集。

One-DM：只需单张参考图，完美仿写各种手写内容！

理想汽车提出3DRealCar：首个大规模3D真实汽车数据集!

图像抠图革新！Matting by Generation生成式抠图技术，智能识别主体，边缘处理细腻入微。

AI可以模仿人类手写签名了？DiffusionPen：实现手写文本生成的风格控制。

开源图像标注工具 X-AnyLabeling v2.4.0 正式发布！

LinFusion: 单GPU一分钟生成16K高清图像，无缝兼容SD插件！

Glyph-ByT5-v2，支持10国语言图文海报生成，效果惊艳！

MeshAnything V2：30秒生成建模师级Mesh。

快手可图上线一键换衣Kolors Virtual Try-On，直冲开源项目Top 1！

[ComfyUI] 中秋特制Flux工作流：月影婆娑月饼小丸子。

Haper SD Lora: 8步就可以用 Flux-dev生成图片!

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

语言/图像/视频模型一网打尽！BigModel大模型开放平台助力开发者轻松打造AI新应用！

CustomCrafter：具有保留动作和概念合成功能的定制视频生成框架！

ReSyncer: 高质量口型同步和个性化微调！

TurboEdit：0.5秒实现高质量文本到图像编辑！

上交提出了多风格面部素描生成模型,有效解决数据不足、风格类型受限等问题。

Poetry2Image：专为中文古诗词图像生成，忠于原诗意境和语义。

Champ：只需要一个视频和一张图片，就能让图片中的人物动起来！

Pix2Gif：一张图就可以生成Gif动图！

AI生图美学在淘宝的实践应用

Google提出第一款游戏生成引擎GameNGen，可以每秒20帧速度实现游戏场景生成和交互！

anytext阿里开源，解决comfyui精准文字控制！

ViewCrafter：一张图像就可以制作影视特效和游戏画面！

开源AI证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

免费开源 AI 证件照制作工具：HivisionIDPhoto，文章附下载和使用教程。

CustomCrafter，可保留动作和概念合成功能的定制视频生成框架！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉