豆包推出一套AI音乐生成系统,可多方面控制音乐

科技   2024-09-18 23:12   广东  
近日,Doubao团队开发的一套音乐生成系统Seed-Music,旨在通过精细的风格控制来生成高质量的音乐。

该系统提供了一套综合性的框架,能够支持多语言表达性人声音乐的生成,并允许用户对模型输出进行精确到音符级别的调整。
更重要的是,该系统还允许用户将自己的声音融入音乐创作中,这无疑为音乐创作者提供了更多可能性。
| 统一框架与多功能集成
Seed-Music提出了一种统一的框架,而不是依赖于单一的建模方法,如自回归(AR)或扩散模型。
这一框架适应了音乐家不断变化的工作流程,并且在多种使用场景下都表现出色。
其主要贡献可以归纳为三个方面:
首先,它引入了一个基于自回归语言模型(LM)的方法来生成高质量的人声音乐,该方法可以根据多样化的多模态用户输入进行条件化生成。
其次,它展示了一种基于扩散模型的方法来进行精细的音符级别音乐音频编辑。
最后,它提出了一种新的零样本歌唱声音转换方法,只需要用户提供十秒钟的歌唱或语音录音即可实现声音的转换。
| 音乐生成与编辑实例
该系统的演示部分包含了使用Seed-Music生成的音频样本,这些样例按照技术论文中的顺序排列。
其中,“歌词转歌曲”功能将自然语言转化为音乐,支持以歌词和风格描述符的形式输入文本。

此外,“短形式音频生成”功能可以生成带有表达力人声及合适伴奏的短片段音频。
“长形式音频生成”则能产生保持旋律连贯、风格一致及长期结构完整的完整长度音乐作品。
| 音频提示与乐器生成
系统还支持音频提示以及风格提示的自然语言输入。
演示中展示了两种不同的模式:“音频延续”和“音频风格转移”。

另外,在没有歌词输入的情况下,乐器生成可以作为歌唱音乐生成的一个子任务。
为了实现这一点,研究团队提出了一种新颖的乐谱符号编码,将符号表示统一成既易于人类理解又适合LM和扩散模型的形式。
| 从歌词到乐谱再到歌声
当文本输入转化为乐谱符号后,音乐家可以在可解释的方式下检查和修改音符对齐的音素以及多轨乐器部分。
乐谱符号作为一种强大的中间表示形式,既可以像MIDI一样进行编辑,又完全兼容现代的LM和扩散模型。
对于歌唱声音合成(SVS),乐谱符号可以配置为仅包含声乐属性,并仅渲染成声乐轨道,这种方法还可以扩展到其他乐器轨道。
| 声音转换与编辑
研究团队还介绍了一种新的零样本歌唱声音转换方法。

给定几秒钟的歌唱或普通语音录音,系统就能将参考声音转化为富有表现力的歌唱表演。
此外,系统还支持对已录制歌曲的歌词或旋律进行编辑,同时保持人声旋律或伴奏不变。

Seed-Music系统不仅为音乐创作者提供了一个灵活且强大的工具集,也通过结合自回归语言模型和扩散模型的优点,该系统为音乐生成领域带来了新的解决方案。
关注我们:即可加入【AI交流群】,免费领取【AI大礼包】

晓得智能
每日聚焦最新AI,让每个人都能享受到AI带来的乐趣!
 最新文章