Adobe 与 Northwestern University 联合推出创新音频生成模型 Sketch2Sound。
重点:
🎵 Sketch2Sound 能通过哼唱和文本描述来创建音效; 🔊 可以分析音量、音色和音高,将用户的声音输入与文本结合生成目标音效; 🎬 特别适合 Foley 艺术家使用,能够快速生成影视音效,提升工作效率。
Sketch2Sound 是一种将模仿声音转换为新声音的技术。它从用户输入的模仿声音中提取三个关键信号:响度(音量)、频谱质心(声音的亮度)和音高概率(声音的高低变化)。这些信号经过编码后,融入基于 DiT 的文本到声音生成系统中。最终,系统能够生成与模仿声音风格相似的新声音。
使用较大的中值滤波器生成的声音更像“草图”,质量可能更高;而较小的滤波器则生成更精确的声音,但如果模仿声音不准确,音质可能下降。这为声音艺术家提供了在“草图感”和“精确度”之间找到平衡的选择。
吉他声音模仿:
利用声音模仿和文本描述:用户可以通过哼唱、模仿声音或简单文字描述来生成专业音效和旋律,如鸟鸣声、引擎轰鸣声等,特别适合Foley艺术家,提高影视音效制作效率
自动生成和声与编曲:输入主旋律后,Sketch2Sound能自动生成匹配的和声,帮助创作者快速构建音乐段落。在编曲过程中,通过简单指令生成不同乐器和声部,简化工作
节奏与鼓点生成:通过敲击或拍手设定节奏,或输入文本描述来生成符合描述的节奏型,提高节奏创作的效率
创新技术的应用:Sketch2Sound基于潜在扩散变换器(DiT)实现,允许用户在“草图感”和“精确度”之间找到平衡,提供了创作自由与可能性
https://mp.weixin.qq.com/s/R7XapiM78xetrVuxjeKxLA
https://mp.weixin.qq.com/s/Rs590YwnSedQrkqm7ED5jw