音频版ControlNet来了!Adobe推出Sketch2Sound

文摘   2024-12-25 18:00   北京  

Adobe 与 Northwestern University 联合推出创新音频生成模型 Sketch2Sound



  论文地址:https://arxiv.org/pdf/2412.08550
  项目地址:https://hugofloresgarcia.art/sketch2sound/


Sketch2Sound 可以随时间变化的易理解控制信号,如音量、亮度、音高的起伏,结合简洁文本提示,就能打造高品质声音。同时还拥有超强“模仿力”,人声、参考音都能精准复刻,并合成多样新声音。在技术实现上,Sketch2Sound 优势显著。


重点:

  • 🎵 Sketch2Sound 能通过哼唱和文本描述来创建音效;
  • 🔊 可以分析音量、音色和音高,将用户的声音输入与文本结合生成目标音效;
  • 🎬 特别适合 Foley 艺术家使用,能够快速生成影视音效,提升工作效率。



技术原理

Sketch2Sound 是一种将模仿声音转换为新声音的技术。它从用户输入的模仿声音中提取三个关键信号:响度(音量)、频谱质心(声音的亮度)和音高概率(声音的高低变化)。这些信号经过编码后,融入基于 DiT 的文本到声音生成系统中。最终,系统能够生成与模仿声音风格相似的新声音。



使用较大的中值滤波器生成的声音更像“草图”,质量可能更高;而较小的滤波器则生成更精确的声音,但如果模仿声音不准确,音质可能下降。这为声音艺术家提供了在“草图感”和“精确度”之间找到平衡的选择。


Sketch2Sound 拥有对上下文的理解能力。例如,当有人输入"森林氛围"并发出简短的声音时,系统会自动识别这些声音应该变成鸟叫声,无需具体和明确的给出指示。


这种智能在音乐创作中同样适用。在创建鼓点模式时,用户可以输入"低音鼓、军鼓"并用高低音符哼出节奏。系统会自动在低音部分放置低音鼓,在高音部分放置军鼓。




演示效果



吉他声音模仿:


通过Sketch2Sound中提高音乐创作效率和效果的方法:
  • 利用声音模仿和文本描述:用户可以通过哼唱、模仿声音或简单文字描述来生成专业音效和旋律,如鸟鸣声、引擎轰鸣声等,特别适合Foley艺术家,提高影视音效制作效率

  • 自动生成和声与编曲:输入主旋律后,Sketch2Sound能自动生成匹配的和声,帮助创作者快速构建音乐段落。在编曲过程中,通过简单指令生成不同乐器和声部,简化工作

  • 节奏与鼓点生成:通过敲击或拍手设定节奏,或输入文本描述来生成符合描述的节奏型,提高节奏创作的效率

  • 创新技术的应用:Sketch2Sound基于潜在扩散变换器(DiT)实现,允许用户在“草图感”和“精确度”之间找到平衡,提供了创作自由与可能性

参考链接:

https://mp.weixin.qq.com/s/R7XapiM78xetrVuxjeKxLA

https://mp.weixin.qq.com/s/Rs590YwnSedQrkqm7ED5jw


永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章