音频版ControlNet来了！Adobe推出Sketch2Sound

文摘 2024-12-25 18:00 北京

Adobe 与 Northwestern University 联合推出创新音频生成模型 Sketch2Sound。

论文地址：https://arxiv.org/pdf/2412.08550

项目地址：https://hugofloresgarcia.art/sketch2sound/

Sketch2Sound 可以随时间变化的易理解控制信号，如音量、亮度、音高的起伏，结合简洁文本提示，就能打造高品质声音。同时还拥有超强“模仿力”，人声、参考音都能精准复刻，并合成多样新声音。在技术实现上，Sketch2Sound 优势显著。

重点:

🎵 Sketch2Sound 能通过哼唱和文本描述来创建音效；
🔊 可以分析音量、音色和音高，将用户的声音输入与文本结合生成目标音效；
🎬 特别适合 Foley 艺术家使用，能够快速生成影视音效，提升工作效率。

技术原理

Sketch2Sound 是一种将模仿声音转换为新声音的技术。它从用户输入的模仿声音中提取三个关键信号：响度（音量）、频谱质心（声音的亮度）和音高概率（声音的高低变化）。这些信号经过编码后，融入基于 DiT 的文本到声音生成系统中。最终，系统能够生成与模仿声音风格相似的新声音。

使用较大的中值滤波器生成的声音更像“草图”，质量可能更高；而较小的滤波器则生成更精确的声音，但如果模仿声音不准确，音质可能下降。这为声音艺术家提供了在“草图感”和“精确度”之间找到平衡的选择。

Sketch2Sound 拥有对上下文的理解能力。例如，当有人输入"森林氛围"并发出简短的声音时，系统会自动识别这些声音应该变成鸟叫声，无需具体和明确的给出指示。

这种智能在音乐创作中同样适用。在创建鼓点模式时，用户可以输入"低音鼓、军鼓"并用高低音符哼出节奏。系统会自动在低音部分放置低音鼓，在高音部分放置军鼓。

演示效果

吉他声音模仿：

通过Sketch2Sound中提高音乐创作效率和效果的方法：

利用声音模仿和文本描述：用户可以通过哼唱、模仿声音或简单文字描述来生成专业音效和旋律，如鸟鸣声、引擎轰鸣声等，特别适合Foley艺术家，提高影视音效制作效率
自动生成和声与编曲：输入主旋律后，Sketch2Sound能自动生成匹配的和声，帮助创作者快速构建音乐段落。在编曲过程中，通过简单指令生成不同乐器和声部，简化工作
节奏与鼓点生成：通过敲击或拍手设定节奏，或输入文本描述来生成符合描述的节奏型，提高节奏创作的效率
创新技术的应用：Sketch2Sound基于潜在扩散变换器（DiT）实现，允许用户在“草图感”和“精确度”之间找到平衡，提供了创作自由与可能性

参考链接：

https://mp.weixin.qq.com/s/R7XapiM78xetrVuxjeKxLA

https://mp.weixin.qq.com/s/Rs590YwnSedQrkqm7ED5jw

永久福利直投简历

简历投递：join@speechhome.com

扫码关注我们

助力AI语音开发者的社区

语音之家

助力AI语音开发者的社区

天工版o1、4o同时上线！实时语音陪聊太上头

通过流匹配实现高效、高质量的文本转音频生成

语音/音频处理学术速递[1.6]

AI语音招聘岗位合集

OpenAI真的开源了！这波「实时语音」操作，让万物开口说话，我爱了

活动报名丨第五届全国人工智能大赛

复旦等提出「中国版GPT-Zero」！毕业论文AI率自查神器｜AAAI 2025

语音/音频处理学术速递[1.3]

AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

分享 10 款免费在线 TTS 工具，开启语音新世界大门

4o-mini只有8B，Claude 3.5 Sonnet有175B，微软论文「透露」了下顶级模型参数

高噪声环境下的语音增强技术，在极低信噪比条件下显著提升目标语音的质量

使用知识图谱增强大语言模型生成问答逻辑形式

Ilya布局末日倒计时？奥特曼与谷歌大佬揭秘2025年ASI降临时间表！

ICASSP2025丨语音国家工程研究中心26篇录用论文分享

国产大模型全球“刷屏”，总训练成本557万美元，性能比肩GPT-4o

语音/音频处理学术速递[12.31]

ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

2024年人工智能年终总结报告｜Artificial Analysis

语音/音频处理学术速递[12.30]

AI语音招聘岗位合集

听见未来，AI+Audio｜2025中国国际音频产业大会（GAS）

长文本+o1？评估LLM在真实世界长文本多任务中的深度理解与推理能力

国产大模型DeepSeek-V3一夜火爆全球，671B的MoE，训练成本仅558万美元

ICASSP2025丨内蒙古大学语音信号处理组5篇录用论文分享

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

全球首个中文安全领域事实性基准评测集发布

音频版ControlNet来了！Adobe推出Sketch2Sound

AI首次自主发现人工生命！人类窥见上帝造物

INFP：照片+音频让蒙娜丽莎秒变播客主理人

语音/音频处理学术速递[12.25]

CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

ICASSP2025丨人类语言技术实验室（HLT Lab）10篇录用论文分享

o3曝智商高达157，比肩爱因斯坦碾压99%人类！陶哲轩水平AI或出现

语音/音频处理学术速递[12.24]

ICASSP2025丨IMU语音理解与生成实验室3篇论文分享

开源更新丨通义3D-Speaker多说话人日志功能

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

语音/音频处理学术速递[12.23]

AI语音招聘岗位合集

GAS"消费电子科创奖” | 展示消费电子行业突破性成果

WavChat：深入探索语音对话模型的前沿

Interspeech 2025丨首届言语健康挑战赛

一键生成万字专利！中科院发布多智能体框架AutoPatent，含1933个「草稿-专利」数据对

内大语音理解与生成实验室最新视觉语音合成工作分享

语音/音频处理学术速递[12.20]

【AI对话系统新挑战】FutureDial-RAG Challenge详解

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

语音/音频处理学术速递[12.19]

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉