英伟达新推出的人工智能音频发生器将带来前所未闻的声音

科技   2024-11-29 15:04   北京  

点击蓝字 关注我们

SUBSCRIBE to US


Cath Virginia / The Verge | Photo from Getty Images


英伟达表示,其新的人工智能音乐编辑器能够创造“前所未闻的声音”——比如会喵喵叫的小号。这个名为Fugatto的工具能够使用从未接受过训练的文本和音频输入来生成音乐、声音和语音。这使得Fugatto能够根据疯狂的提示组合歌曲,例如“创作一首萨克斯风先呼啸、再吠叫,然后是伴有狗叫声的电子音乐”(https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/)。


在一篇博客文章中,英伟达声称其“声音的瑞士军刀”人工智能模型可以修改现有的声音或凭空创造整个音景。Fugatto实际上是冗长的“Foundational Generative Audio Transformer Opus 1.”的首字母缩写。它能够处理声音、音乐和背景噪音,并将它们全部制作成单个音轨。它还可以修改现有的声源。


它甚至可以改变某人的声音,改变他们的口音或给他们不同的语调,比如愤怒或平静。也有编辑音乐的方法,因为Fugatto可以分离歌曲中的人声,添加乐器,甚至通过将钢琴换成歌剧歌手来改变旋律。


随公告发布的一篇论文显示了Nvidia表示Fugatto接受训练的所有数据集的长列表,其中一个包括来自BBC的音效库(https://openreview.net/pdf?id=B2Fqu7Y2cd)。


目前已经有其他几种人工智能音频工具,包括来自Stability AI、OpenAI、Google DeepMind、ElevenLabs和Adobe的工具,但没有人声称能创造出全新的、闻所未闻的声音。一些人工智能初创公司甚至因其音乐创作工具而面临版权诉讼,而最近的一份报告发现,Nvidia和其他公司在数千个YouTube视频的字幕上训练了人工智能模型。


Nvidia表示,为了构建Fugatto,研究人员必须整合一个包含数百万音频样本的数据集。然后,他们创建了指令,“大大扩展了模型可以执行的任务范围,同时实现了更准确的性能,并在不需要额外数据的情况下启用了新任务。”英伟达没有说该工具何时或是否会广泛使用。


微信号|IEEE电气电子工程师学会

新浪微博|IEEE中国

 · IEEE电气电子工程师学会 · 


生成式人工智能带来的电子废弃物垃圾不容忽视

毫米波或许不是最有前景的6G频谱?

电动汽车的未来发展

阿塞拜疆计划建设里海-黑海能源走廊

IEEE电气电子工程师学会
IEEE是全球专业技术协会之一,一直致力于推动电气电子技术在理论方面的发展和应用方面的进步。IEEE在全球160多个国家有超过四十万名会员。
 最新文章