昨日,生成性人工智能领域迎来了一次重大突破,英伟达公司一款名为 Fugatto(全称Foundational Generative Audio Transformer Opus 1)的音频操控工具横空出世。这款工具让用户仅凭文字就能控制音频输出,堪称音频领域的“瑞士军刀”(文末有演示视频)。
一、音频操控新纪元
与以往的人工智能音频工具相比,Fugatto 的灵活性远超以往。它不仅可以基于文本提示创建音乐片段,还能从现有歌曲中移除或添加乐器,改变声音中的口音或情感,甚至生成人们从未听过的声音。这款产品的出现,无疑为音频创作带来了全新的可能性。
二、多领域应用,潜力无限
Fugatto 的应用领域广泛,音乐制作人可以利用它快速原型制作或编辑歌曲,尝试不同的风格、声音和乐器。广告代理公司可以针对现有活动进行多地区或多情境的目标定位,为旁白应用不同的口音和情感。语言学习工具可以个性化,使用任何说话者选择的声音。视频游戏开发者则可以修改游戏中的预录资产,或根据文本指令和可选的音频输入即时创建新的资产。
三、技术背后的创新
Fugatto 之所以能实现如此强大的功能,离不开其背后的技术创新。它采用了基础生成性 Transformer 模型,并建立在团队在语音建模、音频编码和音频理解等领域的先前工作之上。
模型使用了25亿个参数,并在装有32个 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX 系统上进行训练。此外,Fugatto 还采用了 ComposableART 技术,使用户能够对文本指令进行细粒度控制,如口音的重量或悲伤的程度。
四、用户体验与艺术控制
Fugatto 不仅功能强大,还注重用户体验。用户可以通过微调和少量的歌唱数据,让模型处理没有预训练的任务,如从文本提示生成高质量的歌唱声音。此外,模型还生成随时间变化的声音,使用户能够对声音景观的演变进行细粒度控制。这意味着用户不仅可以创建出以前从未见过的声音景观,还能对声音的变化进行精确控制,从而创作出更具艺术感的作品。
五、团队与努力
Fugatto 是由来自世界各地的多样化团队制作的,包括印度、巴西、中国、约旦和韩国等国家的成员。他们的合作使 Fugatto 的多口音和多语言能力更强。在研发过程中,团队遇到了诸多困难,如生成一个包含数百万用于训练的音频样本的混合数据集。但经过一年多的努力,他们终于取得了今天的成果。
英伟达公司 相关报道
英伟达收入几乎翻倍:Blackwell AI 芯片引领行业变革
英伟达财报超预期却遭市场冷遇,Blackwell AI 芯片与500亿美元回购计划预示光明未来
更多AI热点资讯,请每日关注AI今说~