英伟达发布音频模型Fugatto,可以学狗叫!

旅行   2024-11-27 08:00   北京  

NVIDIA放大招,音频AI要变天了!

音频AI的想象空间被NVIDIA彻底炸开了!

刚刚,NVIDIA推出了一款名为Fugatto的音频生成大模型,让「输入一句文字,生成任何声音」从科幻变成了现实。

超能力:一键生成魔幻音效

想听会「说话的猫」?想要「尖叫的萨克斯」?

Fugatto都能帮你搞定!

这款2.5B参数的音频模型简直是声音界的变形金刚:

  • 混合音效:比如让小号和狗叫声完美融合

  • 声音变脸:随意调整声音的语气、情绪、口音

  • 声音精细过渡:想听暴雨慢慢转变成黎明鸟鸣?轻而易举

技术内核:32块H100打造

Fugatto的强大来源于其独特架构:

  • 训练数据:数百万音频样本

  • 计算力32块NVIDIA H100 GPU联合作战

  • 创新技术:ComposableART,能将原本分离的音频指令完美融合

现实应用:创意无限

这款模型将彻底改变多个领域:

  • 音乐创作:快速原型和风格实验

  • 游戏开发:动态音效生成

  • 语言学习:声音特征灵活变换

光是这些能力,就足以让音频创作者们兴奋得睡不着觉!

准备好听"不可能的声音"了吗?

👇

👇

👇

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章