英伟达整活儿,32块H100诞生音频怪兽Fugatto

文摘   2024-11-27 08:00   北京  

在人工智能领域的最新突破中,科技巨头英伟达(NVDA.US)向世界展示了一款革命性的音频生成模型——Fugatto(全称:Foundational Generative Audio Transformer Opus)。这一创新成果不仅标志着音频处理技术的重大进展,更预示着创意产业的变革曙光。

这款AI模型的独特之处在于其多样化的音频处理能力。它不仅能够基于文本生成原创音乐,还能对现有音频进行深度改造:无论是乐器的添加与删除,还是声音情绪的调校,甚至能创造出前所未闻的音效。正如项目负责人、英伟达应用音频研究经理Rafael Valle所言:"我们的目标是打造一个具有人类级别声音理解与创作能力的模型。"

在实际应用中,Fugatto展现出令人瞩目的潜力。广告行业可以利用它快速实现多区域配音的本地化,调整语音口音与情感;游戏开发者则可以根据玩家的实时行为动态调整音频效果。更令人惊叹的是,这款模型能够实现将小号转换为犬吠声、萨克斯管模拟猫叫等超现实音效,通过最小化的训练数据便能实现高质量的歌声生成。

在技术层面,Fugatto采用了250亿参数的庞大模型架构,借助32台Nvidia H100 Tensor Core GPU组成的DGX系统进行训练,整个开发周期跨度超过一年。这一投入规模充分体现了英伟达在人工智能领域的决心与实力。

随着Fugatto的问世,生成式AI领域的竞争态势更趋白热化。创业公司Runway和科技巨头Meta Platforms都在这一领域有所布局,其中Meta更是在去年10月推出了能够根据用户提示创建逼真视听内容的MovieGen模型。这种竞争态势预示着音频处理技术将迎来更多创新突破,为创意产业带来无限可能。

Infonity AI 鹰飞无限
欢迎来到鹰飞智推-AI情报局,我们致力于为您提供最前沿的AI开源情报分享。我们推送最新的AI资讯、解读最具价值的研究报告、分享行业前沿趋势。如果您关注AI发展趋势、应用案例、最新研究成果,快来关注我们吧!
 最新文章