还在愁给你的AI 视频配什么音频?Meta的Movie Gen Audio来了!

旅行   2024-10-05 08:00   北京  

Meta的新模型让视频有了声音!

Meta最近发布了一个名为Movie Gen Audio Model的新模型,这个模型简直就是给视频加声音的魔法师!它不仅能为视频生成音频,还能让这些音效完美同步,堪称AI音频界的一大突破。

模型特性:13B参数的音频巨人

模型拥有13B的参数量,专门用于视频/文本到音频的合成。它能生成高达48kHz的电影级音频,而且可以完美地与视觉输入同步。不管你的视频有多长,它都能应付自如,最长可以处理30秒的视频

最神奇的是,它能学习视觉和音频之间的关联,创造出场内音(diegetic)和场外音(non-diegetic),还能生成音乐,让整个视频体验更加真实。

训练秘诀:SFT和Flow Matching

为了提高音频质量,研究人员使用了SFT(指令微调)技术,重点关注电影风格的音频。他们还采用了掩码音频预测的方法,让模型能够处理各种音频情境,包括生成、延长和填充。

在训练过程中,他们使用了Flow Matching目标,这不仅让训练更高效,在推理时也能发挥作用。模型的架构采用了Diffusion Transformer(DiT),可以说是强中自有强中手。

技术细节:潜在扩散和DAC-VAE

在技术实现上,Movie Gen Audio Model使用了潜在扩散DAC-VAE(Denoising Autoencoder-Variational Autoencoder)的组合。这种方法可以将48kHz的音频编码到25Hz,比起Encodec来说,不仅质量更高,帧率还更低。

为了进一步提升效果,研究人员对DAC-VAE做了一些改进:

  1. 使用了多尺度STFT(短时傅里叶变换)

  2. 采用Snake激活函数来减少伪影

  3. 提高了周期性

他们还移除了RVQ(残差向量量化),并对VAE进行了训练,这些措施都大大提升了压缩率下的重建质量。

试想未来,我们可能只需要上传一段无声视频,AI就能为我们添加合适的背景音乐、环境音效,甚至是角色对白!

再也不用为给你的AI 视频配什么音频而发愁了!

不过,虽然这项技术能让视频创作变得更加简单,甚至还可能在电影制作、游戏开发等领域产生重大影响。

但这也可能带来一些伦理问题,比如音频造假或被用于诈骗。

不管怎么样,先用起来再说吧!

早了就有机会享受到红利,晚了就可能要遭殃。

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本;

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目;

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

AGI Hunt
关注AGI 的沿途风景!
 最新文章