Google DeepMind 的Video-to-audio research - 为视频配音

文摘   2024-07-15 21:21   四川  

Google DeepMind发布了一个Video-to-audio research,利用视频像素和文本提示生成丰富的音轨。和之前介绍的FoleyCrafter 给视频配声音效果的 AI 模型类似。V2A 将视频像素与自然语言文本提示相结合,为屏幕上的动作生成丰富的声音景观。V2A 技术可以与视频生成模型如 Veo 配对,创造出具有戏剧性配乐、逼真音效或与视频角色和语调相匹配的对话场景;还可以为各种传统素材生成音轨,包括档案资料、无声电影等,开辟了更广泛的创作机会。

Prompt for audio: Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete

该研究与现有的视频到音频解决方案不同,因为它能够理解原始像素,并且添加文本提示是可选的。此外,该系统不需要手动调整生成的声音与视频的对齐,这通常涉及对声音、视觉和时间元素的繁琐调整。

增强的创作控制

重要的是,V2A 可以为任何视频输入生成无限数量的音轨。用户可以选择定义“正面提示”以引导生成期望的声音,或“负面提示”以避开不期望的声音。这种灵活性使用户对 V2A 的音频输出有了更多的控制,可以快速试验不同的音频输出并选择最佳匹配。

Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi

Prompt for audio: Ethereal cello atmosphere

Prompt for audio: A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi

工作原理

在自回归和扩散方法上进行了实验,以寻找最具扩展性的 AI 架构,结果发现基于扩散的方法在音频生成方面提供了最真实且引人入胜的效果,能够同步视频和音频信息。V2A 系统首先将视频输入编码成压缩表示,然后扩散模型从随机噪声中迭代地细化音频。这个过程由视觉输入和自然语言提示引导,生成与提示紧密一致的同步、真实音频。最终,音频输出被解码,转换成音频波形并与视频数据结合。

V2A 系统通过视频像素和音频提示输入生成与视频同步的音频波形。首先,V2A 对视频和音频提示输入进行编码,并通过扩散模型迭代处理。然后生成压缩音频,再解码成音频波形。为了生成更高质量的音频并增加引导模型生成特定声音的能力,在训练过程中添加了更多信息,包括 AI 生成的带有详细声音描述和对话记录的注释。通过对视频、音频和附加注释的训练,我们的技术学会了将特定音频事件与各种视觉场景关联起来,同时响应注释或对话记录中提供的信息。

仍然存在的挑战

由于音频输出的质量依赖于视频输入的质量,因此视频中的伪影或失真(超出模型训练分布之外的部分)可能会导致音频质量显著下降。还在改进涉及讲话视频的唇同步。V2A 试图根据输入的对话记录生成语音并与角色的唇部动作同步。但配对的视频生成模型可能没有基于对话记录进行调整,这导致了不匹配,常常会出现令人感到不适的唇同步问题,因为视频模型生成的口型动作与对话记录不匹配。

Prompt for audio: Music, Transcript: “this turkey looks amazing, I’m so hungry”

Renee 创业随笔
絮絮叨叨