Meta AI 重磅发布 MovieGen，视频生成新王者来袭！

文摘 2024-10-06 12:07 美国

还记得 OpenAI Sora 带来的震撼吗？现在，Meta AI 推出的 MovieGen 或许将再次颠覆你的想象！这款全新的 AI 视频生成模型不仅拥有媲美 Sora 的强大功能，更在个性化定制、视频编辑等方面实现了突破，将电影级的视频创作体验带给每一个人。

图：MovieGen 可以根据文本提示生成各种视频，例如蓝色的鸸鹋在海洋中游泳

AI 技术的飞速发展，正将曾经只存在于科幻电影中的场景变为现实。OpenAI Sora 的发布，以其生成视频的逼真程度，让世人惊叹于 AI 的强大能力。如今，Meta AI 推出的 MovieGen 模型系列，则将 AI 视频生成技术推向了全新的高度。

MovieGen vs. Sora：谁是视频生成新王者？

MovieGen 不仅拥有媲美 Sora 的文本生成视频能力，更在个性化定制、视频编辑、音频生成等方面实现了全面升级，为用户带来更强大、更便捷的视频创作体验。

MovieGen 的两大核心模型:

1. MovieGen Video: 这是一个拥有 300 亿参数的文本到视频生成基础模型，能够根据你的文字描述，生成长达 16 秒的高清视频。与 Sora 类似，MovieGen Video 也能生成不同分辨率、不同时长、不同长宽比的视频。但 MovieGen Video 的优势在于，它能更准确地理解文本描述，生成更符合用户预期的视频。例如，你可以输入“一只可爱的泰迪熊在草地上快乐地奔跑”，MovieGen Video 就能生成一个画面清晰、动作流畅、充满童趣的视频。为了让 MovieGen Video 真正理解视觉世界，Meta AI 团队在数亿个视频和数十亿张图像上对其进行联合预训练。经过“观看”海量视频的学习，MovieGen Video 掌握了物体运动、主客体交互、几何形状、摄像机运动、物理等方面的知识，并能根据不同概念生成合理的运动。为了进一步提升视频的质量，团队还使用精选的高质量视频和文本描述对其进行了监督微调。
2. MovieGen Audio: 这是一个拥有 130 亿参数的视频和文本到音频生成基础模型，能够为视频生成同步的 48kHz 高质量音效和音乐，这是 Sora 目前尚未实现的功能。想象一下，你生成的视频不仅画面精美，还有扣人心弦的音效和背景音乐，是不是更具电影质感？为了让 MovieGen Audio 掌握声音的奥秘，Meta AI 团队使用了数百万小时的音频对其进行预训练。经过学习，MovieGen Audio 不仅掌握了声音与视觉之间的物理关联，更理解了声音与视觉世界之间的心理关联，从而生成与画面完美契合的音频。

我的视频我做主：个性化定制与精确编辑

MovieGen 不仅仅是一个视频生成工具，它更像是一个强大的电影工作室，为你提供全方位的创作体验，让你可以完全掌控自己的创作：

视频个性化： 想成为电影主角？没问题！MovieGen 允许你上传一张人物照片，并根据文本描述生成以你为主角的视频。想象一下，你可以化身超级英雄，拯救世界于水火之中，或者成为探险家，探索未知的秘境。MovieGen 将你的梦想照进现实！

图：MovieGen 可以根据用户上传的人物照片生成个性化视频

2. 精确编辑： 对生成的视频不满意？想修改一些细节？MovieGen 提供了精确的视频编辑功能，只需输入文字指令，就能修改视频中的画面、添加或删除物体、改变背景等等。例如，你可以将视频中的白天变成黑夜，将人物的服装换成你喜欢的款式，甚至将人物变成动物。MovieGen 就像一个神奇的魔法棒，让你随心所欲地编辑视频！

图：MovieGen 可以根据用户输入的文字指令对视频进行精确编辑

技术创新，重新定义 AI 视频生成

MovieGen 的强大功能背后，是 Meta AI 团队一系列的技术创新和简化：

• 联合图像和视频生成: Movie Gen 采用单一基础模型 Movie Gen Video，同时进行文本到图像和文本到视频的训练。这意味着 Movie Gen 将图像视为单帧视频，从而可以使用相同的模型生成图像和视频。这种联合建模方法有助于模型更好地概括和理解不同概念和风格。
• 多阶段训练: 为了提高训练效率，Movie Gen 采用多阶段训练策略。首先在低分辨率图像上进行预训练，然后在低分辨率图像和视频上进行联合预训练，最后在高分辨率视频上进行微调，以提高生成质量。
• 压缩潜在空间生成: 为了提高训练和推理效率， Movie Gen 在一个学习到的视频压缩潜在空间中进行生成。它使用时间自动编码器（TAE）将 RGB 图像和视频映射到压缩的潜在空间，反之亦然。
• 丰富的文本嵌入和视觉文本生成: Movie Gen 使用预先训练的文本编码器（UL2、ByT5 和 Long-prompt MetaCLIP）将输入文本提示转换为文本嵌入，为视频生成提供语义级和字符级的文本理解。
• 高质量视频数据微调: Movie Gen 使用高质量的视频数据集进行微调，这些视频具有良好的运动、真实感、美感、广泛的概念和高质量的标题。

AI 视频生成将走向何方？

MovieGen 的发布，无疑为我们打开了 AI 视频生成的新大门。未来，AI 视频生成技术将会朝着以下方向发展：

• 更高质量、更长时长视频: 随着模型的不断改进和训练数据的增加，Movie Gen 将能够生成更加逼真、时长更长的视频，甚至可以生成完整的电影。
• 更强的控制力和可编辑性: 未来的 Movie Gen 将允许用户对生成的视频进行更精细的控制，例如调整角色的外观、动作和表情，甚至可以像操控木偶一样控制视频中的人物。
• 更广泛的应用场景: Movie Gen 将被应用于更多领域，例如游戏开发、广告制作、教育培训、虚拟现实、增强现实等，为我们带来更加精彩纷呈的视觉体验。

MovieGen 的出现，预示着 AI 视频生成技术将迎来更加蓬勃的发展。相信在不久的将来，AI 将彻底改变视频内容的创作方式，为我们带来一个充满无限可能的未来世界！

Meta AI 重磅发布 MovieGen，视频生成新王者来袭！

MovieGen vs. Sora：谁是视频生成新王者？

我的视频我做主：个性化定制与精确编辑

技术创新，重新定义 AI 视频生成

AI 视频生成将走向何方？

相关链接