Meta AI 重磅发布 MovieGen,视频生成新王者来袭!

文摘   2024-10-06 12:07   美国  

还记得 OpenAI Sora 带来的震撼吗?现在,Meta AI 推出的 MovieGen 或许将再次颠覆你的想象!这款全新的 AI 视频生成模型不仅拥有媲美 Sora 的强大功能,更在个性化定制、视频编辑等方面实现了突破,将电影级的视频创作体验带给每一个人。

图:MovieGen 可以根据文本提示生成各种视频,例如蓝色的鸸鹋在海洋中游泳

AI 技术的飞速发展,正将曾经只存在于科幻电影中的场景变为现实。OpenAI Sora 的发布,以其生成视频的逼真程度,让世人惊叹于 AI 的强大能力。如今,Meta AI 推出的 MovieGen 模型系列,则将 AI 视频生成技术推向了全新的高度。

MovieGen vs. Sora:谁是视频生成新王者?

MovieGen 不仅拥有媲美 Sora 的文本生成视频能力,更在个性化定制、视频编辑、音频生成等方面实现了全面升级,为用户带来更强大、更便捷的视频创作体验。

MovieGen 的两大核心模型:

  1. 1. MovieGen Video: 这是一个拥有 300 亿参数的文本到视频生成基础模型,能够根据你的文字描述,生成长达 16 秒的高清视频。与 Sora 类似,MovieGen Video 也能生成不同分辨率、不同时长、不同长宽比的视频。但 MovieGen Video 的优势在于,它能更准确地理解文本描述,生成更符合用户预期的视频。例如,你可以输入“一只可爱的泰迪熊在草地上快乐地奔跑”,MovieGen Video 就能生成一个画面清晰、动作流畅、充满童趣的视频。为了让 MovieGen Video 真正理解视觉世界,Meta AI 团队在数亿个视频和数十亿张图像上对其进行联合预训练。经过“观看”海量视频的学习,MovieGen Video 掌握了物体运动、主客体交互、几何形状、摄像机运动、物理等方面的知识,并能根据不同概念生成合理的运动。为了进一步提升视频的质量,团队还使用精选的高质量视频和文本描述对其进行了监督微调。

  2. 2. MovieGen Audio: 这是一个拥有 130 亿参数的视频和文本到音频生成基础模型,能够为视频生成同步的 48kHz 高质量音效和音乐,这是 Sora 目前尚未实现的功能。想象一下,你生成的视频不仅画面精美,还有扣人心弦的音效和背景音乐,是不是更具电影质感?为了让 MovieGen Audio 掌握声音的奥秘,Meta AI 团队使用了数百万小时的音频对其进行预训练。经过学习,MovieGen Audio 不仅掌握了声音与视觉之间的物理关联,更理解了声音与视觉世界之间的心理关联,从而生成与画面完美契合的音频。

我的视频我做主:个性化定制与精确编辑

MovieGen 不仅仅是一个视频生成工具,它更像是一个强大的电影工作室,为你提供全方位的创作体验,让你可以完全掌控自己的创作:

  1.  视频个性化: 想成为电影主角?没问题!MovieGen 允许你上传一张人物照片,并根据文本描述生成以你为主角的视频。想象一下,你可以化身超级英雄,拯救世界于水火之中,或者成为探险家,探索未知的秘境。MovieGen 将你的梦想照进现实!

图:MovieGen 可以根据用户上传的人物照片生成个性化视频

2. 精确编辑: 对生成的视频不满意?想修改一些细节?MovieGen 提供了精确的视频编辑功能,只需输入文字指令,就能修改视频中的画面、添加或删除物体、改变背景等等。例如,你可以将视频中的白天变成黑夜,将人物的服装换成你喜欢的款式,甚至将人物变成动物。MovieGen 就像一个神奇的魔法棒,让你随心所欲地编辑视频!

图:MovieGen 可以根据用户输入的文字指令对视频进行精确编辑

技术创新,重新定义 AI 视频生成

MovieGen 的强大功能背后,是 Meta AI 团队一系列的技术创新和简化:

  • • 联合图像和视频生成: Movie Gen 采用单一基础模型 Movie Gen Video,同时进行文本到图像和文本到视频的训练。这意味着 Movie Gen 将图像视为单帧视频,从而可以使用相同的模型生成图像和视频。这种联合建模方法有助于模型更好地概括和理解不同概念和风格。

  • • 多阶段训练: 为了提高训练效率,Movie Gen 采用多阶段训练策略。首先在低分辨率图像上进行预训练,然后在低分辨率图像和视频上进行联合预训练,最后在高分辨率视频上进行微调,以提高生成质量。

  • • 压缩潜在空间生成: 为了提高训练和推理效率, Movie Gen 在一个学习到的视频压缩潜在空间中进行生成。它使用时间自动编码器(TAE)将 RGB 图像和视频映射到压缩的潜在空间,反之亦然。

  • • 丰富的文本嵌入和视觉文本生成: Movie Gen 使用预先训练的文本编码器(UL2、ByT5 和 Long-prompt MetaCLIP)将输入文本提示转换为文本嵌入,为视频生成提供语义级和字符级的文本理解。

  • • 高质量视频数据微调: Movie Gen 使用高质量的视频数据集进行微调,这些视频具有良好的运动、真实感、美感、广泛的概念和高质量的标题。

AI 视频生成将走向何方?

MovieGen 的发布,无疑为我们打开了 AI 视频生成的新大门。未来,AI 视频生成技术将会朝着以下方向发展:

  • • 更高质量、更长时长视频: 随着模型的不断改进和训练数据的增加,Movie Gen 将能够生成更加逼真、时长更长的视频,甚至可以生成完整的电影。

  • • 更强的控制力和可编辑性: 未来的 Movie Gen 将允许用户对生成的视频进行更精细的控制,例如调整角色的外观、动作和表情,甚至可以像操控木偶一样控制视频中的人物。

  • • 更广泛的应用场景: Movie Gen 将被应用于更多领域,例如游戏开发、广告制作、教育培训、虚拟现实、增强现实等,为我们带来更加精彩纷呈的视觉体验。

MovieGen 的出现,预示着 AI 视频生成技术将迎来更加蓬勃的发展。相信在不久的将来,AI 将彻底改变视频内容的创作方式,为我们带来一个充满无限可能的未来世界!

相关链接

  • • MovieGen Research Videos: https://go.fb.me/MovieGenResearchVideos

  • • Movie Gen team @ Meta: https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章