点击⬇️图标关注 抓住你的灵感💡瞬间
Anastasis介绍 Runway 公司在生成式视频领域取得的进展,尤其是其最新的 Gen 3 Alpha 模型。他回顾了生成式视频技术的演变历程,从早期的低分辨率、低帧率视频,到如今 Gen 3 Alpha 模型可以生成接近真实世界的、包含复杂动作和场景变化的视频。强调了 Runway 对模型可控性的重视,并展示了其在多模态控制方面的最新进展,例如图像到视频、视频到视频的转换能力。最后,他表达了对生成式视频领域未来发展的期待,并分享了 Runway 在推动 AI 电影制作方面的努力,例如举办 AI 电影节和设立 100 部电影基金。
一、生成式视频技术发展历程 (2020 - 2024)
2020年:生成对抗网络 (GAN) 用于生成视频,只能生成单一类型物体,且真实度不高。 2021年:首次尝试使用生成模型制作短片,画面像素低、帧率低,叙事能力有限。 2022年:生成图像质量提升,首帧画面接近真实照片,但视频连贯性仍不足。 2023年:发布 Gen 1 和 Gen 2 生成视频模型,展现出物体运动和场景元素流动,但场景变化有限。 2024年:Gen 3 Alpha 发布,画质和真实度大幅提升,能够生成连贯运动和场景变化,展现出质的飞跃。
二、视频生成:构建世界模型
视频生成模型需要学习世界中的不同概念,包括场景的语义和视觉构成、3D 一致性、遮挡处理等。 模型通过预测下一帧画面来学习视觉世界的各个方面,类似于语言模型通过预测下一个词来学习语言。 随着计算能力和数据量的增加,图像和视频生成模型的性能和真实度持续提高。
三、Gen 3 Alpha 的新兴能力
场景变化: 能够在视频中引入新的元素和场景变化,增强叙事能力。 人物真实度: 可以生成真实的人类角色,展现出各种动作和与物体互动,物体状态也会相应改变。 文本生成: 能够生成逼真的文本动画,可用于制作标题和动画内容。 物理理解: 对物理定律有直观的理解,能够模拟重力、液体等物理现象。
四、多模态控制:赋能艺术家创作
Runway 致力于赋予艺术家对模型输出的控制能力,提供多种控制模式,包括文本、图像、视频等。 多模态控制使艺术家能够更自由地表达创作意图,创作更独特的故事。
五、Gen 3 Alpha 的工程挑战
数据预处理: 确保数据集质量和多样性,包含目标任务和内容风格。 数据规模: 视频样本比语言样本大得多,需要处理数据加载和网络通信方面的瓶颈。
六、Ray 在数据处理中的作用
Ray 帮助 Runway 构建数据基础设施和数据流水线,高效地进行大规模数据预处理。 Ray 具有良好的开发者体验,方便快速迭代和扩展工作负载。
七、未来方向:扩展世界模型
未来将扩展视觉世界模型,以更全面地理解世界,构建更通用的现实模拟。 世界模型的应用将超越内容创作,扩展到更广泛的领域。
八、艺术与世界模型的联系
构建更精确的世界模型可以生成更独特、更具创意的艺术作品。
九、Runway 的社区建设
Runway 致力于推动生成式媒体领域的发展,为艺术家和创作者提供机会和支持。 AI 电影节和 100 部电影基金为艺术家提供了展示作品和创作故事的平台。
十、AI 电影制作的未来
随着模型的改进,AI 电影制作将蓬勃发展,涌现出更多前所未有的故事。
以下是演讲编译:
今天有一些非常令人兴奋的更新要分享,所以我将谈谈过去一年里我们在 Runway 所做的一些工作。对于那些不太了解我们的人来说,Runway 是一家开发创意工具的公司。我们是一家应用研究公司,专注于艺术与技术的交汇点,重点打造下一代生成式媒体工具。我总是喜欢在演讲的开头做一个简短的历史回顾,这有助于我们理解当前所处的时刻。我认为,由于这个领域的发展速度非常快,很容易忘记我们在如此短的时间内取得的巨大进展。
一、生成式视频技术发展历程 (2020 - 2024)
这是 2020 年时生成视频的样子,这是我们发布的第一个生成视频功能。那时,模型还没有那么普及。我们采用了生成对抗网络 (GAN) 这种当时流行的架构,在不同的潜在空间点之间进行插值。这个方法在训练特定类型的物体(比如鞋子或面孔)时效果还不错,但几乎没有泛化能力。即使在这种非常特定的领域内,生成效果也不是很逼真。
接着到了 2021 年,这是我们首次内部尝试用生成模型制作短片。这部影片我们内部称之为《橙子》,它使用了交互式分割和翻译模型。正如你所看到的,它的像素化程度很高,帧率非常低,我们必须逐帧生成。虽然可以讲述一个故事,但它可能并不是一个非常引人入胜的故事。
然后是 2022 年,图像生成的进步非常迅速,虽然你还不能生成一个非常连贯的长视频,但至少第一帧开始接近照片级的逼真效果,给人一种更具吸引力的感觉。
最后,到了 2023 年,我们发布了第一代和第二代生成视频模型。这是一些我们 Gen 2 模型的片段,正如你所见,你现在可以看到一些运动的迹象,比如动物在移动,瀑布在流动,但场景还是相当静态,变化不大。
最后到了 2024 年,我们发布了 Gen 3 Alpha,你可以看到质量和照片级逼真度的巨大提升,更重要的是生成的运动变得更加连贯,场景会随时间变化,这是以前的模型所没有的。
二、视频生成:构建世界模型
这段简短的历史回顾旨在让我们思考,如果这一进展速度持续下去,我们几年后的未来会是什么样子。我们对视频生成的看法是将其视为一种“世界建模”,这是我们在持续扩展这些模型时采用的框架。为了让模型能够预测视频,并生成与现实世界相似的连贯视频,它需要学习世界的各类概念。它不仅要理解场景的语义和视觉构图,还需要掌握 3D 一致性,确保物体在场景中的位置保持稳定,能够处理遮挡等问题。这些都不是模型通过明确训练学到的,而是通过简单的视频预测任务,模型从视觉世界中自动获得的能力。
这有点类似于语言领域,通过预测下一个 token 来实现各种能力的学习,而通过预测下一帧也能产生同样的能力。在语言领域,模型扩展法则现在已经相当成熟,并被广泛接受。但在图像和视频领域,采用这种框架花费了更长的时间。然而,我们发现图像和视频领域与语言领域展现了相同的趋势:当我们为这些模型提供更多的计算资源和数据时,它们的表现能够稳定并可预测地提升,生成出的照片级逼真内容也能更好地与文本提示匹配。
我们认为,通过扩展这些模型,我们还有很长的路要走,目前还远未达到性能的饱和状态。而我们认为这是构建更强大、更通用世界模型的重要路径之一。
三、Gen 3 Alpha 的新兴能力
我想展示一些在 Gen 3 Alpha 中看到的最新能力,值得注意的是,这些并非模型经过明确任务训练的结果,而是模型自动学习到的。其中最令人惊讶和有趣的能力之一是,Gen 3 Alpha 能够在视频的持续时间内引入场景中的变化。以前的模型往往只能延续第一帧的运动,但很难在场景中引入新的元素。而要讲述一个动态变化的叙事故事,必须能够实现这种能力。
另外,在照片级逼真度上,尤其是生成人物方面,模型也有了显著提升。显然,生成能够在世界中进行各种动作的人物角色是讲述任何故事的关键部分。我们在 Gen 3 Alpha 中看到了令人惊叹的新能力,不仅是人物动作的连贯性,还包括人物与物体的互动,甚至物体的状态会对互动做出反应。例如,当人物弹钢琴时,钢琴键会随之变化。这看似是一个显而易见的功能,但模型需要学习场景中不同元素之间的相互作用关系,以及如何通过动作改变世界中物体的状态。
我们还看到了在生成文本能力上的显著提升。这与图像生成领域有些不同,尽管你可以在图像中渲染出逼真的文本,但在视频中,文本可以出现在场景中央,并且生成这些令人惊叹的标题和动画效果非常引人注目。我对这项技术感到特别兴奋的是,它能够更深入地理解世界中的互动。虽然它还不完美,不能完全遵循物理定律,但它像人类一样对物理现象有一种直观的理解。与之前的生成模型相比,这是一个巨大的飞跃。
同样地,液体模拟能力也显著增强。模型并没有专门为此进行训练,而是从数据中自主学会了这种能力,这一点尤其令人惊叹。Runway 的主要关注点之一是如何控制模型的输出。我们不仅仅是为了研究或让模型生成出引人注目的结果,更重要的是要确保输出能够反映出艺术家和创作者的想法与愿景。因此,我们特别关注多模态控制,确保用户不仅可以通过文本来控制生成,还可以通过起始图像或输入视频进行控制。这些不同的控制方式有各自不同的应用场景。我们的一般思路是,尽可能多地为艺术家在使用这些工具时提供选择。
四、多模态控制:赋能艺术家创作
这与当前主流的 AI 模型开发思路有所不同,后者通常倾向于减少用户的选择空间,让模型在某些情况下自主决策。然而,我们认为,讲故事的过程其实是创作者思想的反映,而不是要让 AI 完全自动化这个过程。我们希望通过这些工具增强艺术家的能力,而不是取代他们。因此,我们将这些模型视为一种思维伙伴,而不是自主行动的 AI 智能体。通过提供更多的输入方式和控制选项,我们希望让人类用户能够讲述更加独特的故事,而不是由 AI 来生成一个感人的故事。因为我相信,生成式媒体的真正潜力在于增加和丰富那些尚未讲述的故事。
接下来,我想展示我们在控制能力方面所做的一些工作,尤其是过去几个月我们推出的不同控制模式。首先是“图像到视频”模式,它允许用户从一个起始帧开始(例如,这里使用的是在纽约不同地点拍摄的照片),然后可以在场景中引入新的元素。让我特别兴奋的是,你可以在场景中引入极具戏剧性的变化,比如打开通往其他维度的传送门。这是传统的“图像到视频”功能无法实现的,因此我们看到许多令人惊叹的作品利用了这一工具。
类似地,“视频到视频”模式也带来了令人惊喜的成果。“视频到视频”模式允许你以摄像机拍摄的原始视频作为输入,在保持视频总体结构不变的情况下,完全改变视频的风格。在这个例子中,视频是通过 Vision Pro 在我们位于纽约的办公室拍摄的,你可以看到视频风格得到了彻底转换。这项技术的应用非常广泛,我喜欢把它称为“真正的增强现实”,因为它能够在实时场景中实现极具吸引力的风格转换。
五、Gen 3 Alpha 的工程挑战
训练 Gen 3 Alpha 涉及许多工程挑战。虽然语言模型领域已经有了较为成熟的扩展和训练实践,但视频模型的训练存在一些独特的挑战。最明显的一个问题是,每个样本的大小要比语言模型中的样本大几个数量级。这在数据加载方面引发了瓶颈问题,确保网络通信不会成为限制,并确保计算与通信的重叠处理顺利进行。数据预处理同样面临很多挑战,必须确保你的训练数据集包含模型需要学习的任务,并且数据的质量、多样性和平衡性都达到标准。这是一个需要细致策划和构建的过程。
为了应对这些数据预处理的挑战,我们重新设计了整个数据基础设施和数据处理流水线。Ray 在这个过程中起到了至关重要的作用,SC 团队的出色工作极大地加快了我们大规模数据处理的速度,确保我们能够按时完成任务。这是我们第一次在数据预处理中扩展到成千上万个实例来处理数据,而 AnyScale 团队的支持更像是我们团队的延伸,帮助我们顺利解决了这些挑战。
Ray 系统从开发者体验出发,构建了一整套生态系统,然后在此基础上扩展功能。在这个快速发展的领域中,我认为这种方法是非常正确的。每一次新模型的扩展或新模态的引入,都会带来全新的挑战,而 Ray 让我们能够更快地进行迭代,轻松在本地运行模型,并迅速扩展到大规模工作负载,比我们尝试过的其他框架要快得多。因此,我们对与 AnyScale 团队的合作感到非常满意。
七、未来方向:扩展世界模型
接下来,我想谈谈我们的未来计划。回到“世界建模”的概念上,我们认为,理解视觉世界对于构建通用的、实用的生成模型系统是非常关键的。这是一个在人工智能领域被低估的方面。如今太多的精力都集中在通过语言来实现通用智能,但实际上,世界上很多信息是无法通过语言准确表达的。语言是一种高度压缩的现实表达方式。因此,通过视觉数据推进“世界建模”这一理念还有很大的发展空间。视觉数据的尺度非常广泛,它可以描述从微观的原子尺度互动到宏观的天体物理数据,所有这些都可以通过视频形式呈现。
这就是我们的未来方向——扩展视觉世界模型,使其能够模拟更加广泛的现实。其应用领域将不仅仅局限于内容创作,还会拓展到更多其他用例,这让我非常期待。
你可能会问,世界建模与我们团队的艺术核心有什么联系?事实上,它们密不可分。你对现实世界的建模越精确,就越能够超越现有的框架,创造出全新的可能性。我们已经在 Gen 3 Alpha 的很多视频中看到了这一点——这些视频与以往制作的任何视频都截然不同,因为模型已经学会了数据中的基本概念,并能够以全新的方式将这些概念重新组合。
唯一能够实现这一点的方法是让模型深入学习这些概念。因此,我坚信,随着我们构建出更强大、更智能的世界模型,我们也将能够创作出更加独特、前所未有的艺术作品。
九、Runway 的社区建设
Runway 的一切都离不开每天使用我们平台的艺术家和创作者的支持。我认为,推动生成式媒体领域向前发展的关键任务之一,就是为那些正在探索 AI 电影制作的艺术家创造更多的机会。目前,使用这些模型进行创作的机会还不多,许多艺术家正在摸索 AI 电影制作的可能性。
在 Runway,我们投入了大量时间来构建这个创作社区,并为展示这些优秀作品寻找机会。我们已经连续两年举办了 AI 电影节,希望未来能够继续。这个电影节展示了使用 AI 技术制作的短片,而我们也见证了一些非常精彩的故事诞生于这个电影节。甚至有些艺术家因此开始了全新的职业生涯——他们原本只是兼职在创作,而在电影节上展示作品后,首次能够全职投入电影制作。
最近,我们宣布了“100 部电影基金”。这是我们为支持艺术家利用生成式媒体讲述精彩故事而提供的又一个机会。该基金将资助那些在项目中使用 AI 技术的电影创作,我们非常期待看到这些艺术家在拥有足够的空间和时间后,能够利用这些工具创作出怎样的故事。
十、AI 电影制作的未来
我坚信,随着模型的不断进步,AI 电影制作将进一步扩展。明年我们将看到更多从未被讲述过的故事,我对此感到无比期待。谢谢大家![掌声]
本文使用 Notion Nice 排版一键生成
参考:https://www.youtube.com/watch?v=iMttGrkgn5E
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
点击关注和转发公众号 保持你对AI优质内容的敏感