Sora:视频生成模型?NO→世界模拟器,AI视频神器内部技术报告公开(多图预警)

文摘   其他   2024-02-17 18:27   安徽  

本期看点:

  • Sora模型技术报告摘要

  • Sora模型技术细节

  • 启示、思考与辩论




Sora:世界模拟器



OpenAI团队于近日推出效果逆天的文本生视频大模型:Sora,其在生成时长、对象连续性、主体互动性、对物理世界的真实模拟等诸多方面,都让人印象深刻,直呼“现实,不存在了”。

作为AI小白,震惊效果、感叹未来已来之余,也想进一步了解这神器背后的实现方法,于是去读了OpenAI团队于官网公开的Sora技术报告(https://openai.com/research/video-generation-models-as-world-simulators)。

一些认知更新:
【世界模拟器】
  • 不要把Sora简单理解为逐帧绘图的视频生成模型
  • 它其实是“世界模拟器”,可以某种程度上“理解”物体的一致性、模拟物理引擎、时空结构

【统一视觉数据处理】

  • Sora通过将视频和图片转换为“补丁”

  • 采用了一种革命性的方法来统一和简化视觉数据的处理


【低维潜在空间映射】

  • Sora利用先进的压缩技术将视频数据映射到低维潜在空间

  • 减少了数据复杂性,为高质量视频的生成提供了坚实基础


【扩展变换器的创新应用】

  • 在Sora中,扩展变换器模型的应用展示了其在处理序列数据方面的强大能力

  • 特别是在预测视频内容的生成过程中,证明了变换器架构在视频生成任务中的有效性


【文本到视频的深度理解】

  • Sora展现了对文本描述的高级理解能力

  • 能够将复杂的文本提示转化为丰富详细的视频内容,开辟了文本驱动视频创作的新可能。


【视频编辑与创新扩展】

  • 超越传统视频生成模型的能力,Sora还能进行视频编辑和扩展

  • 为视频制作提供了前所未有的灵活性和创新空间。






Sora的技术细节




1 Sora模型的技术核心

1.1 统一视觉数据处理

Sora模型的一个创新之处在于它如何处理视觉数据。

通过将视频和图片转换为“补丁”,Sora能够以一种高效且统一的方式处理各种视觉信息。



这些补丁实际上是将视频帧分解成较小的数据块,每个补丁包含了一部分的图像信息和时间信息。

这种方法类似于大型语言模型处理文本的方式,使得模型能够从这些碎片中学习到视频内容的动态变化。


1.2 低维潜在空间的映射

Sora的工作流程涉及到一个关键步骤:视频数据的压缩。

通过将视频压缩到低维潜在空间,Sora能够在减少数据复杂性的同时,保留生成高质量视频所需的关键信息。

这一过程既优化了模型的训练效率,也为后续的视频重建提供了坚实基础。


1.3 扩展变换器的创新应用

Sora利用了扩展变换器模型,这是一种专为视频内容生成设计的架构。

它通过预测如何将输入的噪声补丁转换为清晰的视频补丁,从而逐步重建视频内容。

这一过程不仅展示了变换器在处理序列数据方面的强大能力,也证明了其在视频生成任务中的有效性。

变换器模型在包括语言建模、计算机视觉和图像生成在内的多个领域,已经证明了其随着模型规模增加而提升的显著扩展能力。

在这项工作中,OpenAI发现扩散变换器模型也能有效地作为视频模型进行扩展。

以下展示了随着训练计算能力增加,在固定种子和输入条件下视频样本质量的对比。






可以明显看到,随着训练计算能力的提升,样本质量有了显著的改善。


2 Sora的训练和生成能力

2.1 训练数据的多样化

Sora的训练方法突破了传统视频生成技术的限制,它能够处理原生尺寸和格式的视频数据,这使得生成的视频能够适应多样化的显示设备和观看需求。




这种灵活性不仅提高了视频质量,也增加了模型的实用性。


2.2 文本到视频的高级理解

Sora模型展现了对文本描述的深度理解能力。

它不仅能够根据简单的文本提示生成视频,还能将复杂的描述转化为丰富的视觉内容。


前方高能预警⚠️

在复杂的生成提示中,尝试仅仅改变特定维度的关键词,测试该模型对文本描述的深度理解能力,示例如下:

XX(主体)穿着 XX(装饰)快乐溜达在 XX(地点)的XX(时间/事件)

替换上述文本描述中的XX,从而获得下面展示的不同视频,可以看出模型可以精准地理解文本的含义





























这得益于其在训练过程中使用高度描述性的视频标题和利用GPT技术将简短提示转换为详细的视频描述。

训练文本到视频生成系统需要大量带有相应文本标题的视频。OpenAI将在DALL·E 3中引入的重新标注技术应用于视频。

他们首先训练一个高度描述性的标注模型,然后使用它训练集中的所有视频生成文本标题。

在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。

类似于DALL·E 3,他们也利用GPT将简短的用户提示转换成更长、更详细的标题,这些标题随后被发送到视频模型。

这使得Sora能够生成高质量的视频,精确地遵循用户的提示。


2.3 视频编辑与创新扩展

Sora不仅仅能基于文本的输入生成视频,也可以基于图片或者视频的输入去生成相关视频。

图生视频

Sora能够基于图像和提示作为输入生成视频。

下面展示基于DALL·E 231和DALL·E 330图像生成的示例视频。




一只戴着贝雷帽和黑色高领衫的柴犬


以扁平设计风格绘制的多样化怪物家族插画。这个组包括一个毛茸茸的棕色怪物、一个带天线的光滑黑色怪物、一个有斑点的绿色怪物,以及一个小巧的带点怪物,它们在一个充满乐趣的环境中互动。


一个拼写“SORA”的逼真云朵图像。


在一个华丽的历史大厅内,一道巨大的海浪达到顶峰并开始崩溃。两位冲浪者抓住时机,熟练地在波浪面上航行。


视频生视频

Sora的能力超越了视频内容的生成,它还能对现有视频进行编辑和扩展,提供了视频内容创作和编辑的新可能。

编辑视频

示例为基于原始视频输出不同风格、场景的新视频:

🔽





拓展视频

基于同一个视频片段,向前拓展出不同的视频,结尾一致



基于给定视频生成的无限循环的视频



比如将给到的两个视频进行无缝融合:

+

=



+

=





+

=




+

=



+

=


这种创新能力为视频制作带来了前所未有的灵活性和创造空间。


文生图

Sora同样具备生成图像的能力。

通过在空间网格中排列高斯噪声碎片,并设定时间范围为一个帧来实现这一点。

该模型可以生成不同大小的图像——分辨率高达2048x2048。

秋天里一位女士的特写肖像,极致细节,浅景深


充满色彩的珊瑚礁,周围游动着五彩斑斓的鱼和海洋生物


一只年轻老虎在苹果树下的数字艺术,采用哑光绘画风格,细节华丽


一个雪地山村,有温馨的小屋和极光展示,高细节和逼真的DSLR效果,50mm f/1.2



3 涌现的模拟能力——世界模拟器

当在大规模上训练时,视频模型展示了一些有趣的新兴能力。

这些能力使得Sora能够模拟物理世界中的一些人、动物和环境方面。

也就是说不是单纯在生成“视频”,而是说以“视频”的形式在呈现一个有着逻辑(物理/时空定律)的“世界”。

这些属性并没有加入任何额外的辅助逻辑,比如3D、物体等——它们纯粹是规模到了一定程度之后自动涌现的现象。


3.1 3D一致性

Sora可以生成带有动态镜头移动的视频。


随着镜头的移动和旋转,人物和场景元素在三维空间中一致地移动。


3.2长期一致性和物体持久性

视频生成系统面临的一个重大挑战是在采样长视频时保持时间上的一致性。

OpenAI发现,Sora通常(尽管不总是)能够有效地模拟短期和长期依赖性。

例如,该模型可以在它们被遮挡或离开画面时持续存在人物、动物和物体。


同样,它可以在单个样本中生成同一角色的多个镜头,整个视频中保持它们的外观。

所以它某种程度上有“物体”和“对象”的概念,才能够从不同视角不同物体关系上持续连贯地展示物体。


3.3 与世界互动

Sora有时可以模拟以简单方式影响世界状态的行为。

例如,画家可以在画布上留下新的笔触,随着时间的推移这些笔触会持续存在,或者一个人可以吃掉一个汉堡并留下咬痕。


3.4 模拟数字世界

Sora还能够模拟人工过程——一个例子是视频游戏。

Sora可以在同时渲染世界及其动态的同时,用一个基本策略控制Minecraft中的玩家,不仅仅是逐帧生成视频,内容中是真的有一个玩家在玩有着一定自洽逻辑的游戏。

这些能力可以通过用提及“Minecraft”的标题提示Sora来零样本激发。


这些能力表明,继续扩展视频模型是朝着开发能够高度模拟物理和数字世界及其中的物体、动物和人的能力的有希望的路径。





启示、辩论与思考





Sora对未来的启示

Sora模型在技术层面的突破不仅体现了人工智能在视频生成和世界模拟领域的巨大潜力,也预示了一个我们能够更深入模拟和理解物理世界的未来。

随着模型规模的不断扩大,Sora所展示的3D一致性、长期一致性及物体持久性等能力,开辟了技术发展的新路径,尽管面对模拟复杂物理交互和动态场景的挑战,Sora已经为我们勾勒出一个充满无限可能的未来蓝图。


Sora的短期影响:颠覆或是渐进?

然而,对Sora短期内能够彻底改变视频制作等内容创意行业的预期,可能过于乐观。

我曾被Sora的发布震惊,认为视频制作将因此变得异常简单。

一句话的描述就能生成、编辑、扩展高质量视频,这种技术进步似乎将使我能够轻易超越那些经年累月苦练的专业人士。

但深入思考后,我意识到真实情况可能并非如此简单。


AI始终是一种工具,而工具的进步虽然能够改变行业生产范式,这种改变往往是渐进的。

成熟行业的工作流和生产体系需要时间去适应技术的突破。


Sora之于创作者:量产?

此外,创作不仅仅是缺少工具,更多的是缺乏创造力和将创意转化为实际作品的能力。

技术的进步虽然降低了入行门槛,使得更多人能够尝试创作,但并不意味着每个人都能成为创作者。

创造力的稀缺性和将创意转化为作品的挑战仍然存在。

如Cybor.Cyan所言,成为创作者首先需要比普通人更强的创作动机,而不是仅仅依赖技术。


AI技术的进步扩大了创作的可能性,但对于创意、理念、热情和灵感这些核心要素的需求并未改变。

对大多数人来说,遇到的瓶颈可能并非技术层面,而是如何将创意有效地转化为吸引人的作品。



总的来说,Sora模型和相似的AI技术为创作领域带来了革命性的变化,降低了技术门槛,使得更多人有机会参与创作。

随着时间的推移,这将促进更多优秀创作者的涌现,同时也为现有从业者提供了突破自我,攀登新高度的机会。


对我个人而言,这是一个重新审视自己对创作动机、方法和创造性思维的机会,而不仅仅是对技术进步的欢迎。




往期文章:

OpenAI/ChatGPT迎来华人产品老大,斯坦福毕业,硅谷产品大佬,在Facebook、Instagram、Uber负责产品

年营收1亿美金,仅11位全职雇员,其中4位是尚未毕业的本科生 | Midjourney团队成员履历探索

离开大厂,加入创业团队——阿山的思考与心路

写给即将上大学的妹妹

牛津人研究所|“下沉”的牛津人木木山:当我们离开象牙塔

牛村木木山
鹅厂产培\x26amp;VX产品萌新@牛津大学生即刻ID:牛村木木山
 最新文章