作者|一一
出品|互联网最前线
已有的文字生成视频工具,能简短做到3~4秒,但凡长一点就没法看,而这一遗憾将由Sora打破。
2024年2月16日,OpenAI推出了其最新研发的AI模型——Sora。
更丝滑的视觉体验:“单视频多角度镜头”、“更懂物理规律”;
更高效的工具:“60s超长长度”、”文生视频+图生视频+扩展原视频“。
下面展开说说。
01
单视频多角度镜头,直接上60s
翻看Runway、stable diffusion、Pika等一众AI视频,基本是单一镜头(部分可以调整镜头方向和移动速度)、还挣扎在4s连贯性的边缘时,OpenAI的Sora直接将多角度镜头做到了60s,主体还能保证完美的一致性。
Sora生成效果:龙年大吉 ↑
Sora生成效果:雨夜都市女郎 ↑
对比下Runway和Pika效果 ↑
可以看出,OpenAI的Sora生成视频的质量好得多,Sora感觉像是创建了真实的视频,而以往这些竞争对手的模型则感觉像是AI生成图像的定格动画。
通过让模型一次预见多帧画面,OpenAI解决了一个具有挑战性的问题,即确保被摄体即使暂时离开视线也能保持不变。博客中透露了一些基础信息:Sora是一种扩散模型,它生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。
OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合,每个 patch 类似于 GPT 中的 token。通过统一数据表示方式,OpenAI 能够在比以往更广泛的视觉数据上训练扩散 transformer,包括不同的持续时间、分辨率和宽高比。
02
更懂物理规律,
支持多种素材生成视频
Sora 还有哪些特别之处呢?
它对语言有着深刻的理解,能够准确地解释 prompt 并生成吸引人的字符来表达充满活力的情感。同时,Sora 不仅能够了解用户在 prompt 中提出的要求,还能 get 到在物理世界中的存在方式。
据悉Sora 建立在过去DALL・E和GPT模型的研究基础之上。它采用了DALL・E 3中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字提示。
给定一段简短或详细的描述或一张静态图片,Sora就能生成类似电影的 1080p 场景,其中包含多个角色、不同类型的动作和背景细节。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。
03
但也找到了几个翻车视频
OpenAI 承认,当前的模型也有弱点。它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。该模型还可能混淆提示的空间细节,例如混淆左和右,并可能难以精确描述随时间发生的事件,如跟随特定的摄像机轨迹。
找到了几个Sora翻车的视频,但是依然很牛!
视频1:
提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草丛。
问题:动物或人可能会自发出现,尤其是在包含许多实体的场景中。
视频2:
提示:跑步机,一个人跑步的场景,35mm 电影胶片。
问题:弄反了方向,不符合实际使用
视频3:
提示:考古学家在沙漠中发现了一把通用塑料椅子,小心翼翼地挖掘和除尘。
弱点:在这个例子中,Sora 未能将椅子建模为刚性物体,导致物理交互不准确。
04
写在最后
AI在视频行业带来的最大的变化,是能生成“现实”——它会不断生成新的素材,甚至定义新的设计。
除了生成能力极强,AI也让生产变得前所未有的容易,以自然语言来改图/改视频创造全新的交互方式,这在 GPT4 中已见雏形,在 Sora 的“60s一镜到底”中则显得更加吸引人。
除了视频行业,未来知识的视觉化和动画化将席卷千行百业。