60s一镜到底,导演拍不出的,openAI最新模型Sora做到了

科技   科技   2024-02-18 13:33   广东  

作者|一一

出品|互联网最前线

已有的文字生成视频工具,能简短做到3~4秒,但凡长一点就没法看,而这一遗憾将由Sora打破。

2024年2月16日,OpenAI推出了其最新研发的AI模型——Sora。

更丝滑的视觉体验:“单视频多角度镜头”、“更懂物理规律”;

更高效的工具:“60s超长长度”、”文生视频+图生视频+扩展原视频“。

下面展开说说。


01

一对王炸:
单视频多角度镜头,直接上60s

翻看Runway、stable diffusion、Pika等一众AI视频,基本是单一镜头(部分可以调整镜头方向和移动速度)、还挣扎在4s连贯性的边缘时,OpenAI的Sora直接将多角度镜头做到了60s,主体还能保证完美的一致性。

Sora生成效果:龙年大吉

Sora生成效果:雨夜都市女郎 ↑

对比下Runway和Pika效果 ↑

可以看出,OpenAI的Sora生成视频的质量好得多,Sora感觉像是创建了真实的视频,而以往这些竞争对手的模型则感觉像是AI生成图像的定格动画。

通过让模型一次预见多帧画面,OpenAI解决了一个具有挑战性的问题,即确保被摄体即使暂时离开视线也能保持不变。博客中透露了一些基础信息:Sora是一种扩散模型,它生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。

OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合,每个 patch 类似于 GPT 中的 token。通过统一数据表示方式,OpenAI 能够在比以往更广泛的视觉数据上训练扩散 transformer,包括不同的持续时间、分辨率和宽高比。


02

更懂物理规律,

支持多种素材生成视频


Sora 还有哪些特别之处呢?
Sora生成效果:猫咪互动,还会踩奶 ↑

它对语言有着深刻的理解,能够准确地解释 prompt 并生成吸引人的字符来表达充满活力的情感。同时,Sora 不仅能够了解用户在 prompt 中提出的要求,还能 get 到在物理世界中的存在方式。

据悉Sora 建立在过去DALL・E和GPT模型的研究基础之上。它采用了DALL・E 3中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字提示。

给定一段简短或详细的描述或一张静态图片,Sora就能生成类似电影的 1080p 场景,其中包含多个角色、不同类型的动作和背景细节。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。

03

但也找到了几个翻车视频


OpenAI 承认,当前的模型也有弱点。它可能难以准确模拟复杂场景中的物理现象,也可能无法理解具体的因果关系。该模型还可能混淆提示的空间细节,例如混淆左和右,并可能难以精确描述随时间发生的事件,如跟随特定的摄像机轨迹。

找到了几个Sora翻车的视频,但是依然很牛!

视频1:
提示:五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐,周围都是草丛。
问题:动物或人可能会自发出现,尤其是在包含许多实体的场景中。

视频2:
提示:跑步机,一个人跑步的场景,35mm 电影胶片。
问题:弄反了方向,不符合实际使用

视频3:
提示:考古学家在沙漠中发现了一把通用塑料椅子,小心翼翼地挖掘和除尘。
弱点:在这个例子中,Sora 未能将椅子建模为刚性物体,导致物理交互不准确。

04

写在最后


AI在视频行业带来的最大的变化,是能生成“现实”——它会不断生成新的素材,甚至定义新的设计。

除了生成能力极强,AI也让生产变得前所未有的容易,以自然语言来改图/改视频创造全新的交互方式,这在 GPT4 中已见雏形,在 Sora 的“60s一镜到底”中则显得更加吸引人。

除了视频行业,未来知识的视觉化和动画化将席卷千行百业。

随手点赞👍,戳个在看

互联网最前线
科技互联网头部订阅号,深度聚焦创新经济。重磅新闻跟踪报道。 有温度、有深度、有影响力!
 最新文章