对 AIGC 感兴趣的朋友可以点个关注,保持联系。
1、Sora 简介
最近,OpenAI 在 ChatGPT 后,再次推出王炸,发布了文生视频模型 Sora,引起 AI 圈大震动,Sora 在文生视频领域的突破,不亚于 ChatGPT 在 NLP 领域的突破。
先看个官网的效果:
提示词:
一位时尚的女士穿过一条东京街道,街道上充满着温暖的霓虹灯和动漫城市标识。她穿着一件黑色皮夹克,一条长长的红色连衣裙,和黑色靴子,手提着一个黑色的包。她戴着墨镜涂着唇膏,显得自信而轻松。街道潮湿而反光,产生了五彩缤纷的灯光的镜面效果。许多行人在街上行走。
Sora 在文生视频领域的突破主要集中在这几个方面:
1)时长突破到 1min 同时保持高视觉质量和引人注目的视觉连贯性
Sora 最牛的是它能够生成长达 1min 的视频,同时保持每一帧的高质量和视觉连贯性。与只能生成短视频片段的早期模型不同,Sora 生成的一分钟长视频具有更好的渐进感和从第一帧到最后一帧的视觉一致性。
毕竟 Sora 问世前,最好的文生视频模型只有数秒,比如下面 Gen-2 生成的一段视频:
2)高度指令遵循
我们分析女子步行东京街头的提示词时可以发现,这是一个精心设计过的提示词。详细指定了动作、设置、角色外观,甚至场景所需的情绪和氛围。这也体现了 OpenAI 对提示工程的重视。
角色描述:女士,黑色皮夹克,红色连衣裙,黑色靴子,墨镜,唇膏,许多行人
环境描述:东京街道,温暖的霓虹灯,街道潮湿而反光,产生了五彩缤纷的灯光的镜面效果
动作:穿过,行走
Sora 生成的视频效果对上面提示词的指令遵循的很好。
3)世界模型
OpenAI 在报告里强调,Sora 不仅仅是一个文生图模型,更是一个世界模拟器(World Simulators)。这就意味着它能模拟真实世界,理解世界运行规律,能遵循基本的物理规则。比如说杯子掉在地上会碎,人类在雪地行走会留下脚印。
下面是 Sora 生成的另一个视频 Demo,我们看到大象在行走时,由于地面震动,激起的巨大粉尘,这是 make sense 的。
2、Sora 原理解读
Sora 技术报告是很简单的,基本不可能从技术报告中研究出完整的技术实现,这很 CloseAI。
我们参考微软发布的逆向论文,看看几个已公布的技术细节吧。
2.1、视频编码器 Visual Encoder
将原始的高维视频,通过 Visual Encoder 编码,压缩到低维空间(lower-dimensional latent space),生成低维向量表示,并将这些向量表示切成多个 patches,进行训练并生成视频,生成时对称地通过解码器还原到高维空间,即像素空间。
需要特别注意的是视频编码时,帧与帧的时间关系,需要让模型理解视频中连续的时空关系,即时空联合建模问题。
2.2、Vision Transformer (ViT)
Vision Transformer(ViT):是谷歌提出的把 Transformer 应用到图像分类的模型。将图片分割为固定大小的 patches,对每个图像块进行线性变换并添加位置信息,得到向量序列送入标准的 Transformer 编码器。
Sora 参考了 ViT,使用 Transformer 来做 diffusion model 的训练,使用 Transformer 的好处在于可以输入任意长度的 patches,也就意味着我们无需统一训练数据的分辨率和时长,这对数据团队是一个好消息。
下图为 diffusion model 的预测流程,我们知道扩散模型预测的过程就是降噪。
3、未来展望
那么在未来随着 Sora 的迭代和演进,它可能会影响哪些行业呢?
电影:
传统电影创作是一个漫长而昂贵的过程,通常需要长期的投入、尖端设备、大量投资。以 Sora 为代表的视频生成技术出现意味着电影制作即将进入新时代,未来任何人都可以成为电影制作人,大大降低了电影行业的准入门槛,并引入了将传统叙事与 AI 驱动相结合的电影制作新维度。
教育:
视频生成模型站在教育革命的最前沿,提供了新技术使得传统的静态教育资源动起来,通过增加教育资源的交互性和动态性,引发学生兴趣,加深学生的参与和理解。Sora 在教育领域的革命性,预示着个性化、动态教育内容的新时代。
游戏:
游戏引擎受到 Sora 挑战。Sora 可以作为一个 UE 这样的游戏引擎,它能模拟真实世界,学会复杂的渲染技术、物理规律、逻辑推理以及社会运行规律。Sora 进入游戏领域将创造更加真实的游戏世界,使游戏世界更加身临其,开辟游戏沉浸式的更多可能性。
医疗:
Sora 的视频扩散模型对于理解复杂序列视频的能力,可以用于识别身体内部的动态变化,比如细胞早期的消亡、皮肤病变的发展等不太正常的人体变化,这对于及早发现一些疾病可能会有很大的作用。
机器人:
视频扩散模型将帮助机器人领域开启一个新的篇章,它能够极大的提升机器人对世界和环境的感知能力,帮助它们在决策制定上发挥重要作用。Sora 的技术可以让机器人获得前所未有的交互能力以及处理复杂任务的能力。
参考文献
Video generation models as world simulators:https://openai.com/research/video-generation-models-as-world-simulators Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models:https://huggingface.co/papers/2402.17177