关于 Sora

文摘科技 2024-03-08 08:00 上海

对 AIGC 感兴趣的朋友可以点个关注，保持联系。

1、Sora 简介

最近，OpenAI 在 ChatGPT 后，再次推出王炸，发布了文生视频模型 Sora，引起 AI 圈大震动，Sora 在文生视频领域的突破，不亚于 ChatGPT 在 NLP 领域的突破。

先看个官网的效果：

提示词：

一位时尚的女士穿过一条东京街道，街道上充满着温暖的霓虹灯和动漫城市标识。她穿着一件黑色皮夹克，一条长长的红色连衣裙，和黑色靴子，手提着一个黑色的包。她戴着墨镜涂着唇膏，显得自信而轻松。街道潮湿而反光，产生了五彩缤纷的灯光的镜面效果。许多行人在街上行走。

Sora Demo Video

Sora 在文生视频领域的突破主要集中在这几个方面：

1）时长突破到 1min 同时保持高视觉质量和引人注目的视觉连贯性

Sora 最牛的是它能够生成长达 1min 的视频，同时保持每一帧的高质量和视觉连贯性。与只能生成短视频片段的早期模型不同，Sora 生成的一分钟长视频具有更好的渐进感和从第一帧到最后一帧的视觉一致性。

毕竟 Sora 问世前，最好的文生视频模型只有数秒，比如下面 Gen-2 生成的一段视频：

Gen-2 Demo Video

2）高度指令遵循

我们分析女子步行东京街头的提示词时可以发现，这是一个精心设计过的提示词。详细指定了动作、设置、角色外观，甚至场景所需的情绪和氛围。这也体现了 OpenAI 对提示工程的重视。

角色描述：女士，黑色皮夹克，红色连衣裙，黑色靴子，墨镜，唇膏，许多行人

环境描述：东京街道，温暖的霓虹灯，街道潮湿而反光，产生了五彩缤纷的灯光的镜面效果

动作：穿过，行走

Sora 生成的视频效果对上面提示词的指令遵循的很好。

3）世界模型

OpenAI 在报告里强调，Sora 不仅仅是一个文生图模型，更是一个世界模拟器（World Simulators）。这就意味着它能模拟真实世界，理解世界运行规律，能遵循基本的物理规则。比如说杯子掉在地上会碎，人类在雪地行走会留下脚印。

下面是 Sora 生成的另一个视频 Demo，我们看到大象在行走时，由于地面震动，激起的巨大粉尘，这是 make sense 的。

Sora Demo Video

2、Sora 原理解读

Sora 技术报告是很简单的，基本不可能从技术报告中研究出完整的技术实现，这很 CloseAI。

我们参考微软发布的逆向论文，看看几个已公布的技术细节吧。

2.1、视频编码器 Visual Encoder

将原始的高维视频，通过 Visual Encoder 编码，压缩到低维空间（lower-dimensional latent space），生成低维向量表示，并将这些向量表示切成多个 patches，进行训练并生成视频，生成时对称地通过解码器还原到高维空间，即像素空间。

需要特别注意的是视频编码时，帧与帧的时间关系，需要让模型理解视频中连续的时空关系，即时空联合建模问题。

2.2、Vision Transformer (ViT)

Vision Transformer(ViT)：是谷歌提出的把 Transformer 应用到图像分类的模型。将图片分割为固定大小的 patches，对每个图像块进行线性变换并添加位置信息，得到向量序列送入标准的 Transformer 编码器。

Sora 参考了 ViT，使用 Transformer 来做 diffusion model 的训练，使用 Transformer 的好处在于可以输入任意长度的 patches，也就意味着我们无需统一训练数据的分辨率和时长，这对数据团队是一个好消息。

下图为 diffusion model 的预测流程，我们知道扩散模型预测的过程就是降噪。

3、未来展望

那么在未来随着 Sora 的迭代和演进，它可能会影响哪些行业呢？

电影：

传统电影创作是一个漫长而昂贵的过程，通常需要长期的投入、尖端设备、大量投资。以 Sora 为代表的视频生成技术出现意味着电影制作即将进入新时代，未来任何人都可以成为电影制作人，大大降低了电影行业的准入门槛，并引入了将传统叙事与 AI 驱动相结合的电影制作新维度。

教育：

视频生成模型站在教育革命的最前沿，提供了新技术使得传统的静态教育资源动起来，通过增加教育资源的交互性和动态性，引发学生兴趣，加深学生的参与和理解。Sora 在教育领域的革命性，预示着个性化、动态教育内容的新时代。

游戏：

游戏引擎受到 Sora 挑战。Sora 可以作为一个 UE 这样的游戏引擎，它能模拟真实世界，学会复杂的渲染技术、物理规律、逻辑推理以及社会运行规律。Sora 进入游戏领域将创造更加真实的游戏世界，使游戏世界更加身临其，开辟游戏沉浸式的更多可能性。

医疗：

Sora 的视频扩散模型对于理解复杂序列视频的能力，可以用于识别身体内部的动态变化，比如细胞早期的消亡、皮肤病变的发展等不太正常的人体变化，这对于及早发现一些疾病可能会有很大的作用。

机器人：

视频扩散模型将帮助机器人领域开启一个新的篇章，它能够极大的提升机器人对世界和环境的感知能力，帮助它们在决策制定上发挥重要作用。Sora 的技术可以让机器人获得前所未有的交互能力以及处理复杂任务的能力。

参考文献

Video generation models as world simulators：https://openai.com/research/video-generation-models-as-world-simulators
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models：https://huggingface.co/papers/2402.17177

http://mp.weixin.qq.com/s?__biz=MjM5MTkxOTQyMQ==&mid=2257489082&idx=1&sn=069e0613530e7c8a101316623748d225

关键帧Keyframe

系统性地探索音视频、AIGC、区块链技术。

最新文章

【音视频】面试题集锦第 39 期｜编辑 SDK 方向

【音视频】面试题集锦第 38 期｜ iOS 渲染方向

【音视频】生产框架介绍：拍摄、编辑、上传、推流丨音视频实战经验

【音视频】面试题集锦第 37 期｜ iOS 播放器 SDK 方向

【音视频】面试题集锦第 36 期｜客户端音视频开发

【音视频】面试题集锦第 35 期｜播放器功能方案（附伪代码）

【音视频】面试题集锦第 34 期｜直播和视频播放器方向

【音视频】面试题集锦第 33 期｜面试官针对编解码方向的追问

【音视频】面试题集锦第 32 期｜面试官针对编解码方向的问题

【音视频】面试题集锦第 31 期｜面试官常用的基础问题

【AIGC】用 v0.dev 迭代开发一个极简版小红书前端，5 分钟搞定 1 天的工作量，会打字会截图就能开发网站

【AIGC】利用 AI 技术，1 个人养 1327 个账号，可行吗？

【AIGC】一条内容 19 万点赞，50 万转发，三分钟学会使用 AI 工具制作小猫跳舞视频

【音视频】面试题集锦第 29 期｜视频渲染相关各种问题

【AIGC】随便发发就点赞过万，AI 萌宠打工人，视频素材直接下载去养号做号

抽奖开奖

【AIGC】一条视频 144 万点赞，AI 萌宠时尚走秀，视频素材直接下载去养号做号

福利来了

【AIGC】ComfyUI 入门教程（10）：快捷方式和技巧

【AIGC】ComfyUI 入门教程（9）：使用 LoRA

【AIGC】ComfyUI 入门教程（8）：使用 Embeddings

【音视频】面试题集锦第 28 期｜音视频 SDK 开发 WebRTC 面试题

【AIGC】ComfyUI 入门教程（7）：SDXL 工作流和 ComfyUI 整合包

【AIGC】ComfyUI 入门教程（6）：图像修复｜AI 生成图片

【AIGC】ComfyUI 入门教程（5）：图片上采样放大｜AI 生成图片

【音视频】特效编辑等场景常用的动画系统：PAG 与 Lottie｜音视频实战经验

【AIGC】ComfyUI 入门教程（4）：ComfyUI 管理器｜AI 生成图片

【AIGC】ComfyUI 入门教程（3）：图生图工作流｜AI 生成图片

【AIGC】ComfyUI 入门教程（2）：从文本生成图像的流程｜AI 生成图片

【AIGC】ComfyUI 入门教程（1）：安装 ComfyUI｜AI 生成图片

音视频面试题集锦第 27 期｜音视频 SDK 开发 C++ 基础知识

AI 让老照片动起来・简单教程和赚钱方式｜ AI 生成视频｜ AIGC

音视频面试题集锦第 26 期｜ FFmpeg 基础和音频处理

《Stable Diffusion 倚天剑术》第 7 卷：控制 AI 模特的年龄 | StableDiffusion 实战案例

什么是 Stable Diffusion？ | StableDiffusion 基础知识

音视频面试题集锦第 25 期｜直播相关功能技术方案

音视频面试题集锦第 24 期｜直播相关技术指标优化

音视频面试题集锦第 23 期｜编码相关

音视频面试题大合集 202405

音视频面试题集锦第 22 期｜视频编码

音视频面试题集锦第 21 期

音视频面试题集锦第 20 期 | 视频编辑相关

音视频面试题集锦第 19 期｜读取纹理数据

音视频面试题集锦第 18 期｜ OpenGL 实战经验

关于 Sora

音视频面试题集锦第 17 期

音视频面试题集锦第 16 期

音视频面试题集锦第 15 期 | 编辑 SDK 架构 | 直播回声 | 播放器架构

音视频面试题集锦（第 14 期）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉