首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

Sora：视频生成模型？NO→世界模拟器，AI视频神器内部技术报告公开（多图预警）

文摘其他 2024-02-17 18:27 安徽

本期看点：

Sora模型技术报告摘要
Sora模型技术细节
启示、思考与辩论

Sora：世界模拟器

OpenAI团队于近日推出效果逆天的文本生视频大模型：Sora，其在生成时长、对象连续性、主体互动性、对物理世界的真实模拟等诸多方面，都让人印象深刻，直呼“现实，不存在了”。

作为AI小白，震惊效果、感叹未来已来之余，也想进一步了解这神器背后的实现方法，于是去读了OpenAI团队于官网公开的Sora技术报告（https://openai.com/research/video-generation-models-as-world-simulators）。

一些认知更新：

【世界模拟器】

不要把Sora简单理解为逐帧绘图的视频生成模型
它其实是“世界模拟器”，可以某种程度上“理解”物体的一致性、模拟物理引擎、时空结构

【统一视觉数据处理】

Sora通过将视频和图片转换为“补丁”
采用了一种革命性的方法来统一和简化视觉数据的处理

【低维潜在空间映射】

Sora利用先进的压缩技术将视频数据映射到低维潜在空间
减少了数据复杂性，为高质量视频的生成提供了坚实基础

【扩展变换器的创新应用】

在Sora中，扩展变换器模型的应用展示了其在处理序列数据方面的强大能力
特别是在预测视频内容的生成过程中，证明了变换器架构在视频生成任务中的有效性

【文本到视频的深度理解】

Sora展现了对文本描述的高级理解能力
能够将复杂的文本提示转化为丰富详细的视频内容，开辟了文本驱动视频创作的新可能。

【视频编辑与创新扩展】

超越传统视频生成模型的能力，Sora还能进行视频编辑和扩展
为视频制作提供了前所未有的灵活性和创新空间。

Sora的技术细节

1 Sora模型的技术核心

1.1 统一视觉数据处理

Sora模型的一个创新之处在于它如何处理视觉数据。

通过将视频和图片转换为“补丁”，Sora能够以一种高效且统一的方式处理各种视觉信息。

这些补丁实际上是将视频帧分解成较小的数据块，每个补丁包含了一部分的图像信息和时间信息。

这种方法类似于大型语言模型处理文本的方式，使得模型能够从这些碎片中学习到视频内容的动态变化。

1.2 低维潜在空间的映射

Sora的工作流程涉及到一个关键步骤：视频数据的压缩。

通过将视频压缩到低维潜在空间，Sora能够在减少数据复杂性的同时，保留生成高质量视频所需的关键信息。

这一过程既优化了模型的训练效率，也为后续的视频重建提供了坚实基础。

1.3 扩展变换器的创新应用

Sora利用了扩展变换器模型，这是一种专为视频内容生成设计的架构。

它通过预测如何将输入的噪声补丁转换为清晰的视频补丁，从而逐步重建视频内容。

这一过程不仅展示了变换器在处理序列数据方面的强大能力，也证明了其在视频生成任务中的有效性。

变换器模型在包括语言建模、计算机视觉和图像生成在内的多个领域，已经证明了其随着模型规模增加而提升的显著扩展能力。

在这项工作中，OpenAI发现扩散变换器模型也能有效地作为视频模型进行扩展。

以下展示了随着训练计算能力增加，在固定种子和输入条件下视频样本质量的对比。

可以明显看到，随着训练计算能力的提升，样本质量有了显著的改善。

2 Sora的训练和生成能力

2.1 训练数据的多样化

Sora的训练方法突破了传统视频生成技术的限制，它能够处理原生尺寸和格式的视频数据，这使得生成的视频能够适应多样化的显示设备和观看需求。

这种灵活性不仅提高了视频质量，也增加了模型的实用性。

2.2 文本到视频的高级理解

Sora模型展现了对文本描述的深度理解能力。

它不仅能够根据简单的文本提示生成视频，还能将复杂的描述转化为丰富的视觉内容。

前方高能预警⚠️

在复杂的生成提示中，尝试仅仅改变特定维度的关键词，测试该模型对文本描述的深度理解能力，示例如下：

XX（主体）穿着 XX（装饰）快乐溜达在 XX（地点）的XX（时间/事件）

替换上述文本描述中的XX，从而获得下面展示的不同视频，可以看出模型可以精准地理解文本的含义

这得益于其在训练过程中使用高度描述性的视频标题和利用GPT技术将简短提示转换为详细的视频描述。

训练文本到视频生成系统需要大量带有相应文本标题的视频。OpenAI将在DALL·E 3中引入的重新标注技术应用于视频。

他们首先训练一个高度描述性的标注模型，然后使用它训练集中的所有视频生成文本标题。

在高度描述性的视频标题上进行训练可以提高文本的准确性以及视频的整体质量。

类似于DALL·E 3，他们也利用GPT将简短的用户提示转换成更长、更详细的标题，这些标题随后被发送到视频模型。

这使得Sora能够生成高质量的视频，精确地遵循用户的提示。

2.3 视频编辑与创新扩展

Sora不仅仅能基于文本的输入生成视频，也可以基于图片或者视频的输入去生成相关视频。

图生视频

Sora能够基于图像和提示作为输入生成视频。

下面展示基于DALL·E 231和DALL·E 330图像生成的示例视频。

一只戴着贝雷帽和黑色高领衫的柴犬

以扁平设计风格绘制的多样化怪物家族插画。这个组包括一个毛茸茸的棕色怪物、一个带天线的光滑黑色怪物、一个有斑点的绿色怪物，以及一个小巧的带点怪物，它们在一个充满乐趣的环境中互动。

一个拼写“SORA”的逼真云朵图像。

在一个华丽的历史大厅内，一道巨大的海浪达到顶峰并开始崩溃。两位冲浪者抓住时机，熟练地在波浪面上航行。

视频生视频

Sora的能力超越了视频内容的生成，它还能对现有视频进行编辑和扩展，提供了视频内容创作和编辑的新可能。

编辑视频

示例为基于原始视频输出不同风格、场景的新视频：

🔽

拓展视频

基于同一个视频片段，向前拓展出不同的视频，结尾一致

基于给定视频生成的无限循环的视频

比如将给到的两个视频进行无缝融合：

+

=

+

=

+

=

+

=

+

=

这种创新能力为视频制作带来了前所未有的灵活性和创造空间。

文生图

Sora同样具备生成图像的能力。

通过在空间网格中排列高斯噪声碎片，并设定时间范围为一个帧来实现这一点。

该模型可以生成不同大小的图像——分辨率高达2048x2048。

秋天里一位女士的特写肖像，极致细节，浅景深

充满色彩的珊瑚礁，周围游动着五彩斑斓的鱼和海洋生物

一只年轻老虎在苹果树下的数字艺术，采用哑光绘画风格，细节华丽

一个雪地山村，有温馨的小屋和极光展示，高细节和逼真的DSLR效果，50mm f/1.2

3 涌现的模拟能力——世界模拟器

当在大规模上训练时，视频模型展示了一些有趣的新兴能力。

这些能力使得Sora能够模拟物理世界中的一些人、动物和环境方面。

也就是说不是单纯在生成“视频”，而是说以“视频”的形式在呈现一个有着逻辑（物理/时空定律）的“世界”。

这些属性并没有加入任何额外的辅助逻辑，比如3D、物体等——它们纯粹是规模到了一定程度之后自动涌现的现象。

3.1 3D一致性

Sora可以生成带有动态镜头移动的视频。

随着镜头的移动和旋转，人物和场景元素在三维空间中一致地移动。

3.2长期一致性和物体持久性

视频生成系统面临的一个重大挑战是在采样长视频时保持时间上的一致性。

OpenAI发现，Sora通常（尽管不总是）能够有效地模拟短期和长期依赖性。

例如，该模型可以在它们被遮挡或离开画面时持续存在人物、动物和物体。

同样，它可以在单个样本中生成同一角色的多个镜头，整个视频中保持它们的外观。

所以它某种程度上有“物体”和“对象”的概念，才能够从不同视角不同物体关系上持续连贯地展示物体。

3.3 与世界互动

Sora有时可以模拟以简单方式影响世界状态的行为。

例如，画家可以在画布上留下新的笔触，随着时间的推移这些笔触会持续存在，或者一个人可以吃掉一个汉堡并留下咬痕。

3.4 模拟数字世界

Sora还能够模拟人工过程——一个例子是视频游戏。

Sora可以在同时渲染世界及其动态的同时，用一个基本策略控制Minecraft中的玩家，不仅仅是逐帧生成视频，内容中是真的有一个玩家在玩有着一定自洽逻辑的游戏。

这些能力可以通过用提及“Minecraft”的标题提示Sora来零样本激发。

这些能力表明，继续扩展视频模型是朝着开发能够高度模拟物理和数字世界及其中的物体、动物和人的能力的有希望的路径。

启示、辩论与思考

Sora对未来的启示

Sora模型在技术层面的突破不仅体现了人工智能在视频生成和世界模拟领域的巨大潜力，也预示了一个我们能够更深入模拟和理解物理世界的未来。

随着模型规模的不断扩大，Sora所展示的3D一致性、长期一致性及物体持久性等能力，开辟了技术发展的新路径，尽管面对模拟复杂物理交互和动态场景的挑战，Sora已经为我们勾勒出一个充满无限可能的未来蓝图。

Sora的短期影响：颠覆或是渐进？

然而，对Sora短期内能够彻底改变视频制作等内容创意行业的预期，可能过于乐观。

我曾被Sora的发布震惊，认为视频制作将因此变得异常简单。

一句话的描述就能生成、编辑、扩展高质量视频，这种技术进步似乎将使我能够轻易超越那些经年累月苦练的专业人士。

但深入思考后，我意识到真实情况可能并非如此简单。

AI始终是一种工具，而工具的进步虽然能够改变行业生产范式，这种改变往往是渐进的。

成熟行业的工作流和生产体系需要时间去适应技术的突破。

Sora之于创作者：量产？

此外，创作不仅仅是缺少工具，更多的是缺乏创造力和将创意转化为实际作品的能力。

技术的进步虽然降低了入行门槛，使得更多人能够尝试创作，但并不意味着每个人都能成为创作者。

创造力的稀缺性和将创意转化为作品的挑战仍然存在。

如Cybor.Cyan所言，成为创作者首先需要比普通人更强的创作动机，而不是仅仅依赖技术。

AI技术的进步扩大了创作的可能性，但对于创意、理念、热情和灵感这些核心要素的需求并未改变。

对大多数人来说，遇到的瓶颈可能并非技术层面，而是如何将创意有效地转化为吸引人的作品。

总的来说，Sora模型和相似的AI技术为创作领域带来了革命性的变化，降低了技术门槛，使得更多人有机会参与创作。

随着时间的推移，这将促进更多优秀创作者的涌现，同时也为现有从业者提供了突破自我，攀登新高度的机会。

对我个人而言，这是一个重新审视自己对创作动机、方法和创造性思维的机会，而不仅仅是对技术进步的欢迎。

完

往期文章：

OpenAI/ChatGPT迎来华人产品老大，斯坦福毕业，硅谷产品大佬，在Facebook、Instagram、Uber负责产品

年营收1亿美金，仅11位全职雇员，其中4位是尚未毕业的本科生 | Midjourney团队成员履历探索

离开大厂，加入创业团队——阿山的思考与心路

写给即将上大学的妹妹

牛津人研究所｜“下沉”的牛津人木木山：当我们离开象牙塔

‍

牛村木木山

鹅厂产培\x26amp;VX产品萌新@牛津大学生即刻ID：牛村木木山

最新文章

公众号更新 5 年小记

功不唐捐，每一步都算数，让过往经历成为资产而非负债；职业机会的挑选要看能耗和自己的电量储备| 近期思考

跨文化交流返照本心、大坐标长周期对抗职场内耗| 近期思考

职业规划：终极自由是目标、积累资产是方法、提升认知是关键| 深度交流

职场唯一真实指标：持续稳定的副业营收| 近期思考

出走大厂，求解答案，终成“异类”，无解却找到自己| 近期思考

职场清醒：回不去大厂、最优先健康、买命钱副业| 近期思考

“美团真好，收入百分八十都给商家” VS “OnlyFans 真好，百分之八十收入给到创作者”VS“美团真坏，拿百分之二十抽佣”

AI新SaaS：Service as a Software| 近期思考

踏上西行路，比取到真经更重要| 近期思考

当小镇做题家遇上权贵二代们：三观冲击、借力对冲与最终自洽

大环境不佳时的跳槽思路、可能性的丧失≈“死亡”| 近期思考

想清楚自己要什么：人生需要“意义”；读书要聚焦；交友要投缘| 近期思考

“大胆 AI，我要你助我修行”——AI 助力产品经理山零基础写代码做开发| 近期思考

按照星星设定航向，作为“笨鸟”和“普通人”拾阶而上，处芝兰之室做他人芳草| 近期思考

中国文化出海如何带动产品销售｜伦敦闭门分享会笔记

聊聊 A16Z AI ×财会创业地图恰好有了解的两家：Jenesys 和 Truewind

最好的监工就是自己--用 GPT4 来给 GPT4 纠错，OpenAI 基于 GPT4 训练出 GPT4 专用纠错模型

创作者经济在中国怎能成功？“败走”海外复盘| 近期思考

出海能力模型与职业规划、一些读书笔记、一些日常| 近期思考

英国五十岁程序员状态、一些读书笔记、习惯养成懒人技巧| 近期思考

BBC中东第一人的职业故事| 近期思考

AI×财会，最前沿技术vs最传统行业的对话| 近期思考

人生并非标品，走出自己的道路| 近期思考

人生是旷野：互联网从业创业十三年；战略合作新尝试；干脆做人敢爱敢恨；本土视角下的英国| 近期思考

AI创业最优路径？跨国社交日常，人生是旷野| 近期思考

英国获客持续尝试，出海看机会，外国友人飞速进步的中文学习| 近期思考

春节归家：放下对老家居高临下的优越感；春节观影：“一切都来得及”；行业凉热：房产中介卖烧饼，成交送一年烧饼| 近期思考

Sora：视频生成模型？NO→世界模拟器，AI视频神器内部技术报告公开（多图预警）

AIGC变天？OpenAI推出文生视频模型Sora，官方视频合集，因质量惊人，暂不开放，进行“红队”测试，研究内容安全锁

虚假的好学生决定做真实的自己，拒绝贩卖焦虑的“精英成功学”，走快乐自洽的“普通人上进法”| 近期思考

美国历史上专利数量最多的黑人发明家之一入选美国国家发明家名人堂，上一位迪士尼公司获该奖者是迪士尼本人

AI创业：苟下去、广积粮、等风来| 近期思考

学习创业成功故事的选择性、高效拒绝大笨蛋、好客尔滨一如当年| 近期思考

“领导力”不在职位、大佬随手误伤与事在人为 | 近期思考

我和Pika只隔一个朋友圈？创业中的“事在人为”、服务交付与学费心态 | 近期思考

能力升级商业设计、销售的坦诚透明、在商言商之外的善良 | 近期思考

业务合作推进方法、一线销售的用研价值、创业日常中的波澜与不惊 | 近期思考

小红书获客进展、和搬家小哥聊生活 | 近期思考

产品工作方式升级、产品与销售的共通之处、个人能力与环境选择 | 近期思考

团队协作中的owner站位、兼职“销冠”心得、地铁上的陌生人 | 近期思考

情绪能量在职场中的重要作用、团队协作中的雄兵与强将 | 近期思考

创业中的“产品”本职与不务“正业”、读书：我在北京送快递 | 近期思考

AI代读书写作是好是坏？即刻销售二手体验、读书：鱼翅与花椒” | 近期思考

何时跳槽、老板值得跟否、内向者职场沟通| 近期咨询摘录

230806 近期思考 | 产品经理山“转型销售”战报、读书：中国历史中的“潜规则”

AI创业领域新格局：赢家、失败者与'月球计划' | 文章分享

230723 近期思考 | 中国不需要SaaS？读书：慈禧贴身侍女回忆录与金龙鱼背后的粮油帝国

230709 近期思考 | 快鸟的返利模式、读书：日本失去的二十年与中国的人口问题

230624 近期思考 | AI创业、名校躺平、抖音快手推广员

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉