OpenAI 正式发布 Sora，一文看懂它的文生视频功能到底强在哪？

科技 2024-12-10 22:00 北京

文章来源于公众号：极客公园

ID：GeekPark

正如外界猜测的那样，在为期 12 天直播的第三天，OpenAI 正式发布了文生视频产品 Sora。

北京时间 12 月 10 日凌晨两点，Sam Altman 和几位 OpenAI 内部员工通过直播，展示了 Sora 的功能和实际用例。继今年 2 月释出视频样片后，Sora 引发了全球人工智能界热潮，此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者，今天 Sora 终于揭开了神秘面纱。

整体来说，Sora 展示的一系列产品功能，表明其在视频生成的质量、功能的独创性、技术的复杂度等方面，超出了目前的文生视频产品。

在文、图生视频的基础功能之上，它加入了故事板（相当于通过分镜创作自己的故事）、用文本调整原视频、不同场景视频的融合等功能（相当于给视频直接加特效），整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。

当地时间 12 月 9 日晚些时候，美国、以及大多数其他国家的用户，可以访问官网体验 Sora。它被包含在 ChatGPT Plus、ChatGPT Pro 的会员订阅中，无需额外付费。其中，Plus 能生成最多 50 个高级视频、视频分辨率最高达 720p、时长为 5 秒，而 Pro 则能生成最多 500 个高级视频、分辨率高达 1080p、时长为 20 秒、还能去水印。

Sam Altman 介绍做 Sora 有三大原因：

一是从工具性角度，OpenAI 喜欢为创意人员制作工具，这对公司的文化很重要；

二是从用户交互角度，人工智能系统不能只通过文本交互，也应该理解并生成视频，帮助人类使用人工智能。这类似于国内大模型公司谈到的，「模型每扩展一次模态，用户渗透率就会上升。」

三则是从技术角度，这对 OpenAI 的 AGI 路线图至关重要，人工智能应该学到更多关于世界的规律，这正是所谓理解物理规律的「世界模型」。

既要用技术改变世界，也要用产品促进人类创造，这就是 Sora 在做的事情。

生成视频之外，还能分镜、加特效、无限创作

Sora 最基础的，首先是文生视频、图生视频功能。

打开主界面，用户可以查看和管理所有的视频生成内容，并且切换网格视图、列表视图，以及创建文件夹和收藏夹，查看书签等。研究人员称这个主界面设计，是为了更好地帮助用户创作故事。

在主页面的中间底部，是 Sora 的文生视频、图生视频功能。

比如，Sam Altman 先给到文字输入，「长毛猛犸象在沙漠中行走，广角镜头拍摄」。接着，需要选择视频的画面比、分辨率、时长（5-20 秒）、以及最终生成的视频数量（最多可生成四段以供挑选）等，才能获得生成的视频。

最终，可以看到生成的视频效果非常真实、有质感，且基本遵照了输入的指令。对于 Sora 视频生成效果的出色表现，或许人们是不意外的。

输入「长毛猛犸象在沙漠中行走，广角镜头拍摄」的文字后，Sora 生成了四段视频 | 图片来源：OpenAI

但此次，Sora 还发布了一系列独有的、进阶的的产品功能。在极客公园看来，这些功能基本围绕视频的更准确表达，也就是通过分镜、加特效等等方式，让人们能通过视频创作出一个自己想要的故事。

首先是故事板（storyboard），它被研究人员称为是一种「全新的创意工具」。

从产品设计上看，它相当于按时间轴的方式，把一段故事（视频）切成了多个不同的故事卡（视频帧)。用户只需要设计和调整每张故事卡（视频帧)，Sora 会自动把它们补成一段流畅的故事（视频）——这很像电影里的分镜、动画的手稿，当导演画好分镜、一个片子就拍出来了，一个漫画师写好手稿、一个动画就设计出来了。

比如研究人员设想的第一个分镜是，「美丽的白鹤站在小溪中，拥有一条黄色的尾巴。」第二个分镜是，「鹤将头探入水中，并捉出一条鱼」。那他做的工作就是，分别创建这两张故事卡（视频帧)，并在两者之间设大概五秒钟的间隔。这个间隔对 Sora 很重要，给了它把两组动作连起来的发挥空间。

最终，他得到了一个完整的视频镜头，「美丽的白鹤站在小溪中，它拥有一条黄色的尾巴。接着鹤将头探入水中，并捉出一条鱼。」

通过两张故事卡（视频帧)，Sora 生成了一个完整的故事（视频) | 图片来源：OpenAI

更为奇妙的是，在这个故事板上，创作要素不只是故事卡，也可以是直接的图片、视频。也就是说，可以将任意的图片、视频拉到故事板上，结合故事卡，对它进行创作。

以视频为例，研究人员将上述白鹤的视频切下来导入故事板，进行了剪切，这就给视频的前方和后方留出了继续创作的间隙，也就是说可以有新的开头和结尾。

这带来的想象是，故事板可以无限地创作下去。也就是说 Sora 生成的 20 秒视频，可以被不断地创造、剪切、创造……直至完全达到心目中理想的镜头。这个过程就像一个剪辑师、导演，通过对分镜设计和镜头素材的不断生成剪辑，慢慢剪出自己心中的片子。

和真实世界中不同，Sora 提供的素材是无限的。而和其他的文生视频产品不同，Sora 的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。

这似乎正是 Sora 此次产品的核心思路：尽最大可能地，让生成的视频符合用户心中想要的创意。

这样可以更好理解 Sora 的其他功能，比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等，这相当于是直接给视频加「特效」了。而一般的文生视频产品，可能需要不断地调整 prompt（提示词）、不断重新生成视频。

通过调整文字，用户可以直接调整视频 | 图片来源：OpenAI

Sora 能将两个两段视频合并为一段无缝剪辑 | 图片来源：OpenAI

总的来说，Sora 除了在生成视频上不出意料的出色表现之外，它还带来了更独有的视频创作产品功能，相当于给视频加分镜、剪辑、特效。这意味着，每个人都有机会创作出自己真正想要的表达，离当一个导演也更近了。

「如果你带着期望进入 Sora，认为你只需要点击一个按钮就可以生成一部电影，那么我认为你的期望是错误的。」OpenAI 研究人员说道。

他表示，Sora 是一种工具，允许人们同时在多个地方、尝试多个想法，尝试以前完全不可能的事情，「实际上我们认为这是创作者的超级特殊延伸。」

服务大众还不单独收费，还是靠底层模型的能力

作为文生视频赛道的开创者，Sora 的推出时间算是最晚的。对此，OpenAI 研究团队表示，为了对 Sora 进行广泛的部署，需要找到让模型更快、更便宜的办法。为此，研究团队做了大量的工作。

在直播中，OpenAI 宣布推出 Sora turbo，这是原始 Sora 模型的新高端加速版本。它具有今年早些时候 OpenAI 在「世界模拟技术」报告中谈到的所有功能，此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次 Sora 产品功能背后的技术基础。

看起来相比文字，视频的推理成本更高，但此次 OpenAI 并没有单独针对 Sora 收费。20 美元/月的 ChatGPT Plus 会员、以及 200 美元/月的 ChatGPT Pro 会员，都可以使用 Sora。

前者的权益包括最多 50 个高级视频、分辨率达 720p，时长为 5 秒，后者的权益包括最多 500 个高级视频、无限普通视频，分辨率高达 1080p、持续时间为 20 秒、并且下载无水印。

不同会员对 Sora 的使用额度｜图片来源：OpenAI

Sora 对 OpenAI 的意义不止于此。团队发现，视频模型在大规模训练时会展现出许多有趣的新能力，使得 Sora 能够模拟现实世界中人、动物和环境的某些方面。「我们的结果表明，扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」

或许正是因此，让 Sora 尽快被大众用起来、用数据更好地训练世界模型，对于 OpenAI 最终的 AGI 梦想如此重要。

在迭代技术的路上，也顺带推动了人类的创造。

「这个版本的 Sora 会犯错误，它并不完美，但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。」缔造它的 OpenAI 如此说道。

酷玩实验室经授权转载

如需转载，请联系原作者

关注使用，更关注创作

酷玩实验室

关注中国科技发展与产业升级！

最新文章

黑神话登上《新闻联播》，美国人高兴不起来了

关税降到了0 之后！阿根廷牛肉，零售价大跌！

穿它只有0次和无数次……

终极预测：未来十年，谁将主宰科技巅峰？

为啥你拼命存的资源，最后又不想点开了？

车企倒闭潮到来，600万烂尾车主怎么办？

“国际重奢”大牌鹅绒服，官方旗舰店在售高端款！清仓狂甩卖！

OpenAI o3震撼觉醒，AGI今夜降临？血洗o1，破解陶哲轩最难数学题

比高铁出口更强大的，竟然是中国“暖气”！欧洲人过冬必备

科技快讯 | 广电总局要求加强微短剧片名审核；极越公关负责人徐继业确认离职，微博发长文细数“业绩”...

XBOX怎么不行了？

一位CEO杀手，成为美国第一巴图鲁

提前过年！HBN年底大促，3折！！！

应季清仓！和北面、猛犸象齐名的国际户外大牌，千元冲锋裤，1折扫货

科技快讯 | 小红书客服回应集中封号；华为快充自动充电机器人亮相...

万万没想到，AI卷得最狠的是奶茶

1200 一罐的贵妇眼霜，实验室复刻，成本可以压到多少？

“抽象”变迁史：从亚文化到年度关键词

丝滑如豆腐，却很暖！完了，彻底沦陷在这毛衣里了，我要穿到80岁~

科技快讯 | 百万粉丝博主恶意差评赔款5 万元；消息称苹果与腾讯、字节跳动谈判...

中文互联网，为什么成为短视频解说的绝对王者？

血亏93亿卖银泰的阿里，其实可能赚到了？

电商内卷，299的真皮女鞋配置拉到天花板！

华为鸿蒙智联品牌又杀疯了！把保温杯设计成“智能管家”，两位数清仓，还送咖啡杯!

科技快讯 | 微信公众号新增“作者朗读音色”功能；宁德时代计划明年落地 1000 座换电站...

搞黄色才是第一生产力？我们可能都误会OnlyFans了

巴黎圣母院时隔五年重生，育碧究竟算几等功臣？

中国人为什么要读诗？这位百岁老人一语中的！

全球消费遇冷！米其林高评价雷司令，只卖几十块！

科技快讯 | 百度回应进军短剧领域；保时捷称中国区裁员传闻不属实；俄罗斯进口奶粉产地在安徽...

董浩叔叔的评论区，怎么成了90后的赛博哭墙？

应季清仓！和北面、猛犸象齐名的国际户外大牌，千元冲锋裤，1折扫货

微短剧的霸总，率先被裁

曾经五百一个的「小众钛杯」，被中国制造卷成了平民级，比不锈钢杯还便宜！

科技快讯 | 小米9999元精英驾驶培训满员；苹果或将推出可折叠iPad...

洛城盛产真人GTA，观众痴迷警匪追击直播

万元高定的衣服，确实……有点好看！？

国内球星卷向NBA，国外球星卷向淘宝直播间

一年只卖10天！圣诞限量发售！法国进口圣诞树白葡萄酒，节日氛围拉满！

大家白嫖十多年的运费险，开始塌房了。

“黄金大劫案”频发，金价上涨是福还是祸？

有什么东西看似平平无奇，但一用过就会被惊艳？

汽车换芯片，到底贵在哪里？

科技快讯 | 极越售后或由吉利领克负责；联创人回应黑神话悟空TGA获奖...

最快倒闭的新势力！只剩24小时的极越能否起死回生？车主又该何去何从？

跌落神坛的「传奇女包」：巅峰时一包难求，如今沦落低价清货！

Google 发布了「虚拟现实」版 Android，想让你把熟悉的应用「戴在头上」

5折！一夜刷屏的故宫口红，限时破价闪促（售罄删文）

科技快讯 | 百度、吉利发布“关于极越汽车的联合声明”；字节跳动与北京大学成立豆包大模型联合实验室...

中国第一批新能源车主，要花1.6万亿元换电池

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉