Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

科技 2024-12-10 07:31 上海

新智元报道

编辑：编辑部 HYZ

【导读】「鸽」了整整一年的Sora，终于上线了！OpenAI 20分钟的演示展示了视频二合一等多项炸裂的新功能。奥特曼直言：Sora是AGI路线图上的重要里程碑。现在系统已经被网友们挤爆了，新用户间歇性暂停注册。

OpenAI直播第三弹，Sora终于现身了！

才一上线，网页就已经瞬间挤爆。现在，所有新用户注册已经紧急暂停（不定期）。

奥特曼与Sora团队负责人Bill Peebles、研究副总Aditya Ramesh，以及Rohan Sahai、Joey Flynn开启了短短20分钟的在线直播。

相较于2月的原版Sora，他们今天带来了更高级的加速版Sora Turbo。

Sora能生成任意长宽比的视频，分辨率从480p到1080p，时长从5秒到20秒，还可以一次生成多个方向的视频版本，让我们选择其中最理想的一个。

包括文本到视频、图像到视频、视频到视频的功能。

这次，OpenAI着重介绍了Sora的几项功能：Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。

所有新功能一览：

OpenAI专为Sora设计的全新UI

左右滑动查看

等了大半年，Sora终于不再只是艺术家们的工具，现在所有的ChatGPT Plus/Pro用户皆可使用。

唯一区别是，使用限制不同：Plus用户每个月有50次生成额度，Pro用户可以获得500次快速生成额度（如果选择的分辨率更高，则次数更少）或是无限次慢速生成额度。

奥特曼本人表示，对我来说，Sora最令人兴奋的一点是，它使得与他人共作变得如此容易。这感觉像是一个有趣的全新事物！

它就像视频领域的GPT-1，现在还处于初期阶段，但我已经觉得这个信息流非常吸引人。

Sora团队研究者自豪地表示，突破视觉生成的界限，就是在机器学习和人机交互方面取得突破。

诚如这条读者评论所言：Sora之所以令人激动，不止是因为我们现在在哪里；更重要的，是想象我们的前进方向。可以确信，我们正在经历一个不平凡的年代。

直播20分钟，全程高能

在Library中，我们可以查看视频的所有版本，通过几种不同的方式对此处的视图进行切片。

现场，几位工作人员给我们实测了一把Sora的文生视频功能。

在输入「长毛猛犸象走过沙漠景观」的prompt，等待一段时间后，四个视频就出现了，我们可以选择最理想的那个。

甚至，我们可以把猛犸象变成「机械猛犸」。

只需要通过Remix描述希望视频怎样更改（无论是大的更改，还是希望背景中多一些风或者沙），接下来的工作就可以直接交给Sora。

故事版功能，可以让我们使用时间轴，在整个序列中产生一个包含多个动作的视频。

在其中，我们可以描述环境、角色、想要在特定点发生的动作。在prompt中我们写得越少，Sora就会填充得越多，反之亦然。

比如，我们想要一个美丽白鹤站在小溪里的场景。

在时间轴的开头，我们可以直接设置场景：开始白鹤站着，然后将头进入水中，捉出一条鱼。

在几组动作中，需要给Sora足够的时间来连接这些想法

可以看到，Sora非常准确地理解了研究者的想法。

我们还可以使用Re-cut，将其中的片段剪切到新的故事板中，在留白的地方创建其余的片段，比如一个结尾。

接下来是另一个功能。

上传一个灯塔的图像后，它被放入第一张卡片，然后Sora创建了一个全新的卡片。

厉害的地方来了！Sora已经看过了该图像，并且还添加进了关于我们希望图像怎样动的理解。

最终的视频生成效果果然非常好。

最后，研究者再给我们展示了一个大惊喜。

通过Blend功能，Sora甚至还能将两个场景完美地混到同一个视频中，可以理解为这某种维度上粉碎两个视频，然后组成一个新的。

研究者强调说，这是他此前在其他AI视频从未见过的功能！

比如，把猛犸象和机器象混合。

Sora功能全面介绍

足见，Sora具备了令人印象深刻的视频生成能力。

利用Sora，我们不仅可以制作分辨率最高1080p、时长最长 20 秒的各种格式视频，并且还可以通过文本生成新内容，或者增强、重混和融合自己的素材。

此外，通过「精选」和「最新」来查看社区的创作，也可以为自己的新想法提供灵感。

这款模型基于DALL·E和GPT模型丰富的经验而打造，可以为用户提供更强大的讲故事和创意表达工具。

与GPT模型类似，Sora使用Transformer架构，解锁了卓越的扩展性能。

此外，它采用了扩散模型技术，从看似静态噪声的基础视频开始，逐步去除噪声，最终生成完整视频。

值得注意的是，Sora解决了视频生成中的一个关键挑战——主体一致性。

通过让模型同时预测多个帧，确保即使主体暂时消失在视野之外，也能保持一致性。

在数据标注上，Sora核心秘密武器便是DALL·E 3——为视觉训练数据生成高度详细的描述性标注。

因此，训练后的Sora能够以前所未有的精度，遵循用户在生成视频时的文本指令。

Sora的能力远远超出了简单文生视频，它还能将静态图变身动画，添加细节。

它还可以扩展现有视频，或填充缺失的帧。

更令人兴奋地是，Sora作为理解和模拟真实世界的模型基础，被OpenAI视为迈向AGI的关键里程碑。

除了20分钟发布会上的内容，OpenAI在官网上，也放出了新功能的详细介绍和示例。

Storyboard（故事板）

带有关键帧的时间轴，是Sora非常亮眼的新功能。在个人时间轴上，可以组织和编辑独特的视频序列。

注意：不要上传带人物的图像，否则无法生成视频

A vast redlandscape with adocked spaceship in the distance

广袤的红色星球景观中，一艘银光闪闪的宇宙飞船静静停靠在远处

Looking out frominside thespaceship, a spacecowboy standscenter frame

透过宇宙飞船的舷窗向外眺望，一位星际牛仔挺立在画面中央

Detailed close up view of astronaut'seyes framed by aknitted fabricmask

特写镜头下，宇航员深邃的双眼透过织物面罩的框架凝视着前方

Remix（重混）

这个功能，可以让我们替换、删除或重新想象视频中的元素。

比如，我们先生成一个场景——打开通向图书馆的大门。

然后，通过Remix把门更换成法式的门。

再把图书馆变成一艘宇宙飞船。

接着去掉宇宙飞船，加入丛林场景。

最后把丛林换成月球表面。

Re-cut（重新剪辑）

这个功能，能让我们找到并且选中最佳帧，向任一方向延伸。

比如，选出这段「水獭玩球」视频中自己最心仪的那几帧，Sora可以生成在它之前或者之后的帧。

Loop（循环）

通过这个功能，Sora可以修剪并创建无缝的重复视频。

Sora会在开头和结尾中添加大量帧，来将它们连接起来。

左右滑动查看

Blend（混合）

通过这个功能，可以把两个完全不同的视频，融合为一个无缝剪辑。

Style presets（风格预设）

这个功能，可以让我们充分发挥想象力，创建想要的风格。

比如原始视频，是两头猛犸象在雪地里走路的场景。

我们可以将它转换为纸工艺品风。

Earthy tones with muted pastels and pops of color. Soft, diffused lighting enhances handcrafted textures. Everything—characters, objects, and scenery—is transformed into cardboard and paper, complete with visible creases and folds

以大地色调为基础，配以柔和的粉彩色，并点缀上鲜艳的色彩。柔和的环境光勾勒出精致的手工质感。画面中从人物、物件到背景的一切元素，都被重塑成纸板与纸张的质地，呈现出自然的折痕与起伏

档案风。

Shot on 100t film, the image quality is grainy and high contrast, with shallow depth of field and cinematic look, epic and dramatic shot, very nostalgic

采用100T胶片拍摄，呈现独特的颗粒质感和高对比度效果，配合浅景深营造电影感，画面富有史诗感和戏剧性，散发浓郁的怀旧氛围

黑白电影风。

Shot in high-contrast black and white with deep shadows and selective highlights. Features low-key chiaroscuro lighting, hard shadows, and venetian blind effects. Moody, mysterious, and suspenseful, with a vintage cinematic vibe

采用高反差黑白摄影手法，营造出深邃的暗部和精准的亮部层次。运用低调的明暗对比打光，呈现出锐利的阴影效果和威尼斯百叶窗光影。整体氛围充满忧郁、神秘和悬疑感，完美展现复古电影的美学

一大波效果

OpenAI科学家Noam Brown表示，「Sora，是scale力最直观的证明之一」。

OpenAI Sora研究员Will Depue展示了一些生成虚构历史影像的demo。

found footage of Genghis Khan on the steppe with his warriors in the 1200s

13世纪成吉思汗与他的战士们在草原上的历史影像片段

found footage from Kyoto in the 1600s

17世纪日本京都的历史影像记录

OpenAI COP Kevin Weil总结了今天的发布，并给了一个海马泡泡的演示。

小狗超人在观景台上瞭望。

一部分网友也迫不及待开始试用了，比如秋叶原的十字路口飘着雪花。

一位自信地走向镜头的女人。

woman confidently walking towards the camera, there are paparazzis behind her, tokyo high high contrast background

一位女性自信地迎着镜头走来，身后跟随着一群狗仔队记者，背景是东京，光影对比强烈

视频为什么如此重要？

今年2月，OpenAI抢先推出了自家首个视频生成模型Sora。

随即，他们又放出了首批访问者利用Sora做出的7个创意的演示，还有一支由Sora制作的MV——Worldweight，引全网围观。

直播开场，奥特曼本人介绍了，视频对于OpenAI如此重要的原因，主要有三点。

第一，对于OpenAI而言，Sora不仅仅是一项技术，更是一种赋能创意人士的工具。在公司的文化基因中，用AI激发人类创造力，也很重要。

通过Sora，OpenAI看到了一种全新的协作模式：AI和人类共同创造，开启了富有想象力的可能性。

早期测试中出现的创新性互动，预示着AI创意工具将极大地改变我们思考和创意的方式。

其次，文本曾是人机交互主要形式，但OpenAI坚信，这远远不够。

仅仅通过文字来理解和表达，我们将会错过丰富的信息维度。

视频，作为一种更加立体、生动的交互方式，能够传递更多情感、语境、细节。

最后，Sora之于OpenAI，不仅仅是一个视频生成工具，更是AGI路线图上的重要里程碑。

通过学习和生成视频，AI将获得更丰富、更深入的世界理解。

让我们拭目以待，看看Sora将为人类世界带去怎样的惊喜。

参考资料：

https://sora.com/

玩转VS Code

编程开发，业界资讯，以及 VS Code 的热门文章、使用技巧、插件推荐、插件开发攻略等，全部都可以在这里找到。带你玩转 VS Code！

最新文章

在 VS Code 中可以免费使用 GitHub Copilot了！

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

Semantic Kernel 开发者日中国站即将召开

OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜

满血版o1深夜震撼上线，奥特曼怼脸演示超强推理！终极Pro版每月1450元

GitHub Universe 2024 Recap in SH，GitHub Copilot中的Java升级助手，东半球首秀！

GenAI 转型的下一篇章 - AI Agent ｜Post Microsoft Ignite 2024 in Beijing

微软Visual C++编译器团队架构师力挺C++26，称其是C++11以来最具影响力的版本

Google Devfest 2024 | 议程公开，看看有没有你想见的人！

大会日程公布｜PyCon China 2024 周末上海见！

TypeScript 5.7：一大波新特性来袭！

30岁的CSS卸下“盾牌”——更换成紫色Logo

免费课程来袭: 懂TS就能开发Web3应用，赢取丰厚奖学金🧧

.NET 9 正式发布！

Linux版微信正式官宣——基于Qt开发、启动秒开、体验丝滑流畅，吊打隔壁QQ？

Java on Azure Tooling 10月更新｜Azure 函数托管身份支持，Java on Azure 工具指南推出

Arc浏览器被“练废”了，开发商宣布停止开发——即将推出“Web浏览器的iPhone”

“最锈”开源代码编辑器Zed重量级更新——支持远程开发、提供120FPS丝滑流畅体验

4种革新性AI Agent工作流设计模式全解析

刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

系统思维才是架构师的真内核

Copilot一夜杀死编程助手，GitHub官宣接入Claude+Gemini！OpenAI沦为备胎

重磅！GitHub Copilot upgrade assistant for Java 技术预览发布

今年最火开源前端框架——Svelte 5正式发布稳定版、彻底重写、新增$语法、star数近8万

放弃 React，微软 Edge 团队改用 Web 组件减少对 JavaScript 的依赖

共聚十周年｜GitHub Universe 2024 直播日程公布

Claude 3.5深夜觉醒，学会模仿人类用电脑！编程干翻o1，Agent一夜变天

“开源疯王”Matt Mullenweg正在摧毁WordPress

Rust编写的跨平台UI框架——Tauri正式发布2.0稳定版

Ubuntu 24.10 正式发布，这款最受欢迎的发行版已经20岁了！

人称“Node杀手”的Deno正式发布2.0，这集又是Rust赢了！

GitHub Universe Learn Live｜共聚 2024 GitHub Universe 十周年

刚刚，诺贝尔物理学奖破天荒颁给「AI教父」！Hinton成首位图灵奖诺贝尔物理学奖双料得主

Vue.js 作者宣布成立 VoidZero - 下一代 JavaScript 工具链

OpenAI重磅发布Canvas：跟ChatGPT一起写作编程

OpenAI官宣464亿新融资，成为万亿独角兽！还针对马斯克xAI搞二选一

Python in Visual Studio Code 2024年9月发布

苹果“最强编程语言”10周年重磅更新——Swift 6正式发布：全面支持Linux和Windows、增强与C++的互操作性

微软Office全家桶再爆办公革命，o1模型加持重塑十亿人工作流！1句话生成PPT+自定义智能体

拯救OpenAI 1500亿估值，就靠o1了？全新Scaling Law终结奥特曼「非营利游戏」

Java on Azure Tooling 8月更新 - Java 体验在 Azure 容器应用程序正式发布

VS Code Java 8月更新 - 重要 Gradle 更新！用户体验与入门向导增强

OpenAI o1惊现自我意识？陶哲轩实测大受震撼，门萨智商100夺模型榜首

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

全球最流行开源Web服务器项目迁移到GitHub

FreeBSD社区正在为是否“锈化”而激辩

【亚马逊4.5分】这本精髓之书C++之父也爱不释手

“宇宙最强”开源代码编辑器——VS Code优化Linux版本UI、改进Copilot功能……

Claude认出自画像，惊现自我意识！工程师多轮测试，实锤AI已过图灵测试？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉