60s一镜到底，导演拍不出的，openAI最新模型Sora做到了

科技科技 2024-02-18 13:33 广东

作者｜一一

出品｜互联网最前线

已有的文字生成视频工具，能简短做到3~4秒，但凡长一点就没法看，而这一遗憾将由Sora打破。

2024年2月16日，OpenAI推出了其最新研发的AI模型——Sora。

更丝滑的视觉体验：“单视频多角度镜头”、“更懂物理规律”；

更高效的工具：“60s超长长度”、”文生视频+图生视频+扩展原视频“。

下面展开说说。

一对王炸：
单视频多角度镜头，直接上60s

翻看Runway、stable diffusion、Pika等一众AI视频，基本是单一镜头（部分可以调整镜头方向和移动速度）、还挣扎在4s连贯性的边缘时，OpenAI的Sora直接将多角度镜头做到了60s，主体还能保证完美的一致性。

Sora生成效果：龙年大吉 ↑

Sora生成效果：雨夜都市女郎 ↑

对比下Runway和Pika效果 ↑

可以看出，OpenAI的Sora生成视频的质量好得多，Sora感觉像是创建了真实的视频，而以往这些竞争对手的模型则感觉像是AI生成图像的定格动画。

通过让模型一次预见多帧画面，OpenAI解决了一个具有挑战性的问题，即确保被摄体即使暂时离开视线也能保持不变。博客中透露了一些基础信息：Sora是一种扩散模型，它生成的视频一开始看起来像静态噪音，然后通过多个步骤去除噪音，逐步转换视频。

OpenAI 将视频和图像表示为称为 patch 的较小数据单元的集合，每个 patch 类似于 GPT 中的 token。通过统一数据表示方式，OpenAI 能够在比以往更广泛的视觉数据上训练扩散 transformer，包括不同的持续时间、分辨率和宽高比。

更懂物理规律，

支持多种素材生成视频

Sora 还有哪些特别之处呢？

Sora生成效果：猫咪互动，还会踩奶 ↑

它对语言有着深刻的理解，能够准确地解释 prompt 并生成吸引人的字符来表达充满活力的情感。同时，Sora 不仅能够了解用户在 prompt 中提出的要求，还能 get 到在物理世界中的存在方式。

据悉Sora 建立在过去DALL・E和GPT模型的研究基础之上。它采用了DALL・E 3中的重述技术，即为视觉训练数据生成高度描述性的字幕。因此，该模型能够在生成的视频中更忠实地遵循用户的文字提示。

给定一段简短或详细的描述或一张静态图片，Sora就能生成类似电影的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节。该模型还能提取现有视频，并对其进行扩展或填充缺失的帧。

但也找到了几个翻车视频

OpenAI 承认，当前的模型也有弱点。它可能难以准确模拟复杂场景中的物理现象，也可能无法理解具体的因果关系。该模型还可能混淆提示的空间细节，例如混淆左和右，并可能难以精确描述随时间发生的事件，如跟随特定的摄像机轨迹。

找到了几个Sora翻车的视频，但是依然很牛！

视频1：
提示：五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐，周围都是草丛。
问题：动物或人可能会自发出现，尤其是在包含许多实体的场景中。

视频2:
提示：跑步机，一个人跑步的场景，35mm 电影胶片。
问题：弄反了方向，不符合实际使用

视频3：
提示：考古学家在沙漠中发现了一把通用塑料椅子，小心翼翼地挖掘和除尘。
弱点：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不准确。

写在最后

AI在视频行业带来的最大的变化，是能生成“现实”——它会不断生成新的素材，甚至定义新的设计。

除了生成能力极强，AI也让生产变得前所未有的容易，以自然语言来改图/改视频创造全新的交互方式，这在 GPT4 中已见雏形，在 Sora 的“60s一镜到底”中则显得更加吸引人。

除了视频行业，未来知识的视觉化和动画化将席卷千行百业。

随手点赞👍，戳个在看▼

互联网最前线

科技互联网头部订阅号，深度聚焦创新经济。重磅新闻跟踪报道。有温度、有深度、有影响力！

最新文章

农夫山泉有点闲

年轻人的爱情和面包，BOSS直聘想要一键全包

京东，倒在双十一前夜

小红书，四处切蛋糕

知乎B站，落下时代的帷幕

年轻人热宠文心一言App，百度“卷应用”迎来曙光

刘强东和他“薛定谔”的兄弟

马云五年来首次长文信息量巨大！阿里重回正轨、迎接AI浪潮...

阿里妈妈发布LMA大模型技术：问AI要增长

初创公司与老牌玩家的AIGC竞争，如何才能赢得未来？

高德：一部互联网基建史

60s一镜到底，导演拍不出的，openAI最新模型Sora做到了

B站，既要又要

携程：扛过巨浪，还有巨浪

keep，从少数人到多数人

618、双11：造节的膨胀与落寞

B站，抱错大腿

世纪大融合，阿里腾讯再携手

北上广的股东，看不懂三四线的知乎

为什么安全公司的男高管，不安全？

在线音乐血泪史：熬到用户掏口袋，注意力却不再

滴滴横竖都要

蔡崇信回归，张勇 all in 阿里云！马云：阿里电商的未来回归“淘宝”

字节跳动大考

「AI孙燕姿」在线营业的背后

不一Young的青春，不一样的AI视频彩铃新体验

追风口的巨头，平台经济的下半场

VO荣米新格局下，手机厂商如何穿越新周期？

裁员、业绩下滑，ChatGPT能否成为互联网巨头逆转之光？

特斯拉向下降价，比亚迪向上仰望

马斯克愿意给自己孩子植入大脑芯片，6个月后进行人体试验

这一次，物流行业开始争夺东南亚

特斯拉跨界“造人”，时代背后的喜与忧

元宇宙企业冰火两重天，一边高薪招聘一边发不出钱

反腐进行时，芯片大基金腐败耗费了谁的心血？

美芯片法案明枪暗箭，中国“芯”的暗夜与曙光

互联网巨头卷起来了，内卷背后的科技停滞

快抖大分流，短视频巨头进攻对方腹地

马斯克妄图打开魔盒，“数字永生”仍旧南柯一梦

字节社交梦迎来新战场，势要在元宇宙“截胡”腾讯

吉利缘何收购魅族？李书福目的并不单纯

互联网公司各有所图，能否再次掀起元宇宙热潮？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉