Sora正式发布 ,测评!

科技   2024-12-12 00:28   新加坡  
12月10号的凌晨,OpenAI在12天圣诞活动的第三天,终于推出了Sora的新版本——Sora Turbo。

这次的Sora,可以生成最高1080P分辨率、最长20秒、16:9、1:1、9:16画面比例的视频,支持用户输入文字或者上传图像,并且上线了全新的UI界面。
方便用户对生成的视频进行修改、创建、扩展、循环、混合,以及用文本生成全新的内容等等。
Sora一经发布,服务器很快就被挤爆。
萨姆·奥特曼转发了Sora团队技术人员关于注册被禁用的帖子,表示需求高于预期,注册将被禁用,视频生成将在一段时间内变慢,我们都将尽力而为。
可见大家对于Sora都是期盼已久、热情高涨。
首先,OpenAI这次将Sora作为了一个独立产品,发布在了Sora.com上,并且为Sora开发了新的界面,以便让用户更轻松的使用文本、图像和视频提示。
在页面的下方有输入框,用户可以输入想要生成视频的文字描述,并且提供了预设屏幕比例、分辨率、时长、变体等等选项。
如果鼠标移到问号图标,还会显示生成视频所需要消耗的积分值。

画面比例,可以选16:9、1:1或者9:16;分辨率,可以选1080P慢8倍、720P慢4倍和480P;最快时长,可以选20秒、15秒、10秒和5秒。
一次可以生成一个、两个或者4个视频变体;预设则有6个选项。点击create即可创建视频。
打开每个视频,底部还能进一步的编辑提示词、观看故事,进行Record、Remix、Blend和Loop操作。
页面的右上角有喜欢、分享、下载等等选项,OpenAI还提供了精选和最新动态,不断的更新社区的创作视频。
点击页面左侧的Feature,就可以看到分享的作品;点击页面右上方的账户,还可以看到视频教程。
接下来,我们具体来看一看Sora不同功能的效果。
先说Rebix,也就是替换、删除或者重构视频中的元素。
用户可以输入提示修改当前的视频,或者基于当前的视频来创建新的视频。
Sora有强、中、微、定制4种可选的Remix强度选项。
比如说,把视频画面中的猛犸象换成机器人;再比如说,生成打开通往图书馆的大门的视频,然后把门换成法式门,或者把图书馆变成一艘宇宙飞船,然后再移除宇宙飞船,添加丛林,或者再把丛林换成月球景观等等。
其次是Recut重剪辑功能,也就是找出你最满意的视频片段,把它截取出来,然后向任意方向延展来完成场景。
第三个,是Storyboard故事板工具。你可以在时间轴上组织和编辑视频的独特序列,精确指定每一帧的输入。通过使用故事板,视频画面能够被控制的非常精细。
用户还可以通过输入文字提示、上传图片,或者基于已有的视频,在页面添加多个分镜头。
比如,指定第一帧是一只美丽的黄尾白鹤站在小溪里,第二帧画面是鹤把头伸进水里,捞出一条鱼,系统还会自动地扩写提示词。

有了这个工具,你就可以制作多镜头的视频大片了。
比如说生成一个一片广阔的红色景观,远处有一艘停靠的宇宙飞船的视频,然后将下一个镜头指定为从宇宙飞船内部向外看,一位太空牛仔站在画面中央,最后再来一个针织布面罩框住宇航员的眼睛的细节特写视图,这样视频就有了清晰的故事线。
第四个是Loop无缝循环播放功能,可以使用循环剪辑来创建无缝重复的视频。Loop有短2秒、中4秒、长完整版三种循环选项,可以创建出循环开放的花和循环旋转的楼梯这样的视频。
第五个,是Blend无缝过渡的功能,也就是将两个视频合成为一个无缝剪辑。
用户可以调节融合的比例和方式,选择需要保留的关键元素,系统会自动处理场景之间的过渡效果。
Blend曲线,有过渡(Transition)、混合(Mix)、采样(Sample)、定制(Custom)四个选项。通过Blend功能,你可以创建出雪花与花朵两个视频画面的无缝融合。
第六个,是Style Process风格样式预设功能。用户可以使用预设的风格,来创建和分享激发想象力的视频。
比如说,对于右下角两个猛犸象在步行的视频,你可以将风格切换为左上角的硬纸板和纸质工艺品风格、右上角的复古电影风格,以及左下角的怀旧档案风格。
Sora公开上线之后,首批ChatGPT的适用者们积极地在社交平台上晒出各种作品。许多视频乍一看都非常逼真,其中,也不乏一些令人啼笑皆非的画面细节。
比如说,有个用户的提示词是一只土豚沿着俯瞰港口的沿海小径骑自行车,不过最后生成的视频中,土豚在中途莫名其妙的变为向相反的方向骑行。
还有用户的生成视频中,Sora直接把人物性别给搞反了。
网友的提示词是一个30多岁的男人,黑头发戴着眼镜,和一位黑发女人一起走在尼斯的长廊上,天气很好,有几个人在海滩上晒日光浴,但是视频中出现了两位女士。
实际上在发布会开始前的一个小时,YouTube上的知名科技评测网红马奎斯·布朗利就已经抢先发布了Sora的深度体验报告。
经过一周的测试,他对Sora的长短版有着更加深入的理解。
布朗利在测试中发现,Sora对于粒子和流体模拟非常到位,而且在文字渲染方面表现出色,当用户明确要求特定文字的时候,系统基本上能够准确地呈现。
尽管在背景中,可能偶尔会出现混乱的文字,但是只要在提示词中明确地指定关键文字的呈现往往都很准确。
而Sora最大的短板依然在于运动,比如说,在生成监控摄像头风格的画面时,人物移动的速度常常显得不自然,时快时慢。
甚至当他尝试创作运动场景的时候,动作总会以一种超现实主义的方式前后交错。
对此,布朗利的结论是Sora压根就不懂物理。
不过,Sora在处理抽象艺术、动画人物等不需要严格遵循物理规则的内容时,效果则相当令人满意,这可能是因为人们可能会把这种奇怪的物理特性当成是一种风格化的表达。
另外在布朗利的测试中,物体在画面中的一致性问题也尤为突出,物品可能会在经过其他物体遮挡之后突然的消失,或者在没有任何明显原因的情况下凭空出现。
比如说当布朗利要求系统生成一个科技评测视频的时候,画面中的评测者手中的手机会突然的消失,这种现象,在处理包含多个移动物体的复杂场景时,特别的明显。
而至于高级的控制功能,比如说内置的故事板工具,似乎也需要多次的训练和尝试,才能够保证有效。
在安全性方面,Sora据说采用了多重保护措施,系统会自动识别并且拒绝处理包含公众人物、品牌标识,或者是未成年人的图片,所有生成的视频,都会添加独特的水印动画。
但是这种严格的内容审核机制,某种程度上也限制了工具的应用范围,比如说,无法生成扎克伯格在四角龙中大战马斯克的画面,着实有点令人遗憾。
在收费方面,这次发布的Sora,仅仅提供给了ChatGPT Plus和Pro用户使用。
Plus用户,每个月最多可以生成50个480P分辨率视频,或者更少的720P分辨率、时长为5秒的视频,月订阅费为20美元,折合人民币145元。
Pro订阅者,则最多可以生成500个视频,并且支持20秒时长、1080P分辨率,可以下载无水印版的视频,月订阅费为200美元,折合人民币1,450元。
按照这个来计算,平摊下来,生成一个视频也就是花2.9。
ChatGPT Plus和Pro每月分别为用户提供1,000和1万的积分,其中480P视频需要20 - 150个积分,720P视频呢需要30 - 540个积分,而1080P视频需要100 - 2,000个积分。
而且,Plus版本不能生成带有人物的视频,只有Pro版本才可以。
目前,Sora还只是开放了美国地区,欧洲要稍微等一下,其他地区,暂时都没开放,而中国大陆和香港地区,则不在Sora的支持地区列表中。
所以如果你在国内的社交平台上看到有人做共享账号的,几乎都是骗钱的。
除了功能展示以外,这次OpenAI还发布了Sora的系统卡,分享了关于安全和监控方法的详细信息。
Sora构建于DALL·E和GPT模型的基础之上,是一种采用了Transformer架构的扩散模型,从一个看起来像静态噪声的基础视频开始,然后通过多个步骤消除噪声,逐渐对其进行转换来生成视频。
通过让模型一次预测多个帧,Sora生成的视频,可以确保主体即使暂时消失在视野之外,也能够保持不变。
Sora模型,还使用了DALL·E 3中的Re-captioning技术,这项技术,可以为视觉训练数据生成更具有描述性的文字,让模型能够更加忠实地遵循用户的文本指令。
除此以外,Sora模型还能够利用现有的静态图像来生成视频,或者对现有的视频进行扩展,或者填充缺失的帧。
相信这个能力,将是实现AGI的一个重要里程碑。
与语言模型用的文本TOKEN不同,Sora用的是视觉补丁,这已经被证明是视觉模型的一种有效表示。
在高层次上,OpenAI的研究人员会首先将视频压缩成一个低维的潜在空间,然后将表示分解成时空视觉补丁。
此外,Sora接受了各种数据集的训练,包括公开可用的数据、通过合作伙伴关系访问的专有数据,以及内部开发的自定义数据集。
当然了,Sora的能力,也可能带来新的风险,比如说相似滥用,或者是产生误导性内容的可能性。
所以在安全方面,自从2024年2月发布Sora以来,OpenAI与来自60多个国家和地区的数百名视觉艺术家、设计师和电影制作人合作,来获得创意专业人士方面的反馈。
此外,OpenAI采取了以下多种安全缓解措施,包括通过多模态审核分类器进行文本和图像的审核,自定义大语言模型筛选,采用图像输出分类器以及黑名单等等。
当前,OpenAI屏蔽了一些特别有害的形式,比如说儿童虐待啊、深度性伪造等等,这些题材的内容上传会被限制。
接下来的几个月里,OpenAI团队还将致力于提高分类器的性能,最大限度地减少误报,并且加深对于潜在偏差的理解。
为了确保Sora技术被负责任的使用,所有Sora生成的视频,均附带CTWOPA原数据,可以识别视频是否来自于Sora。
OpenAI还默认添加了可见水印等等保护措施,并且构建了一个内部的搜索工具,也可以帮助来验证内容是否来自于Sora。
以上就是对OpenAI这次发布的Sora的介绍了。
虽然感觉,在产品设计上,确实向专业的影视软件靠近了一些,但是模型的短板,也过于明显,甚至有些原地踏步,个人感觉,离大家对它的期待还是差的比较远的。
那大家对于OpenAI这次发布的内容,有什么看法呢?欢迎在评论区留言。

AI光子社
专注于AIGC的技术发展和商业应用,在人工智能时代,致力于让新技术为更多的普通人赋能增效。
 最新文章