Sora试用报告:错误不少,一起找茬

科技   2024-12-12 23:33   北京  
文丨天下
Sora来了,Sora的评测也来了!
那OpenAI刚刚发布的的Sora是否和预料的一样好用呢?

2024年2月OpenaAI公开展示视频生成工具Sora,但并没有正式发布,而在OpenAI的第三场发布时,Sora Turbo通过sora.com与网友见面,ChatGPT Plus和Pro付费用户可以使用,前者每月需要20美元/月,后者200美元/月。

输入文本提示或者图片,Sora可以生成多种类型的视频,时长介于10-20秒,分辨率介于480p-1080p。OpenAI还添加了所谓Storyboarding模式,它可以以“时间线”视角生成多段连接在一起的视频,该模式可以让片段之间实现无缝转换。

欢迎来找茬
Sora发布之后试用者很多,挤爆了网站。OpenAI CEO Sam Altman说:“我们明显低估了Sora的需求,还要等一段时间才能让每个人都能访问。我们会尽可能快找到解决方案。”
如果是在物理规律不太适用的环境中,Sora生成的视频不错,比如生成太空动画。如果让Sora生成像照片一样真实或者像电影一样华丽的视频,那它就显得捉襟见肘了。视频中的对象会莫名其妙消失或者出现,很多动作不自然。
也许视频生成真的能带来变革,改变人类的沟通交流方式,其意义和手机摄像头、社交媒体、社交视频一样重大而深远,你可以管它叫“社交制作”。
让我们从几段视频中找一找问题:
案例1
很明显,创作者让Sora生成一段员工正在工作的视频,他想看看视频会出什么错误。和预想的一样,Sora犯错了,的确有两只手正在敲击,但手并没有击中键盘。细细看,敲击时,文本也并没有变化。

AI明显不像人类。许多试用者都认为,AI基本上不懂物理。AI如果想理解物理,就应该知道一个对象相对于另一个对象应该做出怎样的反应。和LLM幻觉一样,Sora视频模型很难处理好对象的移动。

案例2
这段视频测试的是Sora有没有能力渲染好风景,它需要捕捉光线的细微差别,观察物体的移动。从表面看,Sora生成的视频十分漂亮,但仍然不真实。

天上的海鸥看起来像是被某种磁力吸引,然后像回旋镖一样飞走,飞翔的方式并不真实。创作者希望视频能让人震撼,Sora还做不到。

案例3
制作这段视频的提示是这样的:“雨夜,在熙熙攘攘的城市街道上,潮湿的路面倒映着霓虹灯。”它在城市环境、天气、复杂光线等几个方面对Sora进行考验。

整体看,Sora表现不错,只是行人的腿有些古怪,你可以观察右上角打红色雨伞的行人,就能看出一些问题。灯光和倒影还不错,水坑中的倒影显得蛮真实。

案例4:
创作者告诉Sora:“充满未来感的机器人穿越树森,它与野生动物互动。”

创作者希望将科幻小说元素和自然景观融合在一起,看看Sora能否融合不同的主题。在聚合方面Sora做得不错,小小的松鼠,巨大的机器人,二者配合得不错。树、自然环境非常真实,机器人符合预想。

案例5:
我们尝试将机器人、城市夜景两段视频结合,生成一段新视频。

不得不承认,结合的两段视频是分割的,并没有达到预期。

案例6:
提示:“在现代风格的厨房里,厨师正在炒菜。”

这段视频测试的是Sora描绘人类行动、烹饪细节和室内环境的能力,视频虽然很逼真,但错误相当明显。

锅中的黄色辣椒根本没有切,锅没有放在灶台上,而是放在台面上。让人欣慰的的是,厨师的动作、面部表情还不错。

案例7:
创作者找了一段视频,视频中一只鸟站在门廊上,然后告诉Sora,让它在视频中添加一只猫。创作者想看看Sora的混编能力如何!

Sora可以生成风景和生物,但它无法将猫放进视频,也许应该多试几次。
离完美仍然有距离

Youtube播客Marques Brownlee发布了一些他自己用Sora制作的视频。

他认为,Sora的确可以制作一些让人惊叹、有时很逼真的视频,但视频的细节有时会存在错误,视频中有很多地方AI味道浓厚,有时还会随机增加或者删除一些对象。

例如,人的手上拿着物件,从视频开始到结束本来应该一直拿着,但视频中物件可能突然消失。视频中的对象似乎很难正确移动,例如一个人在走路,本来很简单,但人物可能会以不自然的方式放慢速度或者加速,身体的部分可能会突然扭曲变形。
当前阶段,如果想用Sora制作出视频神作,可能依然是:有多少人工智能,就有多少人工!大量的提示词尝试、一次次矫正、长时间地测试和优化。
按照Marques Brownlee的说法,在生成真人肖像、暴力内容和一些相关主题的内容Sora进行了严格限制。
Sora工程师Rohan Sahai证实,自2月份Sora亮相以来,OpenAI做了很多安全工作,确保不会误用。

OpenAI也知道Sora存在局限性,它说:“早期版本的Sora生成视频会出现一些错误,它是不完美的。”面对物理模拟、复杂动作,Sora都不能很好应付。

和以前看到的视频生成工具一样,Sora也不能生成真正全新的事物,它只是以现有架构作为基础进行一定的变化,将现有概念进行新的表达,原创能力并不强。
整体看Sora表现还不错,其实其它视频生成工具也不错,只是生成的时间比Sora长一些。只需要不到5分钟,用户就可以生成3-5秒的视频。
允许用户编辑提示语,可以混编视频,这些功能相当酷。有时简单的提示也可以生成精彩的视频,给人留下深刻印象。
ChatGPT Plus用户每月只能生成50个视频,所以制作视频时要考虑好提示语,不要随便尝试,浪费机会。
为了安全起见,Sora对人的生成进行了限制,背后的原因值得深思。
从种种迹象看,Sora处理人物仍然不完美,藏拙也可能是限制的原因之一。
欣赏一些Sora的作品

Sora Turbo依然给我们带来了巨大的惊喜,对传统的视频、广告、影视行业是必须重视的新趋势和新工具。
下面就让我们一起来欣赏更多的Sora作品!
提示:浴缸里有一只橡皮鸭子,还有一只用洗发水泡泡生成的龙,龙在吐着泡泡。

提示:加拿大艺人用Sora制作的音乐视频作者拍了一些视频,然后用Sora将视频与其它更有趣、更加超现实的视频融合在一起。
提示:冬天,一只金毛猎犬穿着超级英雄的服装,戴着面具,披着斗篷,站在帝国大厦的顶层俯视纽约市。

BTW 技术亮点再回顾
按照OpenAI的说法,只有理解、模拟现实,模型才能与物理世界互动,才有可能真正进化出AGI。
OpenAI首席执行官Sam Altman强调,Sora可以成为创意人士的制作工具,可以突破文本限制,增加更多创作维度,让用户以全新方式与技术互动,还有,视频将会成为AI学习的关键,帮助AI掌握许多复杂技能,处理更多任务。

OpenAI Sora艺术项目主管Souki Mansoor说:“有些人想通过视觉方式探索新世界,分享自己的创意,Sora将为他们打开大门,对那些没有资源、没有接受过训练的人来说更是如此。影片制作可是非常昂贵的。”

我们再来回顾一下Sora Turbo的技术亮点!
故事板Storyboarding)功能:这一次OpenAI特别重视故事板功能,它可以通过一系列提示生成视频,可以将照片转化为视频;简单来说,有了故事板功能,用户可以输入一连串提示,让它生成更连贯的视频。
混编(remix)功能:也是技术重点,用户可以通过调整文本提示优化输出,可以将两份段场景拼在一起。
例如,通过Sora可以生成在沙漠中行走的猛犸象,用户可以调整长宽比、分辨率,可以生成多个同类视频;通过混编功能,用户可以将沙漠替换为震撼的雪山。

重描述技术(recaptioning technique):在视频模型中,Sora用到了重描述,类似于DALL-E 3图片生成器使用的技术,它可以为视觉训练数据生成高度描述性的字幕,正因如此,Sora可以以更忠实的态度按照用户的文本指令生成视频。
相比2月展示的产品,正式版Sora处理速度更快。
很明显,尽管Sora Turbo并不完美,但OpenAI对它寄予厚望。
大概率它正是付费用户转化的关键。
如果您有什么想说的,欢迎在评论区留言讨论!
投稿或寻求报道,欢迎私信“投稿”,添加编辑微信
如果您想要获取最新的科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会!
欢迎扫描下方二维码,加头部科技创始人、AI头号玩家俱乐部主理人晶总微信!


头部科技
头部科技是技术新世界的记录者、探索者和推动者。我们致力于普及细分场景的科技解决方案,打造科技和人才创新知识图谱。无论你身处技术公司或传统行业,在这里都可以找到智能化、数字化升级的案例和伙伴。在无限的时空中,和你共同探索科技原力是我们的荣光。
 最新文章