别吹Sora了,实测一言难尽。甚至分不清人脸和猪??

科技   2024-12-12 19:18   广东  
毫不意外的,Sora今天全网刷屏了。
Altman直接穿着带Sora logo的卫衣

没错,Sora来了,立即可用。

Sora官网:https://sora.com/

先来看看官方划的重点:

  1. 现在的Sora性能更好,支持文生视频、图生视频、视频转视频,最高1080p,最长20秒视频时长。
  2. Storyboard功能:可以把一句prompt扩展成带时间线的剧情,并且可以二次编辑
  3. 其他视频生成小功能,例如两个视频融合的Blend功能、替换视频中的元素的Remix功能、提取视频关键帧并重新延伸视频时长的Re-Cut功能、生成循环视频内容的Loop功能等。

再来看个官方发布的视频:

看着很不错对不对。

在看发布会的时候,笔者就预感到一会儿sora服务器要被挤崩,毕竟这可是积累了一年情绪的期货兑现。

所以笔者干脆去疯狂刷新sora的网页去了,sora一上线,就作为第一批用户成功注册并挤进了服务器!

来,带你们看下你注册账号完成后的第一屏

你没看错,我当时也懵了,还以为是不是出bug了。

这tm什么产品逻辑,刚一注册,弹窗让我付费?

我情怀呢,连个免费试用都没有吗?想钱想疯了吗。。。

而且20美金,140多人民币,就只能生成50个视频?

合着一个5秒的720p镜头值3块钱?

这得是多大的自信才能这样定价。

看到这儿我反而兴奋了,不用说,OpenAI敢这么自信,说明这波一定是不得了的划时代的东西,没错了。

干!

反手就冲了20美金。

Plus套餐(20美元/月):50个视频(1000个积分);720p分辨率;5秒视频时长。

Pro套餐(200美元/月):500个插队处理的视频(10000个积分);无限次排队处理的视频,分辨率1080p、最长20秒视频时长;最多同时处理5个生成请求;下载无水印。

Sam Altman收到我给他打的20美金后,我成功解锁了看到Sora控制台首页的资格——

确实很OpenAI。

整体上,依然是一个文生视频的框架。

你可以输入关于你的视频创意的描述,输入后,如果点击右下角的发送箭头,就直接给你生成视频了。

如果点击的是发送按键旁边的Storyboard,相当于它会帮你做提示词优化,把你的创意改成带时间轴和详细细节的提示词。稍后我再讲。

这里我先讲下左下角的两个按钮。

一个是文件上传。

你可以上传图片、视频来进行图生视频、视频生视频的操作,这块估计大家在其他AI视频上也都见过了。不过,sora这里上传的素材不能包括人脸,不得不说隐私保护还是到位的。

第二个按钮是关于视频参数的控制。

具体来说,你可以控制的参数包括:

1. 视频的长宽比

包括16:9、1:1和9:16这三挡。

2. 视频的清晰度

20美金的plus会员只能生成480p和720p的视频。

如果你想生成1080p的视频,好家伙,你得花10倍的价格,去开200美金/月的Pro会员。

不是,Sam哥们,你知道在你“憋大招”的这一年里,像智谱这样的中国大模型厂商早就把AI视频卷到4k分辨率了吗...

结果1080p你现在跟我要200美金/月??

行,如果能跟国产AI视频厂商,拉开代际的差距,我觉得其实也可以接受。

3. 视频时长

有5秒、10秒、15秒、20秒这四档。

Plus用户只能生成5秒和10秒视频。15秒和20秒同样要开200美金Pro账户才行。

4. 抽卡数量

玩过AI视频的小伙伴都知道,这玩意就跟文生图一样,效果行不行,非常依赖抽卡这个动作(一次性给到的视频候选数量)。

所以抽卡的数量,会对你最终得到满意的视频的进程影响很大,基本就是成倍的时间消耗。

同样的分档——Plus用户每次只能抽2个;Pro用户每次可以抽4个。

5. 预设风格

比如纸板画、电影质感、定格动画等等。

好,讲完了参数,咱们直接上手玩玩核心功能。

这里我输入一个非常简单的prompt——

a dog flying to a pig

一只狗在飞向一只猪

这个镜头很好理解的吧!

这时,如果你点Storyboard按钮,它就会把你这句提示词扩展成下面这个样子:

简单来说,它会把你的提示词自动扩展剧情,生成分镜,然后将多个提示词串联到一起,生成指定剧情的视频。

这里Sora直接给我的内容优化成了两段:

第一段:展开一个异想天开的场景,一只毛茸茸的小狗带着快乐的表情飞过湛蓝的天空。耳朵在风中拍打,一只小小的红斗篷在它身后飘动,仿佛它是一个超级英雄。下面,一只肥肥的粉红色猪站在郁郁葱葱的绿地上,惊讶地抬头看着逐渐接近的小狗。阳光灿烂,为田园诗般的风景投下温暖的光芒。

第二段:狗逐渐靠近猪,当它开始轻轻地着陆时,伸出小爪子。

从一句话,直接变成一个完整的故事剧情,如果对剧情不满意,还可以调整剧情内容。甚至你可以在时间轴里插入新的剧情(像我在视频里演示的那样)。

不错不错!

我期待值拉满了,突然觉得20美金好像因为这个Storyboard功能变得有点值了。

咱们生成视频吧!

我没想到,等第一个视频的过程,差点把我等睡着。

你们自己看,我2点半提交的,一小时过去了,好消息是进度条不是0%,坏消息是进度条只到28%。

行吧。我继续等。

5分钟后再看,纳尼,已经90%了。

看来大部分的时间是在排队。等排上队后,其实产出一条视频就很快了。

此刻我忍不住激动的搓手手。

果然,又过了3分钟,视频出炉了!

来,一起欣赏!

什么?

不是哥们,我这是Sora吗?

说好的飞向猪呢?

甚至第二个候选视频里,我的猪都不见了?

消失的猪?

更离谱的是,猪竟然被一个我不认识的人的脸给替代了。

你们有人知道这是谁吗?为啥在Sora眼里,这个人=猪??

恕我直言,这个指令遵循能力,我真的不敢想象这竟然是Sora。

我突然差点忍不住要给Sam Altman打电话,让他把我的20美金还给我。

我把这个视频丢到我们读者群里后,大家也纷纷表示无法相信这是Sora。

还没有加夕小瑶Family群的小伙伴,记得文首或文末扫码!重要一手信息不错过

行吧。

突然有小伙伴提醒我——

有没有可能,是你的提示词太简单了?

我突然觉得有道理。

因为OpenAI的o1就是,你问它简单问题,它的表现很zz,但复杂的你都搞不定的问题,它倒是经常制造惊喜。

来,搞个难的!

Theme: Cyberpunk dystopia meets whimsical fantasy.

Setting: A bustling futuristic marketplace built into the ruins of an ancient temple, overgrown with bioluminescent flora. Rain falls, reflecting neon lights and casting shimmering streaks across holographic advertisements.

Characters:

Protagonist: A young woman with vibrant blue hair, cybernetic enhancements on her arms, and a mischievous grin. She wears a tattered cloak over sleek, functional clothing.
Antagonist: A towering figure shrouded in shadow, with glowing red eyes and mechanical appendages. Their voice is a distorted growl, emanating from hidden speakers.
Side Character: A small, furry creature with large, expressive eyes and the ability to levitate objects with its mind. It acts as the protagonist’s loyal companion.
Action:

The protagonist is being chased through the marketplace by the antagonist’s robotic drones.
She uses parkour skills and her cybernetic enhancements to navigate the crowded space, leaping over stalls and sliding under levitating vehicles.
The side character uses its telekinetic abilities to cause distractions, tripping drones with fallen fruit and manipulating signage to confuse pursuers.
The chase culminates in a tense standoff on a crumbling temple rooftop, overlooking the neon-drenched city.
Mood: A blend of action, suspense, and wonder. The overall tone should be fast-paced and exciting, but with moments of humor and heartwarming interaction between the protagonist and her companion.

Visual Style:

Hyperrealistic CGI with anime-inspired character designs.
Rich, saturated colors with a focus on contrasting neon lights and deep shadows.
Dynamic camera angles and quick cuts to emphasize the action.

我给大家翻译下:

主题:赛博朋克反乌托邦与奇幻幻想的融合。

场景:一个熙熙攘攘的未来市场,建在一座古老寺庙的废墟中,周围长满了发光的植物群。雨水倾盆而下,反射着霓虹灯光,在全息广告上投射出闪烁的光带。

角色:

主角:一位年轻女子,有着鲜艳的蓝色头发,手臂上装有机械装置,脸上带着调皮的笑容。她穿着一件破旧的斗篷,里面是时尚的功能性服装。

反派:一个笼罩在阴影中的高大身影,有着发光的红色眼睛和机械肢体。他们的声音是从隐藏的扬声器中发出的扭曲的咆哮。

配角:一只毛茸茸的小动物,有着大大的、富有表情的眼睛,能够用意念让物体漂浮。它是主角忠诚的伙伴。

行动:

主角被反派的机器人无人机追赶着穿过市场。

她利用跑酷技巧和机械增强能力在拥挤的空间中穿梭,跳过摊位,从悬浮的车辆下方滑过。

配角利用它的念力制造干扰,用掉落的水果绊倒无人机,并操纵标牌迷惑追击者。

追逐在摇摇欲坠的寺庙屋顶上达到高潮,俯瞰着霓虹灯笼罩的城市,双方陷入紧张的对峙。

氛围:动作、悬念和奇观的融合。整体基调应该是快节奏和令人兴奋的,但也要有幽默的时刻和主角与她的伙伴之间温暖人心的互动。

视觉风格:

超现实的CGI动画,角色设计灵感来自日本动漫。

丰富、饱和的色彩,注重对比鲜明的霓虹灯和深邃的阴影。

动态的摄像机角度和快速的剪辑,以强调动作。

来,再次排队!

漫长的一小时后——

第一眼,卧槽真的有点牛逼了。

至少整体的氛围、主角的设定跟我脑子里想的确实差不多。

但这个剧情明显崩了。

而且,我的反派呢,哥?

我毛茸茸可爱大眼睛的配角小动物呢?你别跟我说是那个球状生物...

我不信这是Sora,我本想再跑个10秒的视频,被其他小伙伴拉住了——

有没有可能是你没开200美金的Pro会员...

有没有可能是我们太菜,不会调提示词...

要不,咱先把文章发出来吧...提示词就交给咱们专业的粉丝小伙伴们

于是就这样,我决定写到这里,就让本文结束掉。

AI算法与图像处理
考研逆袭985,非科班跨行AI,目前从事计算机视觉的工业和商业相关应用的工作。分享最新最前沿的科技,共同分享宝贵的资源资料,这里有机器学习,计算机视觉,Python等技术实战分享,也有考研,转行IT经验交流心得
 最新文章