在AI生成的“世界”你能撑多久?

科技   科技   2024-02-26 17:07   江西  

216日凌晨,一则重磅消息轰炸AI圈,许多人因此彻夜难眠。

OpenAI发布首个AI视频生成模型Sora,此模型可以依据用户输入的指令,生成一段时长可达1分钟的视频。”

多位业内人士表示,Sora的发布是一次里程碑式的事件,甚至认为AI视频将如海啸般以排山倒海之势席卷诸多行业,引发一系列连锁反应。

在一众AI视频工具还在以个位秒数争高下的节点,Sora60s的绝对优势横空出世很难不让人震惊,而从实际表现来看更是达到了“微瑕”的完美。

完美诠释何为“以假乱真”

根据OpenAI的自我介绍:“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题“。

虽然说得很笼统,但好在创始人Sam Altman亲自下场做出了演示,通过Sora将网友们随意写的prompt逐一输出成视频,其以假乱真程度堪比再造一个”现实世界“。

一位戴着尖顶帽,身披绣有白色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里,一位擅长利用社交媒体的奶奶,正在教你制作美味的自制诺奇面。

类似的AI视频在Sam Altman的社交媒体上还有很多,不难看出,Sora对于语言有着深刻的理解,并能完整呈现其中提到的关键元素。

在涉及到人类角色的时候,Sora也能完美表现人物的细节,包括发丝和皮肤纹理,更令人惊叹的是,它可以通过瞳孔和面部表情准确的传递人类的情感,你甚至可以透过瞳孔看到人物眼中的另一个世界。

世界模型真的要来了?

ChatGPT珠玉在前,OpenAI或许已经习惯了世界的关注,习惯了将同行远远甩在身后,然而Sora的成功绝非一蹴而就。首先GPT4作为目前全球最优秀的自然语言处理模型,其Transformer引擎已经非常完善,拥有理解语言、处理任务的强大能力。其次OpenAIDALL-E扩散模型也已经发展至第三代,能够精准的将用户的语言生成为图像。

虽说在二者的结合上还有着更为复杂的技术能力,以至于让AI产生了对于拍摄手法的独特理解,但正是以上两项技术成果,才让今天的Sora的诞生成为可能。

不过,目前的模型尚不完美,仍有很大提升空间,特别表现在应对复杂的物理规则和复杂的因果关系上。比如会出现椅子漂浮运动、吹蜡烛但蜡烛没有熄灭、杯子里的水在破裂前露出等。

只是瑕不掩瑜,“微瑕”的完美向人们展示的是更为广阔的想象空间,并且再次引发人们对于将被AI取代的探讨。

行业地震是否就要变天?

先说结论,Sora引发技术变革是一定的,但OpenAI短时间内也无法形成一家独大的垄断局面,也就是说未来的AI圈依旧将维持一超多强的局面,后进企业仍有竞争空间。

一方面是技术领先的公司一般更倾向于维持领先地位,实现下一步的技术突破。另一方面,目前的Sora的表现虽然惊艳,也颇具可玩性,但不稳定性使其作为工业技术距离商业化还有很大距离。

此外,由AI视频模型引发的行业震荡仍在持续,比如直接威胁库存视频生成公司的发展,Adobe就因此股价下跌7%。作为同行的其它AI初创公司也纷纷受到Sora的影响,而更大的压力可能来自于市场和投资人,Sora的出现让从业者必须审视自己原本的发展路线,也让投资人质疑之前的选择是否正确。

回过头来看国内,近些年来大力支持与埋头追赶是行业的主旋律,不过依然仍有不小的差距,而Sora的诞生无疑让追赶的距离再次拉大。

更值得关注的是,Sora距离ChatGPT的发布不过才一年有余,期间世界范围内已经涌现了无数优秀的AI初创公司。作为旁观者,在慨叹技术更新之快的同时,更多的人开始担忧,对已经习惯了通过屏幕了解世界的现代人来说,AI视频出现后,我们还能分清现实与虚幻吗?

赛博科技
最future的生活方式,最in的科技资讯,最real的产品测评,赛博格人必看的时尚内容都在赛博科技
 最新文章