在AI生成的“世界”你能撑多久？

科技科技 2024-02-26 17:07 江西

2月16日凌晨，一则重磅消息轰炸AI圈，许多人因此彻夜难眠。

“OpenAI发布首个AI视频生成模型Sora，此模型可以依据用户输入的指令，生成一段时长可达1分钟的视频。”

多位业内人士表示，Sora的发布是一次里程碑式的事件，甚至认为AI视频将如海啸般以排山倒海之势席卷诸多行业，引发一系列连锁反应。

在一众AI视频工具还在以个位秒数争高下的节点，Sora以60s的绝对优势横空出世很难不让人震惊，而从实际表现来看更是达到了“微瑕”的完美。

完美诠释何为“以假乱真”

根据OpenAI的自我介绍：“通过一次性为模型提供多帧的预测，我们解决了一个具有挑战性的问题“。

虽然说得很笼统，但好在创始人Sam Altman亲自下场做出了演示，通过Sora将网友们随意写的prompt逐一输出成视频，其以假乱真程度堪比再造一个”现实世界“。

一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。

在一间拥有电影级灯光设置的充满托斯卡纳乡村风情的厨房里，一位擅长利用社交媒体的奶奶，正在教你制作美味的自制诺奇面。

类似的AI视频在Sam Altman的社交媒体上还有很多，不难看出，Sora对于语言有着深刻的理解，并能完整呈现其中提到的关键元素。

在涉及到人类角色的时候，Sora也能完美表现人物的细节，包括发丝和皮肤纹理，更令人惊叹的是，它可以通过瞳孔和面部表情准确的传递人类的情感，你甚至可以透过瞳孔看到人物眼中的另一个世界。

世界模型真的要来了？

有ChatGPT珠玉在前，OpenAI或许已经习惯了世界的关注，习惯了将同行远远甩在身后，然而Sora的成功绝非一蹴而就。首先GPT4作为目前全球最优秀的自然语言处理模型，其Transformer引擎已经非常完善，拥有理解语言、处理任务的强大能力。其次OpenAI的DALL-E扩散模型也已经发展至第三代，能够精准的将用户的语言生成为图像。

虽说在二者的结合上还有着更为复杂的技术能力，以至于让AI产生了对于拍摄手法的独特理解，但正是以上两项技术成果，才让今天的Sora的诞生成为可能。

不过，目前的模型尚不完美，仍有很大提升空间，特别表现在应对复杂的物理规则和复杂的因果关系上。比如会出现椅子漂浮运动、吹蜡烛但蜡烛没有熄灭、杯子里的水在破裂前露出等。

只是瑕不掩瑜，“微瑕”的完美向人们展示的是更为广阔的想象空间，并且再次引发人们对于将被AI取代的探讨。

行业地震是否就要变天？

先说结论，Sora引发技术变革是一定的，但OpenAI短时间内也无法形成一家独大的垄断局面，也就是说未来的AI圈依旧将维持一超多强的局面，后进企业仍有竞争空间。

一方面是技术领先的公司一般更倾向于维持领先地位，实现下一步的技术突破。另一方面，目前的Sora的表现虽然惊艳，也颇具可玩性，但不稳定性使其作为工业技术距离商业化还有很大距离。

此外，由AI视频模型引发的行业震荡仍在持续，比如直接威胁库存视频生成公司的发展，Adobe就因此股价下跌7%。作为同行的其它AI初创公司也纷纷受到Sora的影响，而更大的压力可能来自于市场和投资人，Sora的出现让从业者必须审视自己原本的发展路线，也让投资人质疑之前的选择是否正确。

回过头来看国内，近些年来大力支持与埋头追赶是行业的主旋律，不过依然仍有不小的差距，而Sora的诞生无疑让追赶的距离再次拉大。

更值得关注的是，Sora距离ChatGPT的发布不过才一年有余，期间世界范围内已经涌现了无数优秀的AI初创公司。作为旁观者，在慨叹技术更新之快的同时，更多的人开始担忧，对已经习惯了通过屏幕了解世界的现代人来说，AI视频出现后，我们还能分清现实与虚幻吗？

赛博科技

最future的生活方式，最in的科技资讯，最real的产品测评，赛博格人必看的时尚内容都在赛博科技

最新文章

美的新风探索家中央空调——以创新驱动，探索舒适无界

前方AI含量超高，巴黎奥运会上的AI闪耀时刻

为什么选择天工AI？3分钟做完百页PPT，我拒绝不了！

AI智能管家锁？紫禁城联名高奢智能锁？德施曼新品“卷”出新高度！