Sora 太疯狂,上央视新闻了

2024-02-29 18:29   北京  

新闻联播都开始报道 Sora 了 ,意味着什么?不用了我多讲了吧。

无论如何,AI 大家一定要密切关注的,不说其他的,生成式 AI 必将改变你我的生活方式。去年发布了开创性 AI 聊天机器人 ChatGPT 的公司 OpenAI 刚刚推出了他们的最新奇迹:文生视频模型 Sora



他们不仅介绍了 Sora,还发布了一些令人惊叹的 AI 生成的视频供全世界观看。据 OpenAI 称,这些视频拥有三个显著特点:它们长 60 秒,在一个视频中提供多角度镜头,并结合了世界模型。


从本质上讲,OpenAI 在视频生成效果方面取得了质的飞跃,使 Sora 与其前辈区分开来。


“一只穿着黑色连帽运动衫的电脑黑客拉布拉多猎犬坐在电脑前,当他快速打字时,屏幕的眩光照射在狗的脸上。”


那么,为 ChatGPT 做出贡献的 OpenAI 这次是如何实现 AI 视频生成的,并且几乎实现了真实效果?这种类型的 AI 视频生成有哪些技术优势,它可能对我们的生活甚至人类社会产生什么影响?

Sora 的技术

我们先来解决第一个问题。目前,OpenAI对其大型AI连续视频模型的内部工作原理和算法仍然保密。

他们只是在社交媒体上暗示 OpenAI 在“为模型提供多帧预测”方面取得了突破。

这似乎意味着 Sora 通过自学获得了深度情感理解和构建人类发出的通用命令语言的能力。


“低质量、视觉效果令人失望的超级碗广告”


通用语言:在 OpenAI 的演示模式中,Sora 生成视频的方法非常简单。它只需要英语(或其他语言)来描述所需的场景,完全绕过了传统 3D 视频生成的复杂性。

精湛:Sora 理解人类语言并根据理解构建视频的能力确实是精湛的。视频生成所需的细节和深度水平远远超出了文本描述。如果 ChatGPT 能通过文本实现某些细节,则这些描述必须在视频中得到充分体现,展现出指数级的复杂性和深度。

情感:从历史上看,AI 生成的图像和视频在传达人类情感方面一直存在困难。例如,当前 AI 生成的肖像通常缺乏情感深度,只表现出程式化的微笑,这导致一些批评者将其贴上“毫无生气”的标签。但是,Sora 模型呈现的人物表现出极其自然、合乎逻辑且细微差别的情绪,并能无缝地适应周围环境。


借用《普罗米修斯》中的一句话,他们就像“视频中的演员……有灵魂”,比真人更像真人。


“披萨做的匹萨斜塔”


当然,在这些特性中,“构建”是最关键的方面,正如 OpenAI 对“世界模型”的概念所强调的。

我们都认识到现实世界是按照特定的物理定律运作的:物体服从重力,风可以吹乱头发,易碎物品掉落时会按预期破碎。

传统的 3D 建模和 AI 模型在这个领域一直苦苦挣扎,在尝试完美复制现实世界物理定律时经常遇到问题。构建我们的现实提出了重大挑战,在这个领域实现准确性仍然是一项艰巨的任务。

在这方面,Sora 表现出了几乎与现实不相上下的非凡能力。


“东京,这座雪白美丽的城市,正充满了生机。镜头穿梭在繁忙的街道上,跟随着那些沉醉在迷人雪景中、在街边摊位上选购商品的人们。随风飘舞的樱花瓣与雪花交织在一起,构成了一幅动人的画面。”


例如,它发布了 AI 视频,展示了一只金毛猎犬幼崽在雪地里嬉戏,一个异想天开的小动物玩着蜡烛,以及人们悠闲地漫步在日本的樱花季。这些视频严格遵守物理定律,表现出无缝过渡和逻辑序列,与因果关系完美一致。

此外,据 OpenAI 所述,Sora 的“构建”能力可以实现类似于现实世界的无限细节。与受帧数限制的传统 3D 建模不同,Sora 可以无限复制细节。加上其接近真实的感知和听力能力,这种构建世界的能力确实令人敬畏。

Sora 的影响

因此,像 ChatGPT 一样,Sora 无疑会对我们的日常生活产生重大影响。前者对我们日常生活的影响远远超出了仅仅生成文本输出或进行日常对话。一些公司已经开始利用 ChatGPT 制定计划,从而节省了大量时间并提高了运营效率。

与 Sora 相比,ChatGPT 对社会的影响微乎其微。Sora 的出现将导致广泛采用,随着时间的推移,成本会迅速下降。短视频创作者将感受到最初的影响,因为 Sora 能够在不需要真实个人的情况下几乎免费创建视频。

超微距追踪蚁群,效果堪比纪录片。


“低至地面的摄像机密切跟踪丛林中的蚂蚁,深入地下进入它们的世界”


Sora 的能力将得到提高,可能会影响中长视频创作者。如果其能力扩展到一小时以上,甚至可以使用 Sora 制作电影和电视剧。

许多人可能怀疑 Sora 的能力,认为它只创建虚拟世界和角色。然而,这远非事实。Sora 无缝地连接了视频制作中的现实和虚拟。即使是 AI 视频平台,尽管仍处于初期,也可以摄取真实人物的数据来生成 AI 渲染的图像。Sora 作为数据黑匣子,毫不费力地处理这项任务。

例如,你可以输入你偶像的图像到 Sora 进行自我学习迭代。你提供的数据越多,虚拟角色就越接近你的偶像。然后你可以描述动作,见证你的偶像在屏幕上栩栩如生。


“小土豆国王戴着雄伟的王冠,坐在王座上,监督着他们广阔的土豆王国,里面充满了土豆臣民和土豆城堡。”


例如,当前技术可以准确地捕捉身体数据以实现精细的特征,这些特征输入到 Sora 并进行自我迭代后,可以让你的偶像无缝地表演。

从这个角度来看,Sora 将催化我们生活中的变化,比 ChatGPT 更快、更深刻地重塑人类社会。此外,最重大的转变仍未展开。

试想亲眼见证你的计划在图像表现形式中迅速演化,直观地构思城市和道路建造、机场航站楼以及其他大规模基础设施项目。对于军事战略家来说,借助 AI 使作战计划形象化岂不是非常宝贵?

使用 Sora,这件事变得毫不费力。只需输入数据,Sora 就会将其可视化。你提供的数据越多,表示形式就越复杂、越详细。

当然,这样的算法严重依赖于计算能力和存储容量。通过实质的计算能力,我们最终将目睹一个举世瞩目的奇观:整个人类社会在超级计算机上以图表形式全部显示在我们面前。

由此引出一个问题:是什么区分了真实世界与虚拟世界?哪一个领域是真实的,哪一个是被模拟的?此外,我们的现实会不会只是另一个文明创造的模拟?

在 Sora 的领域中,我们的认知是自主的,还是我们仅仅是服从于 Sora 的一系列算法和电信号?这些问题既令人敬畏又令人恐惧,促使人们进行深入思考。

然而,现在,让我们退后一步。预计到 2024 年,类似于 Sora 的众多 AI 视频生成工具将涌现,需要我们每个人观察和猜测。

就在昨天,Sora 团队开启招聘,寻找“对系统效率充满热情、相信可扩展性并拥有解决这些问题的专业知识”的人才

还放出Sora最新作品,一头由花组成的老虎先散开,再重新聚合,也非常惊艳。

有网友立刻想到了《功夫熊猫》电影中一段相似场景。

要注意,电影里做这样一段特效可能需要专业团队忙活数天甚至至数周,而AI生成只需要普通人写一句话,时间则以分钟计算


 欢迎链接我,一起成长精进
  I随手点个赞、在看、转发三连吧,如果想第一时看到文章加个星标⭐ 
赵玉润
远行人必有故事讲