OpenAI被偷家,Google Veo 2反超Sora

2024-12-19 09:30   新加坡  

OpenAI被偷家,Google Veo 2反超Sora

在人工智能的竞争舞台上,Google 再次走到了前沿,推出了令人瞩目的创新:Veo 2,这款视频生成模型在一举发布后,引爆了社交网络,甚至被认为已经超越了现有的视频生成技术,包括 OpenAI 的 Sora 等顶尖模型。

今天,我们就来详细分析一下 Google 的最新成果:Veo 2,看看它为何能迅速引发如此大的关注,成为行业的焦点。

Google 发布新一代视觉生成工具:Veo 2

几小时前,Google 发布了三款重量级的视觉生成模型和工具,包括:

  • • Veo 2:一款视频生成模型,支持通过文本或图像提示(prompt)生成高真实感、高质量的视频;
  • • Imagen 3:一款文生图模型,能够更精确地遵循提示词,提供更加丰富的细节和纹理渲染;
  • • Whisk:图生图工具,结合 Imagen 3 与 Gemini,能够让用户更方便地调整图像的场景、风格和物体。

在这三款新发布的工具中,Veo 2 的表现尤为惊艳,尤其是在视频生成领域,它被认为已经直接超越了目前市场上最顶尖的视频生成模型——如 OpenAI 的 Sora。

Veo 2:重新定义视频生成的标准

Veo 2 是一款高质量的视频生成模型,可以生成 2 分钟以上的 4K 分辨率视频。更为惊人的是,它能够理解提示词中的相机控制指令,如广角镜头、POV(第一视角)以及无人机镜头等,甚至能准确重建出符合现实世界物理规律的交互和人脸表情。

然而,尽管其宣传中声称能够生成高分辨率和高时长的视频,目前 Google 的实验性工具 VideoFX 中,Veo 2 生成的视频分辨率限制为 720p,视频长度为 8 秒,这与 Sora 等模型的表现相比,还存在一定差距(例如,Sora 可以生成 1080p、20 秒长的视频)。但即便如此,Veo 2 现阶段的表现已经足以让人眼前一亮。

社交网络的热烈反响

从早期用户的反馈来看,Veo 2 的视频生成效果堪称震撼。很多用户表示,Veo 2 在生成视频时能够细腻捕捉到人类表情和物理交互,且画面流畅自然,几乎无法分辨是由 AI 生成的。

为了验证 Voe 2 的优越性,Google 进行了人类评估测试。测试中,评估者观看了多个模型生成的视频,并根据提示词进行评分。结果显示,Veo 2 在整体偏好和指令遵从度上远超其他模型,仅在少数情况下被其他模型超越。

物理理解力与细节表现的突破

Veo 2 的亮点之一是其对物理世界的理解能力。它能够生成具有真实感的水下波纹、光影效果以及动态镜头等,这些细节让人感觉仿佛是一部由手持相机拍摄的纪录片。

例如,在测试中,Veo 2 成功地模拟了一个车内镜头,镜头跟随方向盘转动,并精准展现了街道的变化。这样的镜头切换流畅且自然,表现出了极高的物理运动理解能力。

不仅如此,Veo 2 在人类表情的生成上也表现出色。通过类似的提示,其他模型难以生成如此自然且不失真的微表情,而 Veo 2 则轻松完成了这一挑战,展现出了其在细腻表情生成上的优势。

蜂群飞行的自然表现

Veo 2 还表现出了卓越的动态场景生成能力,尤其是在复杂场景中,能够无缝连接不同元素,如光影、背景和物体运动等。一个典型的例子是,Veo 2 在生成蜜蜂群体飞行场景时,成功模拟了蜂群飞舞的自然协调感,而这些细节在其他 AI 模型中几乎无法做到如此真实。

惊艳的幻想与动画内容生成

除了自然场景外,Veo 2 在生成幻想和动画内容方面也有非常出色的表现。例如,当提示词为“穿着西装的狮子、熊和长颈鹿开会”时,Veo 2 生成的画面清晰且富有表现力。类似的,生成“土豆剧”的动画场景也毫不逊色,表现出超乎想象的创意与效果。

此外,Veo 2 的优势在于它能够轻松实现一些复杂的视觉效果,如运动的立方体切换材质等,传统的后期制作往往需要花费大量的时间和精力,而 Voe 2 只需简单的提示,就能实现这一目标,极大地简化了创作过程。

技术能力背后的巨大潜力

Veo 2 的出现不仅是一项技术突破,也代表了 Google 在人工智能领域的不断创新和进步。根据 DeepMind 的官方声明,虽然视频生成模型经常会出现一些“幻觉”现象(如生成不必要的物体或细节),但 Veo 2 相比其他模型,产生这种幻觉的频率较低,模型输出更加自然与逼真。

Google 还宣布,Veo 2 将被集成到其视频生成工具 VideoFX 中,并将在未来扩展到 YouTube Shorts 和其他平台。虽然目前该模型仍处于排队阶段,但它已经表现出巨大的潜力,未来的应用场景可期。

OpenAI 面临的挑战

OpenAI,一直以来是人工智能领域的领军者,尤其是在大语言模型(如 GPT 系列)的推出上,已经深刻影响了技术行业的未来。然而,近年来,OpenAI 的发展速度和技术更新似乎遇到了一些瓶颈。虽然 OpenAI 多次通过直播和发布会吸引了大量关注,但实际的技术进展和干货似乎远远落后于公众的期望。

与此相对的是,Google 在推出 Veo 2 后,迅速获得了广泛的关注和认可,技术上的领先性也让其在与 OpenAI 的竞争中占据了优势。值得注意的是,OpenAI Sora 的项目负责人 Tim Brooks 已经在两个月前跳槽至 DeepMind,这一变化可能也意味着 Google 在视频生成技术上的进一步优势。

总结:Google 反超 OpenAI 的可能性

从目前的技术发展来看,Google 已经在视频生成领域超越了 OpenAI,尤其是 Voe 2 的发布,使得 OpenAI 面临了前所未有的挑战。尽管 Sora 仍在不断更新迭代,但与 Veo 2 目前的表现相比,差距似乎在不断拉大。

随着 DeepMind 逐渐在视频生成和视觉领域占据优势,或许正如网友们所预测的那样,Google 可能在不久的将来彻底甩开 OpenAI,成为该领域的领跑者。而 OpenAI,若无法在短期内加速技术创新,恐怕将面临更大的压力和挑战。


博闻简书
以简驭繁,书写博闻
 最新文章