继李飞飞空间智能发布「图片生成 3D 世界」的 AI 系统后,当地时间 12 月 5 日,Google DeepMind 推出了其最新的基础世界模型——Genie 2,同样是通过一张图像或文字描述,就可以生成可供人类或 AI 智能体游玩的 3D 场景。相比李飞飞的发布效果,Genie 2 增加了更复杂的交互功能。Google 介绍称,用户只需提供一张由 Imagen 3 生成的图像和相应的文字描述,Genie 2 便能生成一个可交互的 3D 环境,用户可以通过鼠标和键盘在其中自由探索,最长可持续一分钟。该模型具有「扩展场景」的能力,不仅能够保持生成环境的一致性,还能在用户移动时准确呈现视野中消失的部分。Google DeepMind 在官网展示了一系列效果动图,进一步说明 Genie2 在生成过程中能够模拟物体交互、动画、逼真的光照、物理反射效果,以及 NPC 的行为,许多生成的场景画质接近 3A 级别的游戏,甚至在物体视角一致性和空间记忆方面表现优异,具有模拟物理法则的能力。这些能力堪称震撼,因为目前要达到如此效果仍需游戏开发配合美术花费大量时间才能完成。网友惊呼,这次发布进一步模糊了物理世界和数字世界的界限,让人们看到了如「头号玩家」般世界模型的未来。
01
通过游戏,生成无限的交互式世界 图片来源:Google DeepMind 官网几十年来,游戏一直是人工智能研究的基石。游戏的沉浸感和可控性,以及它们所带来的可衡量的挑战,为测试和推进人工智能提供了理想的环境。从人工智能发展初期掌握 Atari 游戏,到 AlphaGo 在围棋中取得的改变世界的胜利,再到 AlphaStar 在星际争霸 II 中的统治地位,DeepMind 不断展示游戏作为人工智能试验场的潜力。然而,在训练通用具身代理(能够以多种方式学习与物理和虚拟世界互动的人工智能)方面,一直面临着一个重大障碍,那就是缺乏多样化的训练环境。传统的训练工具无法提供足够的多样性和深度,因此也无法让人工智能代理充分感知现实世界的复杂性。Genie 2 旨在通过游戏生成无限的交互式世界来解决这一问题。Genie 2 的与众不同之处,在于它能够按需创建高度可定制的游戏。简单输入图像作为提示,系统便创建出可玩的世界,以适应特定的训练或游戏需求。这种灵活性让人工智能研究人员能够使用代理迎接永无止境的挑战,帮助他们培养可转移到现实世界场景中的技能。这有可能彻底改变开发者测试和改进 AI 系统的方式,让人们利用 AI 更好的释放自身的创造力。通过使用 Genie 2 快速创建丰富多样的环境,研究人员可以生成在训练过程中未曾见过的评估任务。例如,Google 展示了一个与游戏开发者合作开发的 SIMA 代理的示例,该代理能够根据一张单独的图像提示,来合成并执行在之前未曾见过的环境中的指令。图像由 Imagen 3 生成,prompt:「第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子,门是红色的,右边有一栋房子,门是蓝色的。摄像机位于玩家正后方。SIMA 代理旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。在这里,Google 使用 Genie 2 生成一个有两扇门(一扇蓝门和一扇红门)的 3D 环境,并向 SIMA 代理通过键盘和鼠标输入「打开红门」或「打开蓝门」的指令,便可控制角色做出相应动作。提示「打开红门」提示「打开蓝色门」此外,Genie 2 还可以:智能地响应键盘上的按键所采取的操作;从同一起始框架生成不同的轨迹;记住曾经生成过的内容,具有空间上下文;在长达一分钟的时间里保持世界一致性;创建不同风格的世界,比如第一人称或者卡通风格;支持创建复杂的 3D 结构视觉场景;支持模拟物理交互,气球爆炸、射击炸药桶等;学习了如何为执行不同活动的各种类型的角色制作动画;与其他智能体甚至和它们的复杂交互进行建模;进行强大的物理特性模拟:流体、烟雾、重力、光照、反射;支持从现实世界的图像进行生成。Genie 2 能力演示Genie 2 最令人兴奋的意义之一,是它能够促进一般代理的训练。与擅长单一任务(例如下棋或回答琐事)的专业代理不同,一般代理可以适应各种各样的挑战,就像人类在现实世界解决各种问题一样。通过将这些代理暴露在新环境中,Genie 2 使它们能够应对复杂的现实世界场景,在这些场景中,适应性和多功能性至关重要。虽然这项研究仍处于早期阶段,代理和环境生成能力都还有很大的改进空间,但毫无疑问,Genie 2 是解决安全训练具体代理的结构性问题的途径,同时展现了迈向 AGI 所需的广度和通用性的可能性。除了推动 AI 研究的发展,Genie 2 还为游戏开发和交互式原型设计的工作提供了新的想象空间。对游戏开发人员,尤其独立开发者来说,他们可以使用 Genie 2 快速创建独特、可玩的体验,从而减少传统设计流程的时间和成本。Genie 2 对游戏开发的价值如此显而易见,在 Genie 2 发布后,DeepMind CEO 在「X」上热情邀请马斯克一起制作 AI 游戏,马斯克则回复:「Cool」。对于游戏玩家来说,Genie 2 背后的技术预示着,未来的游戏环境将比以往任何时候都更加动态、个性化和身临其境。想象一下,视频游戏可以实时适应玩家的技能水平或偏好,提供真正量身定制的体验。实现「头号玩家」的未来世界也许离我们越来越近了。甚至,Genie 2 的影响远远超出了游戏领域。Genie 2 可以作为虚拟现实、模拟和机器人技术创新的平台。例如,机器人可以在 Genie 2 生成的游戏环境中进行训练,学习如何在陌生的地形上导航或以新的方式与物体互动。同样,虚拟助手也可以通过在这些环境中练习来提高理解和响应现实世界任务的能力。这大概也是 Google DeepMind 在介绍 Genie 2 时的定位,是「基础世界模型」,而非仅仅是「游戏生成模型」的原因。
02
解锁 3D 叙事,或成为技术革命新纪元 李飞飞在「X」公布「图片生成 3D 世界」的 AI 系统时,没有对背后的技术原理做相应说明。导致网友们一边惊叹技术能力之精湛,一边遗憾无法探究其背后原理。在 Google DeepMind 官网,Google 对 Genie 2 背后原理简单介绍为「是一个自回归潜在扩散模型,在大型视频数据集上进行训练」,并用超链接的方式引用了相关论文。笔者对该介绍进行了简单分析与理解,原理大概如下:图片来源:Google DeepMind 官网Genie 2 是一种自回归扩散模型,通过分析大量的视频数据,学习如何生成视频内容。具体来说,是通过自动编码器和大型 transformer 动态模型的共同协作,使 Genie 2 能够从原始视频中提取关键信息,并通过深度学习模型生成更新的视频场景。首先,Genie 2 使用一个叫做自动编码器的工具来提取视频中的重要信息。通过自动编码器,视频帧中的关键特征被压缩成一种简化的形式,称为「潜在帧」。可以把这个过程比作将每一帧视频压缩成一个更小的数据包,保留其中信息量最大的部分。这些「潜在帧」并不是完整的视频内容,而是对视频中最重要元素的高度抽象和简化。接下来,这些「潜在帧」会被输入到大型 transformer 动态模型中。该模型通过「因果掩码」技术来学习视频中帧与帧之间的关系。「因果掩码」帮助模型理解帧之间的顺序,使得视频内容能够连贯流畅。例如,模型能够学习到一个动作是如何从一个帧平滑过渡到下一个帧一帧的,确保视频的动态变化变焦不会突兀。在视频生成的过程中,Genie 2 采用了一种称为自回归采样的方法。这意味着它不会一次性生成整个视频,而是逐帧生成,每一帧都依赖于前一帧的信息来决定下一帧的内容。这种方法保证了视频的连续性,使得每个画面都自然地衔接在一起,从而提升了视频的真实感和流畅度。另外,Genie 2 还引入了一种名为无分类指导的技术,用于提高生成动作的可控性。通过这种技术,Genie 2 在生成视频时,可以更加精确地控制视频中的动作和场景,减少了生成过程中可能出现的不确定性或不连贯的动作,从而增强了对视频内容的可控性。随着全球科技巨头纷纷将目光投向 AI 与物理世界的融合,我们正站在一个新的技术革命的门槛上。虽然在步伐上看似慢于问答型 AI 如 ChatGPT 的进化速度,但 3D AI 的发展预示着更广阔的应用前景。正如李飞飞的 ImageNet 项目曾引领计算机视觉领域的 AI 创业浪潮,3D AI 技术如今可能正掀起一场规模更大的革命。它不仅将推动技术的进步,更将深刻改变我们与世界的互动方式,从机器人技术到自动驾驶汽车,从虚拟现实到城市规划,3D AI 的应用潜力无限。因此,我们可以预见,3D AI 将开启一个充满创新与机遇的新时代。它将不仅仅是技术的迭代,更是对人类生活方式的一次深刻重塑,推动我们进入一个更加智能、更加互联的世界。 *头图来源:Google DeepMind 官网本文为极客公园原创文章,转载请联系极客君微信 geekparkGO 极客一问你认为「头号玩家」的未来世界还有多久到来?