谷歌，暗搓搓发了一个「游戏版 sora」

科技 2024-12-09 18:21 北京

马斯克也不得不赞了一句「泰裤辣」。

作者 | Xin Ling
编辑 | 靖宇

游戏世界可能要变天了。

继李飞飞空间智能发布「图片生成 3D 世界」的 AI 系统后，当地时间 12 月 5 日，Google DeepMind 推出了其最新的基础世界模型——Genie 2，同样是通过一张图像或文字描述，就可以生成可供人类或 AI 智能体游玩的 3D 场景。相比李飞飞的发布效果，Genie 2 增加了更复杂的交互功能。

Google 介绍称，用户只需提供一张由 Imagen 3 生成的图像和相应的文字描述，Genie 2 便能生成一个可交互的 3D 环境，用户可以通过鼠标和键盘在其中自由探索，最长可持续一分钟。该模型具有「扩展场景」的能力，不仅能够保持生成环境的一致性，还能在用户移动时准确呈现视野中消失的部分。

Google DeepMind 在官网展示了一系列效果动图，进一步说明 Genie2 在生成过程中能够模拟物体交互、动画、逼真的光照、物理反射效果，以及 NPC 的行为，许多生成的场景画质接近 3A 级别的游戏，甚至在物体视角一致性和空间记忆方面表现优异，具有模拟物理法则的能力。

这些能力堪称震撼，因为目前要达到如此效果仍需游戏开发配合美术花费大量时间才能完成。网友惊呼，这次发布进一步模糊了物理世界和数字世界的界限，让人们看到了如「头号玩家」般世界模型的未来。

通过游戏，

生成无限的交互式世界

图片来源：Google DeepMind 官网

几十年来，游戏一直是人工智能研究的基石。游戏的沉浸感和可控性，以及它们所带来的可衡量的挑战，为测试和推进人工智能提供了理想的环境。从人工智能发展初期掌握 Atari 游戏，到 AlphaGo 在围棋中取得的改变世界的胜利，再到 AlphaStar 在星际争霸 II 中的统治地位，DeepMind 不断展示游戏作为人工智能试验场的潜力。

然而，在训练通用具身代理（能够以多种方式学习与物理和虚拟世界互动的人工智能）方面，一直面临着一个重大障碍，那就是缺乏多样化的训练环境。

传统的训练工具无法提供足够的多样性和深度，因此也无法让人工智能代理充分感知现实世界的复杂性。Genie 2 旨在通过游戏生成无限的交互式世界来解决这一问题。

Genie 2 的与众不同之处，在于它能够按需创建高度可定制的游戏。简单输入图像作为提示，系统便创建出可玩的世界，以适应特定的训练或游戏需求。这种灵活性让人工智能研究人员能够使用代理迎接永无止境的挑战，帮助他们培养可转移到现实世界场景中的技能。这有可能彻底改变开发者测试和改进 AI 系统的方式，让人们利用 AI 更好的释放自身的创造力。

通过使用 Genie 2 快速创建丰富多样的环境，研究人员可以生成在训练过程中未曾见过的评估任务。例如，Google 展示了一个与游戏开发者合作开发的 SIMA 代理的示例，该代理能够根据一张单独的图像提示，来合成并执行在之前未曾见过的环境中的指令。

图像由 Imagen 3 生成，prompt：「第三人称开放世界探索游戏的截图。玩家扮演一名正在探索森林的冒险者。左边有一栋房子，门是红色的，右边有一栋房子，门是蓝色的。摄像机位于玩家正后方。

SIMA 代理旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。在这里，Google 使用 Genie 2 生成一个有两扇门（一扇蓝门和一扇红门）的 3D 环境，并向 SIMA 代理通过键盘和鼠标输入「打开红门」或「打开蓝门」的指令，便可控制角色做出相应动作。

提示「打开红门」

提示「打开蓝色门」

此外，Genie 2 还可以：

智能地响应键盘上的按键所采取的操作；

从同一起始框架生成不同的轨迹；

记住曾经生成过的内容，具有空间上下文；

在长达一分钟的时间里保持世界一致性；

创建不同风格的世界，比如第一人称或者卡通风格；

支持创建复杂的 3D 结构视觉场景；

支持模拟物理交互，气球爆炸、射击炸药桶等；

学习了如何为执行不同活动的各种类型的角色制作动画；

与其他智能体甚至和它们的复杂交互进行建模；

进行强大的物理特性模拟：流体、烟雾、重力、光照、反射；

支持从现实世界的图像进行生成。

Genie 2 能力演示

Genie 2 最令人兴奋的意义之一，是它能够促进一般代理的训练。与擅长单一任务（例如下棋或回答琐事）的专业代理不同，一般代理可以适应各种各样的挑战，就像人类在现实世界解决各种问题一样。通过将这些代理暴露在新环境中，Genie 2 使它们能够应对复杂的现实世界场景，在这些场景中，适应性和多功能性至关重要。

虽然这项研究仍处于早期阶段，代理和环境生成能力都还有很大的改进空间，但毫无疑问，Genie 2 是解决安全训练具体代理的结构性问题的途径，同时展现了迈向 AGI 所需的广度和通用性的可能性。

除了推动 AI 研究的发展，Genie 2 还为游戏开发和交互式原型设计的工作提供了新的想象空间。对游戏开发人员，尤其独立开发者来说，他们可以使用 Genie 2 快速创建独特、可玩的体验，从而减少传统设计流程的时间和成本。Genie 2 对游戏开发的价值如此显而易见，在 Genie 2 发布后，DeepMind CEO 在「X」上热情邀请马斯克一起制作 AI 游戏，马斯克则回复：

「Cool」。

对于游戏玩家来说，Genie 2 背后的技术预示着，未来的游戏环境将比以往任何时候都更加动态、个性化和身临其境。想象一下，视频游戏可以实时适应玩家的技能水平或偏好，提供真正量身定制的体验。实现「头号玩家」的未来世界也许离我们越来越近了。

甚至，Genie 2 的影响远远超出了游戏领域。

Genie 2 可以作为虚拟现实、模拟和机器人技术创新的平台。例如，机器人可以在 Genie 2 生成的游戏环境中进行训练，学习如何在陌生的地形上导航或以新的方式与物体互动。同样，虚拟助手也可以通过在这些环境中练习来提高理解和响应现实世界任务的能力。这大概也是 Google DeepMind 在介绍 Genie 2 时的定位，是「基础世界模型」，而非仅仅是「游戏生成模型」的原因。

解锁 3D 叙事，

或成为技术革命新纪元

李飞飞在「X」公布「图片生成 3D 世界」的 AI 系统时，没有对背后的技术原理做相应说明。导致网友们一边惊叹技术能力之精湛，一边遗憾无法探究其背后原理。

在 Google DeepMind 官网，Google 对 Genie 2 背后原理简单介绍为「是一个自回归潜在扩散模型，在大型视频数据集上进行训练」，并用超链接的方式引用了相关论文。笔者对该介绍进行了简单分析与理解，原理大概如下：

图片来源：Google DeepMind 官网

Genie 2 是一种自回归扩散模型，通过分析大量的视频数据，学习如何生成视频内容。具体来说，是通过自动编码器和大型 transformer 动态模型的共同协作，使 Genie 2 能够从原始视频中提取关键信息，并通过深度学习模型生成更新的视频场景。

首先，Genie 2 使用一个叫做自动编码器的工具来提取视频中的重要信息。通过自动编码器，视频帧中的关键特征被压缩成一种简化的形式，称为「潜在帧」。可以把这个过程比作将每一帧视频压缩成一个更小的数据包，保留其中信息量最大的部分。这些「潜在帧」并不是完整的视频内容，而是对视频中最重要元素的高度抽象和简化。

接下来，这些「潜在帧」会被输入到大型 transformer 动态模型中。该模型通过「因果掩码」技术来学习视频中帧与帧之间的关系。「因果掩码」帮助模型理解帧之间的顺序，使得视频内容能够连贯流畅。例如，模型能够学习到一个动作是如何从一个帧平滑过渡到下一个帧一帧的，确保视频的动态变化变焦不会突兀。

在视频生成的过程中，Genie 2 采用了一种称为自回归采样的方法。这意味着它不会一次性生成整个视频，而是逐帧生成，每一帧都依赖于前一帧的信息来决定下一帧的内容。这种方法保证了视频的连续性，使得每个画面都自然地衔接在一起，从而提升了视频的真实感和流畅度。

另外，Genie 2 还引入了一种名为无分类指导的技术，用于提高生成动作的可控性。通过这种技术，Genie 2 在生成视频时，可以更加精确地控制视频中的动作和场景，减少了生成过程中可能出现的不确定性或不连贯的动作，从而增强了对视频内容的可控性。

随着全球科技巨头纷纷将目光投向 AI 与物理世界的融合，我们正站在一个新的技术革命的门槛上。虽然在步伐上看似慢于问答型 AI 如 ChatGPT 的进化速度，但 3D AI 的发展预示着更广阔的应用前景。正如李飞飞的 ImageNet 项目曾引领计算机视觉领域的 AI 创业浪潮，3D AI 技术如今可能正掀起一场规模更大的革命。它不仅将推动技术的进步，更将深刻改变我们与世界的互动方式，从机器人技术到自动驾驶汽车，从虚拟现实到城市规划，3D AI 的应用潜力无限。

因此，我们可以预见，3D AI 将开启一个充满创新与机遇的新时代。它将不仅仅是技术的迭代，更是对人类生活方式的一次深刻重塑，推动我们进入一个更加智能、更加互联的世界。

*头图来源：Google DeepMind 官网

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你认为「头号玩家」

的未来世界还有多久到来？

热点视频

罗永浩：最好的产品经理，一般都有强迫症。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

极客公园

用极客视角，追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号👇

最新文章

看看产业里 AI 应用的进展吧，它治愈了我的 AI 价值焦虑

未来十年，谁将主宰科技巅峰？

OpenAI 发布高级推理模型 o3；传雷军亲自重金招募大模型领军人才非事实；小米 YU7 无伪装实车曝光 | 极客早知道

冲刺年底 KPI，车企的心眼子都用在「免息」上了

张一鸣，终于来了

内容创作的「Windows 时代」来了

999 元的 AI 眼镜来了，闪极拉开「百镜大战」序幕

苹果就 AI 与腾讯字节谈判；百度、吉利垫付，极越员工获「N+1」赔偿；余承东称智界要打造年轻人 DreamCar｜极客早知道

大模型落地，苦「最强」久矣

ChatGPT 里走不出具身智能，为什么？

字节发布豆包视觉理解、3D生成等新模型；OpenAI员工迎最多一千万美元套现机会；黑悟空获Steam年度最佳游戏提名|极客早知道

潘乱对谈小宇宙 CEO Kyth：播客是在饱和时代，提供稀缺价值

打开日本市场背后，Dify 是怎么做 AI 全球化的？

周鸿祎：AI 是赋能者，而不是单纯的颠覆者

AI 教育的「iPhone 时刻」，就是现在？

保时捷中国区裁员，员工 N+6 赔偿；TikTok 向美国最高法院提交紧急请求；美团试点骑手过度跑单将被强制下线 | 极客早知道

买了 3 副 AI 眼镜的人，心里到底在想什么？

余凯：科技让机器的归机器，人的归人

扎克伯格套现超过 22 亿美元；极越夏一平发长文道歉信；Lucid 工程师称自购小米 SU7 学造车 | 极客早知道

跑分超 o1，还会看图思考，数理化正在被 AI「完爆」

宇树科技王兴兴：人形机器人很热，但是要把所有细节做到极致

百度、吉利高管：将负责极越智驾与售后问题；微信打击利用 AI 模仿名人行为；余承东入驻抖音，三天增粉 200 万 | 极客早知道

王小川：AI医疗，代表了 AGI 之后更大的世界

看见创新力量！极客公园 2024 年度「InnoForce 50」发布

OpenAI 喊话马斯克：告我实现不了 AGI；《黑神话：悟空》获TGA 年度动作游戏；50% 年轻人始终保持在线| 极客早知道

创新大会 2025 超全攻略：签到、避坑、涨知识一步到位！

为什么说 AI 落地营销，才是真正的科技平权？

Sora vs 海螺 AI：国产模型掀翻「视频王者」？

Google 发布了「虚拟现实」版 Android，想让你把熟悉的应用「戴在头上」

iPhone17 相机大改，变横向一条；百度吉利转账为极越员工交社保；谷歌推出全新 Android XR 系统 | 极客早知道

创新大会 2025 超全攻略：签到、避坑、涨知识一步到位！

苹果发 iOS18.2，Siri 合体 ChatGPT；传剪映收入近百亿；马斯克成首个 4000 亿美元身家富豪 | 极客早知道

面壁智能获新一轮数亿元融资，继续聚焦端侧 AI

Google 深夜狙击 OpenAI：新 Agent 功能可以自己打开浏览器查资料了

为什么说，巨头 Adobe 可能输给这家 SaaS 创业公司？

对话超参数：Agent 诞生于游戏，最终会走进生活

OpenAI 发「代码神器」；苹果 MacBook Pro 或变「打孔屏」；保时捷中国车主平均年收 300 万元 | 极客早知道

从「水云世界观」到「万物有爱」，古偶新叙事开启

震惊，这个行业也分 I 人 E 人？

人形机器人，能横扫工业场景吗？

OpenAI 正式发布 Sora，一文看懂它的文生视频功能到底强在哪？

OpenAI 的 Sora 上线，官网挤爆；雷军：新车 YU7 提前上线，解除伪装；苹果：对 AGI 不感兴趣｜极客早知道

谷歌，暗搓搓发了一个「游戏版 sora」

主打一个回忆杀！老友们，快回极客公园 IF 2025 看看！

第一批 AI 员工，即将入职电商公司

马云现身蚂蚁集团，寄语未来 20 年；小米考虑支持苹果手表、耳机；特斯拉低价小车明年亮相 | 极客早知道

杨植麟和朱啸虎的争议背后，什么才是问题的关键？

传小米汽车将推15万增程SUV；X 推「无监管」文生图，能生成各种明星；AI 团队悬赏，骗 AI 说我爱你即拿钱 | 极客早知道

杨植麟发信回应朱啸虎：分歧会被解决；微信查删单向好友功能上线；OpenAI 发布微调强化工具 | 极客早知道

OpenAI 发 o1 完成体；库克：从没考虑 Apple AI 收费；史玉柱推「脑白金咖啡」，针对互联网人 | 极客早知道

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉