一、前言
在AI的革新浪潮中,谷歌率先于今年8月推出了GameNGen,这一开创性的AI游戏引擎通过单个TPU实现了每秒20帧的实时游戏生成,完成了实时的Doom关卡生成。不过,GameNGen目前仍处于论文公示阶段,尚未对玩家开放试玩。今天凌晨,Etched公布与DecartAI的合作并推出了Oasis,一个以《MineCraft》为模仿实例的实时交互式世界模型,目前对于所有用户都开放了Demo体验。
Demo体验链接:https://oasis.decart.ai/
Oasis是第一个生成开放世界游戏的可玩 AI 模型。与许多从文本生成视频的 AI 视频模型不同,Oasis 通过键盘和鼠标输入逐帧生成视频。能够以每秒20帧的速度,实时生成交互式视频内容,而且没有任何延迟。在这里,玩家可以自由移动、探索和创造,打破或建造方块,进入一个由AI生成的无限可能的世界。
那么,Oasis的底层技术原理是什么?它是如何实现实时生成游戏交互内容的?体验之后的实际效果又如何?对此,我们进行了初步的梳理。
二、技术原理
Oasis的实现依赖于两项重要进展:一是模型架构优化,模型需要能够捕捉整个世界并对其进行模拟;二是模型性能优化,用户能够以极低的延迟与模型进行实时交互。
对于前者,Oasis模型采用了扩散训练结合Transformer的架构,以便训练一个能根据用户当下的动作逐帧生成视频的自回归模型。
对于后者,Oasis使用Decart公司专有的推理框架,该框架能够为Transformer工作负载提供英伟达 H100 GPU 的最高利用率,Oasis也面向Etched即将推出的Sohu芯片做了优化与适配,后续也将应用Sohu芯片以进一步提升性能。
模型架构
Oasis模型由两个部分组成,一个是基于ViT的spatial autoencoder,另一部分是基于DiT的Latent Diffusion Backbone。模型使用Diffusion Forcing进行训练,使用独立的每个token的噪声水平进行降噪,通过在数百万小时的 Minecraft 游戏和用户在游戏中采取的相应操作的记录来作为模型训练的数据。
Oasis在扩散训练的噪声预测过程中,在Transformer的空间注意力层之间加入了额外的时间注意力层(temporal attention layers),以便从前序帧中获取上下文信息。时间注意力层利用注意力机制对时间步进行关注和提取,以辅助模型对序列中动态变化的建模。
扩散是在由ViT-VAE生成的潜在维度中进行的,以压缩图像尺寸并使扩散能够聚焦于更高级别的特征。
与Sora等双向模型不同,Oasis 根据游戏输入来设定每帧的条件,并以自回归的方式生成帧,这使得用户能够实时与游戏世界进行交互,而不仅仅是追溯性地渲染视频。
在自回归模型中,小的误差会经过复合而放大,产生滚雪球的效应,因此Oasis模型的重要难点是保持良好的时间稳定性,即需要确保模型输出在较长的时间范围内都有意义。
Oasis通过部署动态噪声(Dynamic Noising)来解决这个问题。动态噪声会按计划调整推理时间噪声(Inference-time Noise),在第一个扩散前向通道中注入噪声以减少错误累积,并在后面的通道中逐渐消除噪声,以便模型可以在前一帧中查找并保留高频细节,从而提高一致性。由于模型在训练过程中看到了噪声,因此学会了在推理中成功处理噪声样本。
模型性能
Oasis 以每秒 20 帧的速度生成实时输出。而目前Sora、Mochi-1 和Runway等基于类似 DiT 架构的最先进的视觉模型,即使在多个 GPU 上,生成仅仅一秒钟的视频也可能需要 10 到 20 秒。因此,Oasis相较于这些模型,在速度上要快100倍以上。
Oasis能有如此高的生成速度,Decart提供的基础设施起到了很大的作用。
Oasis团队发现,目前LLM领域大部分开源内核和技术与Oasis的目标模型架构相关性较低,导致模型对底层 GPU 架构的利用率低下以及导致冗余操作。因此,Oasis转而依靠Decart在过去一年中开发的专有优化基础设施,并将其用于加速底层操作。
Oasis在影响图像生成延迟关键路径的内核中为优化 GPU 利用率做了大量的优化工作,同时还使用Decart开发的优化通信原语来最大程度地利用 NVLink、PCIe Gen 5 和NUMA等GPU之外的服务器架构,以便进一步降低延迟。
这些策略使Oasis能够从仅在单个 GPU 上进行推理扩展到实时多 GPU 推理,同时将引入超出 GPU 内部数据传输的通信时可能出现的潜在瓶颈降至最低。最终,Oasis实现了每帧 47 毫秒的推理时间,训练时每次迭代仅需 150 毫秒。
然而,要使模型的速度再提高一个数量级,并使其在大规模运行时具有成本效益,就需要新的硬件。因此,Oasis针对Etched即将推出的Transformer ASIC Sohu进行了优化。如今在英伟达 H100 上,Oasis模型可以以每秒 20 帧的速度在 360p 分辨率下运行,而Sohu 芯片能够让相同的模型在高达 4K 的分辨率下运行。此外,Oasis的端到端Transformer架构使其在 Sohu 上非常高效,在与 H100 GPU 相同的价格和功耗下,在Sohu上运行的 Oasis 可以为多达10倍的用户提供服务。
类似Sohu这样的ASIC将显著降低制作实时交互式视频所需的成本和能源,使游戏运行时间更长、幻觉更少、分辨率更高。
三、实际体验以及测评
基本信息
官方目前放出来的有5个地图:村庄前哨、茂密森林、崎岖海岸线、广阔沙漠和山地草甸,基本囊括了大部分地形,可供玩家体验的选择较丰富,实测下来每个地形也各具特色,具备一定可玩性。由于试玩人数较多而算力优先,体验时需要排队,页面会显示排队人数及等待时间。
进入页面后可以发现,游戏的初始地图是基于《Minecraft》的游戏截图进行生成,启动后模型会根据这张截图为初始帧生成游戏页面。
游戏的基础操作在使用界面下方有所展示,基本和MC一致。出于算力考虑,单次体验时间为5min,并且游戏内的生成分辨率并不高,玩家体验后可以下载游戏录像作为视频。
游戏系统
既然是完整的可交互模型,那么一些基础的操作自然不在话下,Oasis支持玩家进行奔跑、下蹲、跳跃,这些操作足以满足玩家在游戏内进行基础的探索。
更关键的是模型也可以理解游戏的机制以及运行逻辑,例如,建筑、环境光照、环境交互甚至是道具库存。系统可以支持玩家完成建筑、使用道具、改变环境等游戏操作,并且合乎游戏逻辑。可以看到在官方给出的示例中,玩家可以进行物体放置、使用道具进行回血、刨地以及照明等动能。
在实际体验中,玩家还可以体验到打开箱子/背包、环境变化(下雨/黑夜)、等更为复杂的变化与交互。
在体验过程中我们也也发现了一些比较有趣的缺陷,比如由于内存有限,在长视野的环境展示上几乎处于完全随机的状态,玩家上一秒还在沙漠中,下一秒也许就会穿越进无尽的丛林中,上一秒也许还在水中,下一秒也许就在天空中翱翔了。
还存在的问题有,很多时候物品以及物品的种类和数量会被改变,比如上一秒还是面包的道具下一秒可能就变成了饼干,上一秒快捷栏位还是9个木块可能会变成4个。
同时,模型还存在着无法精准选取对象以及难以进行域泛化等问题。
不过项目方表示,上述大部分问题都可以通过扩大模型规模和数据集来解决,因此团队目前正在沿着这个方向开展研究,同时结合其他优化技术,以便能够高效地进行这种大规模的训练。
四、总结
说说整体体验下来的感受吧,虽然项目基础的体验已经能够基本满足玩家交互了。但比起游戏,目前项目更像是一款“梦境模拟器”,玩家在其内的任何操作都不具有实质效应,只能让玩家从一个场景渐变转换到另一个场景。从MC这款游戏本身来说,玩家在其中的探索固然是游戏体验很重要的组成部分,但是探索后的收益结合在一起才构筑成了整个游戏的玩法循环。也许正如Etched对模型的定位在于大型低延迟的交互式视频模型,目前Oasis的核心特点在于低延迟的逐帧生成视频,但因游戏系统基本复刻MC且由于模型记忆能力导致的场景变化,使得Oasis的游戏性并不是很强、缺少一个游戏该具备的可持续游玩的能力和乐趣。
不过,Oasis也从另一个角度展现了其技术的先进性——即使没有传统的渲染管道,它依然能够通过逐帧生成的方式完整复现游戏系统,并提供了近乎实时的交互体验。这种“即生成即体验”的方式,减少了渲染流程中冗余的计算步骤,体现了生成式AI技术在实时性和灵活性上的潜力。因此,Oasis可以视作对传统游戏技术的革新探索,将复杂的场景生成与实时交互体验结合到了一起。总之,Oasis展示了未来游戏生成技术的发展方向,即通过生成式模型实现低延迟、高沉浸感的游戏体验,这为未来的游戏设计和开发带来了前所未有的可能性。
关于LitGate
大家好,我是LitGate,一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例,以及已经沉淀的AI游戏创意demo,相信一定能让你大开眼界!
我们还有一个讨论群📣,如果你对AI创作感兴趣,或者有什么问题想要咨询,欢迎加入我们的讨论群,和大家一起交流学习!(PS:目前群内人数较多,为了有一个优质的讨论环境,请各位添加社区管理员企业微信账号邀请入群
更多精彩活动和功能筹备上线中,敬请期待~
关注我们,一起探索AI创作的无限可能吧!
新版官网地址:www.litgate.ai