AI生产实践 | 从梦境到游戏：Oasis的探索与未来潜力

文摘 2024-11-01 18:07 广东

一、前言

在AI的革新浪潮中，谷歌率先于今年8月推出了GameNGen，这一开创性的AI游戏引擎通过单个TPU实现了每秒20帧的实时游戏生成，完成了实时的Doom关卡生成。不过，GameNGen目前仍处于论文公示阶段，尚未对玩家开放试玩。今天凌晨，Etched公布与DecartAI的合作并推出了Oasis，一个以《MineCraft》为模仿实例的实时交互式世界模型，目前对于所有用户都开放了Demo体验。

Demo体验链接：https://oasis.decart.ai/

Oasis是第一个生成开放世界游戏的可玩 AI 模型。与许多从文本生成视频的 AI 视频模型不同，Oasis 通过键盘和鼠标输入逐帧生成视频。能够以每秒20帧的速度，实时生成交互式视频内容，而且没有任何延迟。在这里，玩家可以自由移动、探索和创造，打破或建造方块，进入一个由AI生成的无限可能的世界。

那么，Oasis的底层技术原理是什么？它是如何实现实时生成游戏交互内容的？体验之后的实际效果又如何？对此，我们进行了初步的梳理。

二、技术原理

Oasis的实现依赖于两项重要进展：一是模型架构优化，模型需要能够捕捉整个世界并对其进行模拟；二是模型性能优化，用户能够以极低的延迟与模型进行实时交互。

对于前者，Oasis模型采用了扩散训练结合Transformer的架构，以便训练一个能根据用户当下的动作逐帧生成视频的自回归模型。

对于后者，Oasis使用Decart公司专有的推理框架，该框架能够为Transformer工作负载提供英伟达 H100 GPU 的最高利用率，Oasis也面向Etched即将推出的Sohu芯片做了优化与适配，后续也将应用Sohu芯片以进一步提升性能。

模型架构

Oasis模型由两个部分组成，一个是基于ViT的spatial autoencoder，另一部分是基于DiT的Latent Diffusion Backbone。模型使用Diffusion Forcing进行训练，使用独立的每个token的噪声水平进行降噪，通过在数百万小时的 Minecraft 游戏和用户在游戏中采取的相应操作的记录来作为模型训练的数据。

Oasis在扩散训练的噪声预测过程中，在Transformer的空间注意力层之间加入了额外的时间注意力层（temporal attention layers），以便从前序帧中获取上下文信息。时间注意力层利用注意力机制对时间步进行关注和提取，以辅助模型对序列中动态变化的建模。

扩散是在由ViT-VAE生成的潜在维度中进行的，以压缩图像尺寸并使扩散能够聚焦于更高级别的特征。

与Sora等双向模型不同，Oasis 根据游戏输入来设定每帧的条件，并以自回归的方式生成帧，这使得用户能够实时与游戏世界进行交互，而不仅仅是追溯性地渲染视频。

在自回归模型中，小的误差会经过复合而放大，产生滚雪球的效应，因此Oasis模型的重要难点是保持良好的时间稳定性，即需要确保模型输出在较长的时间范围内都有意义。

Oasis通过部署动态噪声（Dynamic Noising）来解决这个问题。动态噪声会按计划调整推理时间噪声（Inference-time Noise），在第一个扩散前向通道中注入噪声以减少错误累积，并在后面的通道中逐渐消除噪声，以便模型可以在前一帧中查找并保留高频细节，从而提高一致性。由于模型在训练过程中看到了噪声，因此学会了在推理中成功处理噪声样本。

模型性能

Oasis 以每秒 20 帧的速度生成实时输出。而目前Sora、Mochi-1 和Runway等基于类似 DiT 架构的最先进的视觉模型，即使在多个 GPU 上，生成仅仅一秒钟的视频也可能需要 10 到 20 秒。因此，Oasis相较于这些模型，在速度上要快100倍以上。

Oasis能有如此高的生成速度，Decart提供的基础设施起到了很大的作用。

Oasis团队发现，目前LLM领域大部分开源内核和技术与Oasis的目标模型架构相关性较低，导致模型对底层 GPU 架构的利用率低下以及导致冗余操作。因此，Oasis转而依靠Decart在过去一年中开发的专有优化基础设施，并将其用于加速底层操作。

Oasis在影响图像生成延迟关键路径的内核中为优化 GPU 利用率做了大量的优化工作，同时还使用Decart开发的优化通信原语来最大程度地利用 NVLink、PCIe Gen 5 和NUMA等GPU之外的服务器架构，以便进一步降低延迟。

这些策略使Oasis能够从仅在单个 GPU 上进行推理扩展到实时多 GPU 推理，同时将引入超出 GPU 内部数据传输的通信时可能出现的潜在瓶颈降至最低。最终，Oasis实现了每帧 47 毫秒的推理时间，训练时每次迭代仅需 150 毫秒。

然而，要使模型的速度再提高一个数量级，并使其在大规模运行时具有成本效益，就需要新的硬件。因此，Oasis针对Etched即将推出的Transformer ASIC Sohu进行了优化。如今在英伟达 H100 上，Oasis模型可以以每秒 20 帧的速度在 360p 分辨率下运行，而Sohu 芯片能够让相同的模型在高达 4K 的分辨率下运行。此外，Oasis的端到端Transformer架构使其在 Sohu 上非常高效，在与 H100 GPU 相同的价格和功耗下，在Sohu上运行的 Oasis 可以为多达10倍的用户提供服务。

类似Sohu这样的ASIC将显著降低制作实时交互式视频所需的成本和能源，使游戏运行时间更长、幻觉更少、分辨率更高。

三、实际体验以及测评

基本信息

官方目前放出来的有5个地图：村庄前哨、茂密森林、崎岖海岸线、广阔沙漠和山地草甸，基本囊括了大部分地形，可供玩家体验的选择较丰富，实测下来每个地形也各具特色，具备一定可玩性。由于试玩人数较多而算力优先，体验时需要排队，页面会显示排队人数及等待时间。

进入页面后可以发现，游戏的初始地图是基于《Minecraft》的游戏截图进行生成，启动后模型会根据这张截图为初始帧生成游戏页面。

游戏的基础操作在使用界面下方有所展示，基本和MC一致。出于算力考虑，单次体验时间为5min，并且游戏内的生成分辨率并不高，玩家体验后可以下载游戏录像作为视频。

游戏系统

既然是完整的可交互模型，那么一些基础的操作自然不在话下，Oasis支持玩家进行奔跑、下蹲、跳跃，这些操作足以满足玩家在游戏内进行基础的探索。

更关键的是模型也可以理解游戏的机制以及运行逻辑，例如，建筑、环境光照、环境交互甚至是道具库存。系统可以支持玩家完成建筑、使用道具、改变环境等游戏操作，并且合乎游戏逻辑。可以看到在官方给出的示例中，玩家可以进行物体放置、使用道具进行回血、刨地以及照明等动能。

在实际体验中，玩家还可以体验到打开箱子/背包、环境变化（下雨/黑夜）、等更为复杂的变化与交互。

在体验过程中我们也也发现了一些比较有趣的缺陷，比如由于内存有限，在长视野的环境展示上几乎处于完全随机的状态，玩家上一秒还在沙漠中，下一秒也许就会穿越进无尽的丛林中，上一秒也许还在水中，下一秒也许就在天空中翱翔了。

还存在的问题有，很多时候物品以及物品的种类和数量会被改变，比如上一秒还是面包的道具下一秒可能就变成了饼干，上一秒快捷栏位还是9个木块可能会变成4个。

同时，模型还存在着无法精准选取对象以及难以进行域泛化等问题。

不过项目方表示，上述大部分问题都可以通过扩大模型规模和数据集来解决，因此团队目前正在沿着这个方向开展研究，同时结合其他优化技术，以便能够高效地进行这种大规模的训练。

四、总结

说说整体体验下来的感受吧，虽然项目基础的体验已经能够基本满足玩家交互了。但比起游戏，目前项目更像是一款“梦境模拟器”，玩家在其内的任何操作都不具有实质效应，只能让玩家从一个场景渐变转换到另一个场景。从MC这款游戏本身来说，玩家在其中的探索固然是游戏体验很重要的组成部分，但是探索后的收益结合在一起才构筑成了整个游戏的玩法循环。也许正如Etched对模型的定位在于大型低延迟的交互式视频模型，目前Oasis的核心特点在于低延迟的逐帧生成视频，但因游戏系统基本复刻MC且由于模型记忆能力导致的场景变化，使得Oasis的游戏性并不是很强、缺少一个游戏该具备的可持续游玩的能力和乐趣。

不过，Oasis也从另一个角度展现了其技术的先进性——即使没有传统的渲染管道，它依然能够通过逐帧生成的方式完整复现游戏系统，并提供了近乎实时的交互体验。这种“即生成即体验”的方式，减少了渲染流程中冗余的计算步骤，体现了生成式AI技术在实时性和灵活性上的潜力。因此，Oasis可以视作对传统游戏技术的革新探索，将复杂的场景生成与实时交互体验结合到了一起。总之，Oasis展示了未来游戏生成技术的发展方向，即通过生成式模型实现低延迟、高沉浸感的游戏体验，这为未来的游戏设计和开发带来了前所未有的可能性。

关于LitGate

大家好，我是LitGate，一个专注于AI创作的游戏社区。我们的新版官网已经上线✨你可以在里面找到各种AI创作的实操案例，以及已经沉淀的AI游戏创意demo，相信一定能让你大开眼界！

我们还有一个讨论群📣，如果你对AI创作感兴趣，或者有什么问题想要咨询，欢迎加入我们的讨论群，和大家一起交流学习！（PS：目前群内人数较多，为了有一个优质的讨论环境，请各位添加社区管理员企业微信账号邀请入群

更多精彩活动和功能筹备上线中，敬请期待~

关注我们，一起探索AI创作的无限可能吧！

新版官网地址：www.litgate.ai

LitGate

AI赋能游戏开发，一站式创作者社区 http://www.litgate.ai

最新文章

绫波丽的早餐约会：可灵1.6打破次元壁

Sam耍猴落幕，Sora圣诞首测：从期待到现实的全景剖析

万字字节AI全景：从豆包到全系产品布局的秘密

工具与测评 | Sora首日关停注册，我只能在网上‘拼图’体验

工具与测评 | Vidu 多主体一致性：一场视频生成的冒险

工具与测评 | 即梦AI发布全新视频生成模型：精准细节与多镜头切换引爆创作体验

工具与测评 | 用Cursor构建基于AI的搜索引擎实战教学

学术交流 | 大模型检索增强生成综述

神秘 AI 新贵？成立两年融资过亿美金，志在成为NPC的 “大脑” 缔造者

AI生产实践 | 从梦境到游戏：Oasis的探索与未来潜力

工具与测评 | 从视频风格化到特效创意，AI视频生成工具新功能大盘点

工具与测评 | 2024年50个热门LoRA模型推荐-Stable Diffusion

MiniMax、商汤科技、面壁智能、西湖心辰、声网都来了！RTE 大会「实时互动和大模型」专场开启报名

跑团新作亮相Steam新品节，AI跑团体验迎来新突破

小心！和你热聊的可能不是美女，也不是抠脚大汉，而是AI！(1.5万字解读Seed-TTS技术)

Ola Friend：字节试水 AI 智能体耳机，豆包能否打破硬件魔咒？

时事杂谈 | 大模型比作“人类”，如何成为利器

工具与测评 | AI音乐未来可期？双序列语言模型「SongCreator」

游戏实操课 | AI我用AI做游戏：打造2D角色生成工作流

学术交流 | ReferenceNet 简介及相关算法整理

视频主体一致性大突破：Vidu「主体参照」功能王炸更新

Flux.1 with ComfyUI：新的图像生成冲击波？（内附工作流）

工具与测评 | GPT-4o 更快了，但也更脏了

AI陪伴，不止聊天：《逆水寒》自捏友人新玩法测评

AI生产实践 | 基于大语言模型的海外KOL视频总结与问答

AI界疯狂推出新产品：大模型应用知识梳理

工具与测评 | 字节AI产品大盘点

工具与测评 | 万字长文研究TTS前沿动态

解密AI陪伴类产品趋势：技术进步与市场潜力

学术交流 | 人人都能成为Prompt工程师 - 方法篇

工具与测评 | 驱动万物：LivePortrait

AI战友来袭：《永劫无间》中的“最强辅助“与未来游戏革命

学术交流 | 手把手教你训练属于年轻人的第一个模型

玩转大模型的第一步——提示词(Prompt)工程【抛砖篇】

线下纪实 | AI Summer School 游戏作品导览

Steam上的智能革新，AI如何玩转游戏新纪元？

工具与测评 | 可灵 vs LUMA ：谁是meme之王？

工具与测评｜换脸哪家强？12款AI照片合成软件深度测评

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉