「黑神话」级3A大作AI实时游戏生成！港科大、中科大等祭出最强扩散Transformer，火爆国外

科技 2024-11-07 10:10 北京

文章转载于新智元

爆火国产3A大作《黑神话·悟空》，如今也能由AI生成了？

一夜之间，国内首个实时视频游戏生成AI，火遍全网。

致敬「西游记」

几天前，专做推理芯片初创Etched曾推出世界首个实时生成AI游戏Oasis，每一帧都是扩散Transformer预测。

无需游戏引擎，就能实现每秒20帧实时渲染，几乎没有延迟。

没想到，GameGen-X一出，再次颠覆了我们对AI游戏的认知。

来自港科大、中科大、港中文等机构联手，提出开放世界视频游戏生成AI，可以实时交互创建游戏。

这是首个专为生成和交互控制开放世界游戏视频而设计的扩散Transformer模型。

论文地址：https://gamegen-x.github.io/

GameGen-X能够模拟游戏引擎特性，实现高质量开放世界游戏生成。比如，创建新角色、动态环境、复杂动作和各种事件等等。

它还能进行交互式控制，根据当前片段预测或更改未来内容，实现游戏模拟。

有网友表示，一切都结束了，中国再次在AI游戏领域拿下第一。

还有人称，这比Oasis看起来更好。

AI实时游戏生成，惊呆歪果仁

老黄曾说过，未来每个像素很快都将会是生成的，并非是渲染的。

不论是从谷歌GameNGen，到Oasis，再到GameGen-X，每一步的进化都在逼近这个预言。

高质量游戏生成

在游戏生成上，GameGen-X不仅能够创建角色，还能生成动作、动态环境、各种事件、开放域。

角色生成

《巫师》的Geralt of Rivia

《荒野大镖客：救赎2》的主角Arthur Morgan

《刺客信条》的Eivor

还有这种偏卡通风的人物——异星探险家

射击游戏中的机械战警RoboCop，机器人角色生成很赛博。

环境生成

不论是春夏秋冬四季，还是山川湖海，各种名胜古迹，都能实时生成。

动作生成

骑摩托车第一人称视角，以及第三人称视角。

驾马车

飞行

事件生成

下雨、下雪、打雷、日起日落、火灾、沙尘暴、海啸.....

开放域生成

在中国城漫游的赛博和尚

血月下的幽灵

穿着斗篷的旅行者走在火星上

多模态交互控制

在多模态交互中，GameGen-X能够支持结构化指令提示、外设操作信号、视频提示的生成。

结构化指令提示

同在沙漠中行走的旅人，你可以通过提示要求，让背景实时变幻。

天空之火

黑暗与星星

日落时分

雾出现

操作信号

游戏中角色向左向右移动，一句话的事。

视频提示

提供一个Canny提示的视频

接下来，就会得到

又或者提供一个运动失量的视频

就会生成一个扬沙的视频

GameGen-X技术

GameGen-X擅长生成多样化和创造性的游戏内容，包括动态环境、多变的角色、引人入胜的事件和复杂的动作，树立了该领域的新标杆。

更为震撼的是，它还提供了交互式可控性，并首次将角色交互和场景内容控制统一起来。

AI根据当前片段预测和更改未来内容，从而实现游戏模拟，赋予了游戏更多的真实性。

它首先生成一个视频片段，以设置环境和角色。

随后，利用当前视频片段和多模态用户控制信号，生成动态响应用户输入的视频片段。

这一过程可被视为模拟现实一般的体验，因为这一过程中，环境和角色都是动态发展的！

GameGen-X的训练过程分为两个阶段，包括基础模型预训练和指令微调。

首先，通过在OGameData-GEN数据集上的文本到视频的生成和视频延续对模型进行预训练，使其具备生成长序列、高质量开放世界游戏视频的能力。

此外，为了实现交互可控性，研究团队在设计InstructNet时纳入了与游戏相关的多模态信号控制专家系统。

这使得模型能够根据用户输入微调潜表征，首次在视频生成中将角色交互和场景内容的调控统一起来。

在指令微调过程中，为了保证不损失生成视频内容的多样性和质量的情况下，实现多模态交互式控制，模型引入了 InstructNet。具体来说，InstructNet 的主要目的是根据指令修改未来的预测。

当没有给出用户输入信号时，视频自然延伸。因此会将预先训练好的基础模型冻结，只利用OGameData-INS数据集更新InstructNet，从而将用户输入（如游戏环境动态的结构化文本指令和角色动作与操作的键盘控制）映射到生成的游戏内容上。

总之，GameGen-X代表了使用生成模型进行开放世界视频游戏设计的一次重大飞跃。它展示了生成模型作为传统渲染技术辅助工具的潜力，有效地将创意生成与交互能力融合在一起。

首个开放世界游戏视频数据集OGameData

为了促进交互式控制游戏生成领域的发展，研究团队构建了开放世界视频游戏数据集（Open-World Video Game Dataset，OGameData），这是首个专为游戏视频生成和交互式控制精心设计的大规模数据集。

它提供游戏特定知识，并包含游戏名称、玩家视角和角色细节等元素。该数据集从150多款下一代游戏中收集而来，其中包括评分、筛选、排序和结构化注释。

OGameData的构建与处理流程

如表1所示，OGameData包含100万个高分辨率视频片段，来源从几分钟到几小时不等。

与其他特定领域的数据集相比，OGameData在文本-视频对的规模、多样性和丰富性方面脱颖而出。

即使与最新的开放域生成数据集Miradata相比，仍然具有提供更多细粒度注释的优势，其在单位时间内提供的注释甚至是Miradata数据集的2倍多！

该数据集具有几个主要特点：OGameData 具有高度精细的文本，并拥有大量可训练的视频-文本对，从而提高了模型训练中文本-视频的一致性。

此外，它还包括两个子集：生成数据集（OGameData-GEN）和指令数据集（OGameData-INS）。

其中OGameData-GEN专门用于训练生成基础模型，而OGameData-INS则针对指令微调和交互式控制任务进行了优化。

OGameData-GEN需要制作详细的注释来描述游戏元数据、场景背景和关键角色，以确保生成基础模型训练所需的全面文本描述。

相比之下，OGameData-INS使用基于指令的简明注释，突出显示初始帧和后续帧之间的差异，重点是描述游戏场景的变化，以便进行交互式生成。

这种结构化注释方法可实现精确的生成和细粒度的控制，允许模型在保留场景的同时修改特定元素。该数据集的高质量得益于10多位人类专家的精心设计。

每个视频片段都配有使用GPT-4o生成的注释，以保持清晰度和连贯性，并确保数据集不受用户界面和视觉伪影的影响。

模型架构

在将视频片段进行编码时，为解决时空信息冗余问题，GameGen-X引入了三维时空变分自编码器（3D-VAE），将视频片段压缩为潜表征。

这种压缩技术可以对具有较长帧序列的高分辨率视频进行高效训练。

具体来说，3D-VAE首先进行空间下采样以获得帧级潜特征。此外，它还进行了时间组合，以捕捉时间依赖性并有效减少帧上的冗余。

通过3D-VAE对视频片段进行处理，可以得到一个具有空间-时间信息并降低了维度的潜张量。这样的张量可以支持长视频和高分辨率模型训练，满足游戏内容生成的要求。

GameGen-X还引入了掩码时空扩散Transformer（Masked Spatial-Temporal Diffusion Transformer，MSDiT）。

具体来说，MSDiT结合了空间注意力、时间注意力和交叉注意力机制，可有效生成由文本提示引导的游戏视频。

对于每个时间步长t，模型会处理捕捉帧细节的潜特征z。

空间注意力通过对空间维度（H′、W′）的自注意力来增强帧内关系。时间注意通过在时间维度F′上进行操作，捕捉帧间的依赖关系，从而确保帧间的一致性。

交叉注意力整合了通过文本编码器T5获得的外部文本特征的指导，使视频生成与文本提示的语义信息保持一致。

而掩码机制则可以在扩散处理过程中，将某些帧从噪声添加和去噪中屏蔽掉。

如图4所示，整体框架采用了将成对的空间和时间区块堆叠在一起的设计，其中每个区块都配备了交叉注意和空间或时间注意力机制。

这样的设计使模型能够同时捕捉空间细节、时间序列动态和文本引导，从而使GameGen-X能够生成高保真、时间上一致的视频，并与所提供的文本提示紧密结合。

负责实现交互式控制的指令微调的部分由N个InstructNet模块组成，每个模块利用专门的操作集成式专家层和指令集成式专家层来整合不同的条件。

输出特征被注入到基础模型中以融合原始潜在特征，根据用户输入调制潜在表征，并有效地将输出与用户意图对齐，这使用户能够影响角色动作和场景动态。

InstructNet主要通过视频连续训练来模拟游戏中的控制和反馈机制。此外，还在初始帧中巧妙地添加了高斯噪声，以减少误差累积。

实验结果

为了全面评估GameGen-X在生成高质量、逼真且可交互控制的视频游戏内容方面的能力，研究团队采用了一套十分细致的度量标准。

包括Fréchet Inception Distance（FID）、Fréchet Video Distance（FVD）、文本视频对齐（TVA）、用户偏好度（UP）、运动平滑度（MS）、动态度（DD）、主体一致性（SC）和成像质量（IQ）。

表2对比了GameGen-X和4个知名开源模型，即Mira、OpenSora Plan1.2、OpenSora1.2和CogVideoX-5B。

值得注意的是，Mira和OpenSora1.2都明确提到在游戏数据上进行训练，而其他两个模型虽然不是专门为此目的设计的，但仍然可以在类似环境中满足某些生成需求。

结果显示，GameGen-X在FID、FVD、TVA、MS和SC等指标上表现良好。这表明GameGen-X在生成高质量和连贯的视频游戏内容方面具有优势，同时保持了竞争性的视觉和技术质量。

此外，团队还使用了有条件的视频片段和密集提示词来评估模型的生成响应。

其中，新引入的指标——成功率（SR），负责衡量模型对控制信号的准确响应频率。这是由人类专家和PLLaVA共同评估的。

SR指标分为两部分：角色动作的成功率（SR-C），评估模型对角色动作的响应能力，以及环境事件的成功率（SR-E），评估模型对天气、光照和物体变化的处理能力。

如表3所示，GameGen-X在控制能力方面优于其他模型，突显了其在生成上下文适宜和互动性游戏内容方面的有效性。

在生成性能方面，有着8fps视频的CogVideo和场景频繁变化的OpenSora1.2，获得了更高的DD。

图5展示了GameGen-X在生成各种角色、环境、动作和事件的多样化生成能力。

这些例子显示模型可以创建刺客和法师等角色，模拟樱花森林和热带雨林等环境，执行飞行和驾驶等复杂动作，并重现暴风雪和暴雨等环境事件。

图6展示了GameGen-X根据文本指令和键盘输入控制环境事件和角色动作的能力。

在提供的示例中，模型有效地操控了场景的各个方面，如光照条件和大气效果，突显了其模拟不同时间和天气条件的能力。此外，角色的动作，主要涉及环境中的导航，通过输入的键盘信号得到精确控制。

通过调整光照和大气等环境因素，模型提供了一个逼真而沉浸的环境。同时，管理角色动作的能力确保生成的内容能够直观地响应用户的互动。

通过这些能力，GameGen-X展示出了在提升开放世界电子游戏模拟的真实感和参与度方面的潜力。

如图7所示，GameGen-X在角色细节、视觉环境和镜头逻辑方面更好地满足了游戏内容的要求，这得益于严格的数据集收集和OGameData的构建。

此外，GameGen-X还与包括Kling、Pika、Runway、Luma和Tongyi在内的其他商业产品进行了比较，如图8所示。

在左侧部分，即最初生成的视频片段中，只有Pika、Kling1.5和GameGen-X正确地遵循了文本描述。其他模型要么未能显示角色，要么将其描绘为进入洞穴而非退出。

在右侧部分，GameGen-X和Kling1.5都成功引导角色走出洞穴。GameGen-X实现了高质量的控制响应，同时保持了一致的镜头逻辑，并遵循了类似游戏的体验。这得益于整体训练框架和InstructNet的设计。

结论

OGameData的开发为模型训练提供了重要的基础，使其能够捕捉开放世界游戏的多样性和复杂性。而通过两阶段的训练过程，GameGen-X实现了内容生成和交互控制之间的相互增强，从而实现了丰富且身临其境般的模拟体验。

除了技术贡献之外，更重要的是：GameGen-X 还为游戏内容设计的未来开辟了新的视野。它表明游戏设计与开发有可能转向更加自动化、数据驱动的流程，从而显著减少游戏内容早期创建所需的手动工作。

通过利用模型来创建身临其境的世界和交互式游戏玩法，我们可能对于玩家自己通过创造性的探索来构建一个游戏的未来越来越近了。

尽管挑战依然存在，GameGen-X代表了游戏设计中向新颖范式迈出的重大飞跃。它为未来的研究和开发奠定了基础，也为生成模型成为创建下一代交互式数字世界的不可或缺的工具铺平了道路。

团队介绍

Haoxuan Che

Haoxuan Che正在香港科技大学（HKUST）攻读计算机科学与工程博士学位。他的主要研究兴趣在于计算机视觉、医学图像分析和可信赖人工智能。

在加入香港科技大学之前，我曾毕业于西北工业大学（NWPU），获得了软件与微电子学院的软件工程学士学位。

Xuanhua He（何炫华）

何炫华目前是中国科学技术大学的硕士生，由Jie Zhang和Chengjun Xie教授指导。他于2022年在厦门大学获得了软件工程学士学位，师从Yongxuan Lai教授。

他的研究兴趣集中在计算机视觉领域，特别是图像超分辨率、图像增强和视频生成。此前，他还曾曾探索过遥感图像处理和联邦学习。

参考资料：

https://gamegen-x.github.io/

https://x.com/kimmonismus/status/1853861306601967864

点个“在看”，再走吧

http://mp.weixin.qq.com/s?__biz=MzkyNjU2ODM2NQ==&mid=2247601254&idx=3&sn=aced932df6116a94173616cf56536ba7

硅星人Pro

硅（Si）是创造未来的基础，欢迎来到这个星球。

最新文章

人本智能时代：谁在为AI“立规矩”？

硅谷活动｜与Ray-Ban Meta产品经理、K Scale联创深入交流，讨论AI与硬件的一切

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

AI编程在硅谷杀疯了，但国内还长得出自己的Cursor么

奔驰的智驾，怎么突然“端味儿”十足？

Nature：谷歌学术正在被AI工具颠覆

喊着干掉网站和app的AI公司们，却在豪掷数亿疯抢网址域名

大众汽车：更聪明的燃油车不死

对话Kick：OpenAI领投900万美元，要做AI时代的Salesforce？

2024年，谁在制造新爆款？

金丝银锦，华为Mate 70系列何以编织出旖旎河山？

马云当年怎么期待吴泳铭，吴泳铭今天就如何期待蒋凡

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

一家中国公司，凭什么敢说自己是真正的“物理世界模拟器”？

对话清华章明星、月之暗面许欣然：Mooncake架构背后，如何用“炒菜”的思路实现推理的极致优化

人生搜索引擎免费用，开源版哈利波特“冥想盆”登GitHub热榜，支持中文

京东的逆势增长，其实没什么秘密

硅谷活动｜与Ray-Ban Meta产品经理、K Scale联创深入交流，讨论AI与硬件的一切

Mistral放大招！124B多模态巨无霸登场，免费版ChatGPT震撼突袭

Sora到底发布不发布，这事可能并不重要了

硅谷活动预告：来硅星人线下Meet up！探讨AI机器人与可穿戴设备未来

Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

所有AI应用的尽头，是MBTI？

看着这个 AI 奶奶把骗子耍得团团转，可把我高兴坏了

Apple Silicon 才是苹果在AI上的“一盘大棋”

对话Hugging Face王铁震和零一林旅强：中国开源如何更好地被“看见”

杨植麟：最关心Kimi用户留存，无它

AI的风早已吹到小红书

大模型公司们创业未半，技术主心骨们却先弃船回大厂了？

B站盈利了，但市场最愿看到新方式

Scaling Law遭遇瓶颈，OpenAI被曝押注智能体“Operator”

钉钉就是想做AI时代的那个“超级有用”

AI Agent：从学术概念到增长驱动工具

OpenAI总裁出走3月终于归来！Greg结束「最长假期」专注重大技术挑战，每周狂肝100小时代码

对话李彦宏：大模型进化变慢是好事，百度从来没对标过OpenAI

稳坐新势力前三后，朱江明却说现在做增程已经没有太大必要了

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

自动漂移、用LLM和扩散模型“折腾”机器人…顶会CoRL上最佳论文都在研究啥

Vast 创始人&CEO宋亚宸：让每个人都能生成独一无二的3D模型

天工开万物：大模型时代的具身智能新纪元

品牌解不了的流量困局，中小商家怎么解？

荣耀Magic7 Pro上手AI：它能完成自动驾驶，你也可随时接管

从C.ai出走的用户，在Kindroid AI开启“第二春”

李开复为什么这么忙

中国电动车刷赛道往事

曾经不可一世的星巴克，已经成了国产品牌们的垫脚石

AI产品榜·网站榜 10 月｜全球前 20 都在狂飙增长，增长破万“卷”！

当微软无法靠OpenAI猛拉云业务，Google Cloud“趁虚而入”了

百度智能云黄锋：从企业视角如何运用大模型应用开发平台

OpenAI o1太贵？那就自己做一个！纯提示方法让普通LLM进化出复杂推理能力

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉