首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

科技 2024-11-20 17:21 广东

11月2日，两家初创公司Decart和Etched宣布，他们打造了一款世界上首个实时、可玩、可交互的世界模型——Oasis。

Oasis经过了数百万小时游戏视频的训练，仅接收用户的键盘输入即可实时生成开放世界游戏，但其中并不包含任何游戏引擎，只有一个AI基座模型。

游戏允许玩家进行移动、跳跃、拾取物品、打破砖块等操作，生成的视频内容中不仅包含图形学的渲染，也能体现出对物理原则和游戏规则的理解。

在没有任何延迟的情况下，Oasis在H100上运行时能以360p的分辨率实现每秒20帧的渲染，并实时生成视频交互内容。此前，虽然谷歌已经发布了首个AI游戏引擎GameNGen，但并没有在发布论文后开源。

然而，此次两家初创联手研发的Oasis不仅开源了代码，还公开了500M参数版本的模型权重。

https://github.com/etched-ai/open-oasis

https://huggingface.co/Etched/oasis-500m/tree/main

此外，官网上已经放出了游戏demo，感兴趣的玩家从项目官网进入即可在网页端试玩，体会一下复刻Minecraft的画风。

项目网址：https://oasis.decart.ai/

虽然全AI生成是一大亮点，但在动辄4K HDR的今天，360p的分辨率显得相当复古，可能对2024年的人类双眼不太友好。

幸好，如果在Etched打造的Sohu芯片上运行100B+参数的优化模型，就能达到4K级别的实时渲染，并发用户数量也将提升超过10x。

就在模型发布的当天，红杉资本也宣布以2100万美金投资Oasis背后的其中一家初创公司Decart。

虽然Oasis看起来是一个游戏，但事实上，真正的技术重点却是「视频」和「交互」。

OpenAI今年发布的Sora可以说是视频模型的「第一枪」。随着视频模型开始扩展，它们正在学习代表整个物理世界和游戏，从而赋能一个全新的产品类别。

从短视频社交媒体到视频通话，再到流媒体，目前超过70%的互联网流量来自视频；但另一方面，视频的数据密集程度相当高，AI生成视频所需的FLOPs比文本或图像多出10×。

因此，大部分人工智能推理工作负载将来自视频。无论是游戏、教育还是生成式内容，大型、低延迟、交互式的视频模型将成为下一波人工智能产品的核心。

01

Oasis是如何炼成的

之前谷歌推出的GameNGen本质上仍是一个由AI驱动的游戏引擎，但Oasis的底层机制并不是游戏引擎，而是单一的视频生成模型，相当于一个能交互、可玩的Sora。那么，Oasis究竟是如何做到的？

根据博客介绍，技术团队进行了数百次架构和数据实验，以确定用于快速生成自回归交互式视频的最佳架构。

Oasis模型均基于Transformer架构，由基ViT的变分自动编码器（VAE）和基于DiT的潜在扩散主干组成，使用了加速过的轴向、时空和因果注意力机制来克服长序列中的模型发散（divergence）。

Oasis的ViT+DiT架构

你可以简单把它理解为一个分工明确的工厂，各个组件各司其职。

VAE就像是工厂里负责整理和识别原材料（游戏里的各种信息）的车间，它基于ViT（Vision Transformer）架构，能够对看到的游戏画面的相关信息进行加工整理。

主干即工厂的核心生产线，基于DiT（Diffusion Transformer）架构，负责将加工处理好的信息产出游戏内容，比如游戏场景、物体等。

同时，利用Decart的推理引擎，结合Etched公司的Sohu（Transformer架构的ASIC）芯片，实现了实时视频生成。这种架构选择保证了在Sohu芯片上的稳定扩展和快速推理，并且以自回归方式生成帧，能够根据游戏输入实时交互。

Sora这类模型根据用户输入的文本内容直出视频，但Oasis使用Diffusion Forcing进行训练，每次只生成一帧，根据游戏输入在token级别调节每个帧，因此可操纵性很高。

之所以能够被称为「世界模型」，是因为Oasis已经能够了解复杂的游戏机制，例如理解物体和建筑、照明的物理规律等等。

模型理解照明的物理原理

放置立方体砖块

不过，在生成游戏画面的时候，还有一个问题就是如何保证时间稳定性。因为在自回归模型中，一个画面出错了，后面可能就会越来越乱，如同多米诺骨牌一样。解决这个问题需要长上下文生成方面的创新，Oasis的方案是部署动态噪声（dynamic noising）。

Decart团队也表示，未来将针对部分远处物体出现模糊、不确定对象的时间一致性等问题进行研究，逐步提升Oasis的游戏体验。

02

两家初创，强强联手

生成式交互体验新纪元这就来了吗？这两家初创公司又是什么来头？据公开报道，Oasis模型是由Decart和Etched两家初创公司共同推出的。

Decart成立于2023年9月，一直致力于提高AI模型的效率和降低运行成本，提供更快、更可靠的训练以及实时推理，成立三个月后便与一家GPU云服务商达成了数百万美元的交易。

Decart联合创始人Moshe Shalev和Dean Leitersdorf

红杉资本更是豪掷2100万美金对其进行了投资，合伙人Shaun Maguire更是大力称赞Decart的团队，认为他们是「超精英的AI工程师」、「合作过的技术最有天赋的团队之一」，正在将生成式体验推向极致。

目前推出的Oasis只是一个实时推理方面的热身实验，接下来的几个月，他们还将发布更具有颠覆性的成果。

另一家初创Etched是来自美国的人工智能芯片公司，成立于2022年，三位核心创始人均为哈佛辍学生。

他们最耀眼的成绩，就是推出了Sohu——世界上第一个基于Transformer架构的ASIC芯片，专为LLM推理加速打造，不仅快过Groq，也能碾压英伟达最新的B200。

以Llama 70B模型的推理性能为例，1张Sohu≈20张H100≈10张B200。

令人咂舌的性能背后，是Etched的一场豪赌般的权衡。打造针对特定算法的AI芯片，将模型架构直接烧录到芯片的硬件结构中，这意味着无法运行其他模型，比如CNN、RNN或LSTM，但对Transformer来说，就能得到有史以来最快的芯片。

2022年，创始团队大胆预言——Transformer将占领世界，于是投入花了两年时间研发，得到了今天的Sohu。

Etched创始人之一Gavin Uberti表示，「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片，但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部...」

能高效推理的AI芯片，对于极耗算力的视频生成而言，可以说是类似于Scaling Law的福音。

虽然文生视频模型已经达到了很好的生成效果，但速度非常慢，成本也很高。

视频中的每个帧包含数百甚至数千个token，必须并行处理多次才能完全去噪。最好的模型平均每秒生成不到一帧，而且每个用户每分钟的费用可能高达1美元。

这种低效高成本的推理，不得不说是视频生成模型用于实际应用的一大障碍，而这正是Sohu芯片期望解决的问题。

今年6月，Etched宣布已经筹集了1.2亿美元的资金用于扩大生产，并与台积电合作，以35人的精干团队直接放话挑战市值3万亿的英伟达。

深圳龙岗智能视听研究院

人工智能 | 超高清

产业创新 | 技术孵化 | 成果转化

http://mp.weixin.qq.com/s?__biz=MzUyMzY3NDA5Nw==&mid=2247509151&idx=1&sn=daafd178e75c67757bbd5767da6434a2

智能视听研究院

建设具有国际影响力、华南地区最重要的视听技术创新基地，以及国家自主视听 AVS标准的运营总部和音视频处理和分析芯片设计、生产基地。

最新文章

全球首款AI游戏诞生！无需游戏引擎，视频模型直出「我的世界」

航展附近这场无人机编队表演，竟用了钉钉AI助理的方案

当AI遇上广告，AKOOL 4000万美元营收一夜走红广告营销界

全球首个支持多主体一致性的国产视频模型诞生！视觉模型进入上下文时代

Claude三巨头回应一切！Opus3.5仍可能发布，5小时超长视频10万人围观

VP/XR/AIGC/数智人！VPS 2024上海国际虚拟制作大会亮点速递

马斯克招人策略曝光：9轮面试，底薪低于同行，只招“铁杆特斯拉人”

黄仁勋：AI算力集群会扩展到100万芯片，没有任何物理定律可以阻止

国创中心重点孵化项目：粤港澳超高清数创产业园正式开园！

用XR跨越现实与虚拟，享受《黑神话•悟空》超沉浸天命之路

苹果AI上线，ChatGPT免费用！首款M4 Mac诞生

比Flux更强大的文生图模型来了！秘诀是“集百家之长”

粤港澳超高清数创产业园暨超高清公共服务平台正式启动，诚邀您莅临参会！

Claude接管人类电脑编程，OpenAI反击，智能体大战一触即发

粤港澳超高清数创产业园：湾东智芯先锋项目，超高清视频产业应用示范新高地

Claude重磅升级，接管人类电脑12小时，已经学会摸鱼了

手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命

智源发布原生多模态世界模型Emu3，仅靠预测下一个token统一图像文本视频

AVS感知无损压缩团体标准正式发布

研究院荣誉院长高文院士：AI科学家获诺奖，提醒我们重视科学大赛

超高清赋能精品创作，《2023-2024广播电视大屏收视数据报告》权威发布

Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功

抖音小红书卖爆1万台！Office版人形机器人也来了，破解波士顿动力商业化难题

阿里通义万相AI生视频震撼上线！更懂中国风的大模型来了

央卫视2024秋晚亮点纷呈！艺术与科技“狠活儿”的多样态融合

虚幻引擎+XR+虚拟演播室技术，带你亲临台风现场

苹果史上第一台AI手机诞生，iPhone 16屠版热搜！中文版明年登场，3nm芯片封神

老黄预言成真！Roblox官宣AI秒生3D物体模型，引爆10亿玩家游戏新世界

当视听艺术遇上AI奇缘，一起来见证AIGC赋能下的视听创作新生态

MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”

讯飞版「Her」横空出世全民开放！百变人设逼真丝滑，情绪价值逆天

OpenAI家庭机器人NEO登场，动作丝滑逼近人类！穿着西装的「人」却专做家务

全国首个上手机的AI视频通话来了！《黑神话：悟空》经文也能破译

Windows、Mac只是装了个夸克，整个电脑都AI了！

5年要烧掉1000亿！中国大模型第一城，诞生了！

法国国礼纪录片已上线，使用AVS3标准进行8K转码播放

中科院院士乔红：人形机器人十大趋势展望

6年“取经”长路，国产游戏大作《黑神话：悟空》幕后分享

惊艳又抽象！巴黎奥运会闭幕式的“高光”回顾

国产AI机器人好超前…弹琴泡茶打咏春，还能撸猫？？

全球首个AI流媒体音乐App来了！中国造的

谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

4090单卡可跑，6秒直出电影级画质，智谱版Sora正式开源！

OpenAI版终结者降临！地表最强机器人Figure 02问世，进宝马狂飙20小时

一个月蹦出4个国产Sora：“拍个手”集体阵亡 | 全方位评测

1194个镜头的原创AI数字资产，还原百年前中国第一次报名参加奥运会的真实历史

深圳争创“五个先锋” 加快打造人工智能先锋城市

清华系Sora全球上线！注册即用不排队，重点支持动漫风，官方：角色一致性下功夫了

AI涌入巴黎奥运，颠覆观赛的中国黑科技大起底

2024年广东超高清视频显示产业全景图谱

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉