扩散模型版CS: GO！世界模型+强化学习：2小时训练登顶Atari 100K

科技 2024-11-18 13:07 北京

新智元报道

编辑：LRS

【新智元导读】DIAMOND是一种新型的强化学习智能体，在一个由扩散模型构建的虚拟世界中进行训练，能够以更高效率学习和掌握各种任务。在Atari 100k基准测试中，DIAMOND的平均得分超越了人类玩家，证明了其在模拟复杂环境中处理细节和进行决策的能力。

环境生成模型（generative models of environments），也可以叫世界模型（world model），在「通用智能体规划」和「推理环境」中的关键组成部分，相比传统强化学习采样效率更高。

但世界模型主要操作一系列离散潜在变量（discrete latent variables）以模拟环境动态，但这种压缩紧凑的离散表征有可能会忽略那些在强化学习中很重要的视觉细节。

日内瓦大学、爱丁堡大学的研究人员提出了一个在扩散世界模型中训练的强化学习智能体DIAMOND（DIffusion As a Model Of eNvironment Dreams），文中分析了使扩散模型适应于世界建模（world modeling）所需的设计要素，并展示了如何通过改善视觉细节来提高智能体的性能。

论文链接：https://arxiv.org/pdf/2405.12399

代码链接：https://github.com/eloialonso/diamond

项目链接：https://diamond-wm.github.io

DIAMOND在Atari 100k基准测试中达到了1.46的平均人类标准化分数（mean human

normalized score），也是完全在世界模型内训练智能体的最佳成绩。

此外，在图像空间中操作还有一个好处是，扩散世界模型能够成为环境的即插即用替代品，更方便地深入分析世界模型和智能体行为。

在项目主页，研究人员还展示了智能体玩CS: GO的画面，先收集了87小时人类玩家的视频；然后用两阶段管道（two-stage pipeline:）以低分辨率执行动态预测，降低训练成本；将扩散模型从Atari的4.4M参数扩展（scaling）到 CS: GO 的381M；最后对上采样器使用随机采样（stochastic sampling）来提高视觉生成质量。

模型在RTX 4090上训练了12天，并且可以在RTX 3090上以约10 FPS的速度运行。

不过该方法在模拟世界模型时，在部分场景下仍然会失效。

强化学习和世界模型

我们可以把环境看作是一个复杂的系统，智能体在这个系统中通过执行动作来探索并接收反馈（奖励）。

智能体不能直接知道环境的具体状态，只能通过图像观测来理解环境，最终的目标是教会智能体一个策略，使其能够根据所看到的图像来决定最佳的行动方式，以获得最大的长期奖励。

为此，研究人员构建了一个世界模型来模拟环境的行为，让智能体在模拟环境中进行训练，这样可以更高效地利用数据，提高学习速度。

整个训练过程包括收集真实世界中的数据，用这些数据来训练世界模型，然后让智能体在世界模型中进行训练，类似于在一个虚拟的环境中进行练习一样，也可以称之为「想象中的训练」（imagination）。

基于评分的扩散模型

扩散模型是一类受非平衡热力学启发的生成模型，通过逆转加噪过程来生成样本。

假设有一个由连续时间变量τ索引的扩散过程，其中τ的取值范围是0到T，然后有一系列的分布，以及边界条件：在τ=0时，分布是数据的真实分布，而在τ=T时，分布是一个易于处理的无结构先验分布，比如高斯分布。

为了逆转正向的加噪过程，需要定义漂移系数和扩散系数的函数，以及估计与过程相关的未知得分函数；在实践中，可以使用一个单一的时间依赖得分模型来估计这些得分函数。

不过在任意时间点估计得分函数并不简单，现有的方法使用得分匹配作为目标，可以在不知道潜在得分函数的情况下，从数据样本中训练得分模型。

为了获得边际分布的样本，需要模拟从时间0到时间τ的正向过程，然后通过一个高斯扰动核到清洁数据样本，在一步之内解析地到达正向过程的任何时间τ；由于核是可微的，得分匹配简化为一个去噪得分匹配目标（denoising score matching），这时目标变成了一个简单的L2重建损失，其中包含了一个时间依赖的重参数化项。

用于世界建模的扩散模型

世界模型需要一个条件生成模型来模拟环境的动态，即给定过去的状态和动作，预测下一个状态的概率分布，可以看作是部分可观察马尔可夫决策过程（POMDP），通过在历史数据上训练一个条件生成模型，来预测环境的下一个状态，虽然理论上可以采用任意常微分方程（ODE）或随机微分方程（SDE）求解器，但在生成新的观察结果时，需要在采样质量和计算成本之间做出权衡。

DIAMOND

DIAMOND模型有两个重要的参数，一个是漂移系数，决定了系统随时间变化的趋势；另一个是扩散系数，决定了噪声的强度，两个系数共同调节可以使模型更好地模拟真实世界的变化。

模型的核心是预测环境的下一个状态，为了训练该网络，需要提供一系列的数据，包括过去的观察结果和动作，网络的目标是从当前的状态和动作中预测出下一个状态。

在训练过程中，会逐渐向数据中加入噪声，模拟环境的不确定性；然后，网络需要学会从这些带有噪声的数据中恢复出原始的、清晰的下一个状态，整个过程就像是在一堆杂乱无章的信息中找到规律，预测出接下来可能发生的事情。

为了帮助网络更好地学习和预测，DIAMOND使用了一种叫做U-Net的神经网络结构。这种结构特别适合处理图像数据，因为它可以捕捉到图像中的复杂模式。我们还使用了一种特殊的技术，叫做自适应组归一化，这有助于网络在处理不同噪声水平的数据时保持稳定。

最后使用欧拉方法来生成预测结果，不需要复杂的计算，在大多数情况下都可以提供足够准确的预测。

在想象中强化学习

比如说，我们正在训练一个智能体如何在一个虚拟世界中行动：智能体需要「奖励模型」告诉它做得好不好，需要「终止模型」告诉他什么时候游戏结束。

智能体有两个部分：一个部分告诉它该怎么做（actor），用REINFORCE方法来训练；另一个部分告诉它做得怎么样（critic ），用λ-回报的贝尔曼误差的方法来训练。

让智能体在一个完全由计算机生成的世界中进行训练，这样就可以在不真实接触环境的情况下学习和成长。

只需要在真实环境中收集一些数据；每次收集完数据后，都会更新智能体的虚拟世界，然后让模型在这个更新后的世界中继续训练；整个过程不断重复，直到智能体学会如何在虚拟世界中更好地行动。

Atari 100k基准结果

Atari 100k包括了26个不同的电子游戏，每个游戏都要求模型具有不同的能力。

在测试中，智能体在开始真正玩游戏之前，只能在游戏中尝试100,000次动作，大概相当于人类玩2个小时的游戏时间，而其他无限尝试的游戏智能体通常会尝试5亿次动作，多了500倍。

为了更容易与人类玩家的表现进行比较，使用人类归一化得分（HNS）指标，结果显示，DIAMOND的表现非常出色，在11个游戏中超过了人类玩家的表现，基本实现了超越人类的水平，平均得分为1.46，在所有世界模型训练的智能体中是最高的。

DIAMOND在某些游戏中的表现尤其好，要求智能体能够捕捉到细节，比如《阿斯特里克斯》、《打砖块》和《公路赛跑者》。

参考资料：

https://diamond-wm.github.io/

https://x.com/op7418/status/1845152731901853970

https://the-decoder.com/ai-model-simulates-counter-strike-with-10-fps-on-a-single-rtx-3090/

http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652541447&idx=4&sn=bd6f2d51bc367467cf73f2f3add428bb

新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

最新文章

周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代

数字孪生心脏全球首次实现0.84秒超实时模拟！智源突破计算极限，180倍性能提升

代码模型自我进化超越GPT-4o蒸馏！UIUC伯克利等提出自对齐方法 | NIPS 2024

当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘

招人！新智元邀你勇闯ASI之巅

十年再登巅峰！刚刚，Ilya和GAN之父斩获NeurIPS 2024时间检验奖

AI卷翻科研！DeepMind 36页报告：全球实验室被「AI科学家」指数级接管

AI造芯Nature论文遭围攻，谷歌发文硬刚学术抹黑！Jeff Dean怒怼：你们连模型都没训

不是RNN的锅！清华团队深入分析长上下文建模中的状态崩溃，Mamba作者点赞

一文看尽Meta开源大礼包！全面覆盖图像分割、语音、文本、表征、材料发现、密码安全性等

招人！新智元邀你勇闯ASI之巅

Sora半夜泄露3小时，物理效果惊人！奥特曼急拔网线，艺术家抗议被白嫖

逃回大厂！谷歌天才科学家Yi Tay——639天创业血泪史

打破LLM数据孤岛！Anthropic革命性MCP让大模型解锁全网数据，AGI要来了？

AI视频两巨头开战！Runway秒生现实大片，Luma动嘴创作电影

「学术版ChatGPT」登场！Ai2打造科研效率神器OpenScholar，让LLM帮你搞定文献综述

揭示Transformer「周期建模」缺陷！北大提出新型神经网络FAN，填补周期性特征建模能力缺陷

UC伯克利：给大模型测MBTI，Llama更敢说但GPT-4像理工男

招人！新智元邀你勇闯ASI之巅

GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医

OpenAI怒斥Scaling撞墙论！o1已产生推理直觉潜力巨大

指令跟随大比拼！Meta发布多轮多语言基准Multi-IF：覆盖8种语言，超4500种任务

世界模型挑战赛，单项奖金10000美元！英伟达全新分词器助力下一帧预测

招人！新智元邀你勇闯ASI之巅

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

扩散模型=进化算法！生物学大佬用数学揭示本质

招人！新智元邀你勇闯ASI之巅

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

英特尔错失AI芯片浪潮，从放弃收购英伟达开始

一只暹罗猫竟是论文作者！谷歌学术20岁，创始人首次公开最魔幻学术故事

招人！新智元邀你勇闯ASI之巅

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

5年浴火，800余岁巴黎圣母院重生！马斯克激动转发，AI数字建模创奇迹

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

招人！新智元邀你勇闯ASI之巅

全面进攻谷歌！OpenAI被曝打造浏览器，已挖Chrome创始大牛

预定下一个诺奖级AI？谷歌量子纠错AlphaQubit登Nature，10万次模拟实验创新里程碑

宝可梦GO「偷家」李飞飞空间智能？全球最强3D地图诞生，150万亿参数解锁现实边界

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

世界最大AI Agent生态系统！微软推出全新「自主AI智能体」，10万企业工作流被改变

招人！新智元邀你勇闯ASI之巅

OpenAI看好的方向，文心智能体技术抢先爆发！

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

收敛速度最高8倍，准确率提升超30%！华科发布MoE Jetpack框架 | NeurIPS 2024

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

招人！新智元邀你勇闯ASI之巅

美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉