做游戏不用建模了?微软提出DIAMOND:AI可根据玩家行为自动实时合成下一帧画面!

文摘   2024-10-30 00:03   江苏  

DIAMOND是一个完全在扩散世界模型中训练的强化学习代理。上图显示了在扩散模型中玩耍的代理。DIAMOND的扩散世界模型还可以训练来模拟 3D环境,例如下图中的《反恐精英:全球攻势》(CSGO)。并被设计为能够学习和重现复杂的虚拟环境中的玩家行为。

unsetunset相关链接unsetunset

代码地址:https://github.com/eloialonso/diamond

论文链接:https://arxiv.org/pdf/2405.12399

项目主页:https://diamond-wm.github.io/

unsetunset论文阅读unsetunset

unsetunset摘要unsetunset

世界模型是一种以安全且样本效率高的方式训练强化学习代理的有前途的方法。最近的世界模型主要对离散潜变量序列进行操作,以模拟环境动态。然而,这种压缩成紧凑离散表示的方式可能会忽略对强化学习很重要的视觉细节。同时,扩散模型已成为图像生成的主导方法,对建模离散潜变量的成熟方法提出了挑战。受这种范式转变的推动,我们推出了 DIAMOND(扩散作为环境梦想的模型),这是一个在扩散世界模型中训练的强化学习代理。我们分析了使扩散适合世界建模所需的关键设计选择,并展示了改进的视觉细节如何提高代理性能。DIAMOND 在竞争激烈的 Atari 100k 基准上获得了 1.46 的平均人类标准化分数;对于完全在世界模型中训练的代理来说,这是一个新的最佳成绩。

unsetunset它是如何工作的?unsetunset

我们训练一个扩散模型来预测游戏的下一帧。扩散模型考虑了代理的动作和前几帧来模拟环境响应。

扩散世界模型考虑代理的动作和前几帧来生成下一帧。

代理反复提供新的动作,扩散模型更新游戏。 扩散模型充当代理可以学习发挥作用的世界模型。

自回归生成使扩散模型能够充当代理可以学习发挥作用的世界模型。

为了使世界模型运行速度更快,我们需要减少去噪步骤的数量。我们发现DDPM(Ho 等人,2020 年)在去噪步骤数量较少的情况下变得不稳定。相比之下,我们发现EDM(Karras 等人,2022 年)即使只有 1 个去噪步骤也能产生稳定的轨迹。

基于 DDPM 的模型由于自回归误差的累积,在去噪步骤数较少时不稳定,而基于 EDM 的模型则保持稳定。较少的去噪步骤可实现更快的世界模型。

但在拳击比赛中,1 步去噪会在可能的结果之间进行插入,从而对不可预测的黑人球员做出模糊的预测。

相比之下,使用更多的去噪步骤可以更好地选择特定模式,从而提高随着时间的推移的一致性。

去噪步骤数 n 越大,对于具有多种模式的转换,模式选择就越好。因此,对于 Diamond 的扩散世界模型,我们使用 n=3。

有趣的是,无论去噪步骤有多少,白棋选手的动作都能被正确预测。这是因为它受策略控制,因此其动作被提供给世界模型。这消除了可能导致预测模糊的任何歧义。

基于扩散的 DIAMOND 比基于离散标记的IRIS提供了更好的重要视觉细节建模。

DIAMOND 的世界模型比基于离散标记的 IRIS 能够更好地捕捉重要的视觉细节。

在这个扩散世界模型上使用强化学习来训练代理,DIAMOND 在 Atari 100k 上获得了 1.46 的平均人类标准化分数(比人类高出 46%);这对于在 100k 帧的世界模型中训练的代理来说是一个新的最佳成绩。

unsetunset扩展至 CSGOunsetunset

为了将DIAMOND的扩散世界模型应用于CSGO,我们做出了以下更改:

  • 无 RL:我们使用 87 小时人类游戏的固定数据集,而不是使用 RL 代理收集的数据。 两阶段管道:我们以低分辨率执行动态预测,然后用第二个模型进行上采样,从而降低训练成本。

  • 缩放:我们将扩散模型从 Atari 的 4.4M 参数扩展到 CSGO 的 381M(包括用于附加上采样器的 51M)。

  • 随机采样:我们对上采样器使用随机采样来提高视觉生成质量(对于动态模型来说不是必需的)。

我们的模型在 RTX 4090 上训练了 12 天,并且可以在 RTX 3090 上以 ~10 FPS 的速度播放。

unsetunset实验unsetunset

固定动作对高速公路驾驶采样轨迹的影响。基于相同的初始观察,我们推出应用不同动作的模型。有趣的是,该模型已经学会将“减速”和“加速”动作与整个交通减速和加速联系起来。

固定动作对 CSGO 中采样轨迹的影响。基于相同的初始观察,我们推出应用不同动作的模型。虽然在即时帧中这些动作具有预期效果,但对于较长的推出,观察结果可能会退化。例如,人类演示者在这种游戏状态下直视地面的可能性很小,因此世界模型无法在此处生成合理的轨迹,而是在向下看时捕捉到地图的另一个区域。

unsetunset结论unsetunset

DIAMOND是一种在扩散世界模型中训练的强化学习代理。DIAMOND 在成熟的 Atari 100k 基准上获得了 1.46 的平均人类标准化分数;在完全在世界模型中训练的代理中创下了新高。 世界模型是解决与现实世界中的训练代理相关的样本效率和安全问题的一个有希望的方向。然而,世界模型的不完善可能导致代理行为不理想或意外。

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
 最新文章