AI突破:单图生成3D世界,GenEx重塑具身智能探索格局!

文摘   2024-12-22 07:00   中国香港  

在人工智能发展中,让机器像人类一样理解、探索 3D 世界一直是难题。GenEx 系统的出现,通过生成可探索世界并助力智能体在其中学习决策,在虚拟世界探索表现出色,还可能推动现实世界的导航、游戏等应用发展,对人工智能进步意义重大。

作者:张长旺,图源:旺知识

本文提出 GenEx 系统,可从单张 RGB 图像生成 3D 一致的想象环境并转化为全景视频流。其利用虚幻引擎数据训练模型,包括世界初始化和转换过程,支持多种探索模式。通过想象增强策略提升智能体决策能力,在生成质量、探索循环一致性等多方面表现良好,为具身 AI 发展提供平台,有望应用于多领域。

摘要&解读

理解、导航和探索 3D 物理现实世界一直是人工智能发展的核心挑战。在这项工作中,我们通过引入 GenEx 朝着这个目标迈出了一步,GenEx 是一个能够在其生成性想象引导下规划复杂具身世界探索的系统,这种想象形成了对周围环境的先验(预期)。GenEx 能够从单张 RGB 图像生成整个 3D 一致的想象环境,并通过全景视频流使其生动起来。利用从虚幻引擎精心整理的可扩展 3D 世界数据,我们的生成模型基于物理世界。它轻松捕捉连续的 360°环境,为人工智能智能体提供了广阔的探索和交互空间。GenEx 在长轨迹上实现了高质量的世界生成和强大的循环一致性,并展示了诸如一致性和主动 3D 映射等强大的 3D 能力。在世界生成性想象的驱动下,GPT 辅助智能体能够执行复杂的具身任务,包括与目标无关的探索和目标驱动的导航。这些智能体利用对物理世界未见过部分的预测期望来完善它们的信念,基于潜在决策模拟不同结果,并做出更明智的选择。总之,我们证明了 GenEx 为在想象空间中推进具身人工智能提供了一个变革性的平台,并为将这些能力扩展到现实世界探索带来了潜力。

  • 研究背景: 单图像 3D 建模虽有进展但受限于渲染距离和视野且依赖深度估计器;视频生成方法缺乏物理基础;已有视频生成模型未研究想象观察的世界探索。这些不足促使 GenEx 系统的研究,旨在结合各领域优势生成 3D 一致且可探索的世界,推动具身 AI 发展。

  • 技术创新:

    • 能从单张 RGB 图像生成 3D 一致的想象环境并转化为全景视频,为智能体提供广阔探索空间。

    • 利用物理引擎数据训练模型实现世界初始化和转换,保证环境物理合理性和视觉连贯性。

    • 提出想象增强策略提升智能体决策能力,包括单智能体和多智能体场景应用。

  • 技术实现:

    • 世界初始化利用物理引擎收集数据,用全景视图表示世界,基于文本到全景模型并结合单张图像条件生成初始 360°全景世界视图。

    • 世界转换将其建模为动作驱动的全景视频生成过程,包括动作采样、球面旋转和全景视频生成模块,采用球一致学习保证视频连贯性。

    • 探索模式有交互式、GPT 辅助自由探索和目标驱动导航,智能体动作由策略决定,不同模式指令不同。

    • 想象增强策略通过 GenEx 收集想象观察后选择动作最大化策略,多智能体版本在此基础上扩展。

  • 实验结果:

    • 生成质量方面,GenEx 在 FVD、SSIM、LPIPS 和 PSNR 等指标上表现良好,优于部分基线模型。

    • 探索循环一致性上,IELC 指标在长距离和多视频情况下保持较高水平,潜在 MSE 低。

    • 能成功生成鸟瞰世界、保持 3D 一致性、实现主动 3D 映射,且在具身决策评估中,GenEx 辅助能提升智能体决策准确率。

  • 关键词:生成式人工智能;世界模型;具身人工智能;世界探索者

 欢迎加入自动驾驶实战群


1. 引言

人类通过感知周围环境、采取行动和与他人互动来探索和与 3D 物理世界交互。通过这些交互,他们形成了模拟环境复杂性的心理模型。只需一眼,人类就能在脑海中构建出周围环境的内部 3D 表示,从而进行推理、导航和解决问题。这种非凡的能力长期以来一直是人工智能发展的核心挑战。

在这项工作中,我们引入 GenEx,这是一个旨在突破这一界限的平台,它通过生成一个可探索的世界并促进在这个生成的世界中的探索。GenEx 结合了两个相互关联的组件:一个想象世界,它动态地生成用于探索的 3D 环境;以及一个具身智能体,它与这个环境交互以完善其理解和决策。这些组件共同形成一个共生系统,使人工智能能够以类似于人类认知过程的方式进行模拟、探索和学习。

我们首先构建一个基于物理世界的想象世界,它捕捉 360°的 3D 环境,利用生成式人工智能的最新进展。从单张图像开始,模型广泛而动态地生成新环境,同时在长距离探索中保持连贯性和 3D 一致性。这个无边无际的景观为人工智能智能体提供了无尽的探索和交互机会。

环境以扩散视频生成的形式呈现出来,以移动角度、距离和作为起点的单个初始视图为条件。为了解决视野限制,我们利用全景表示并使用球一致学习技术训练我们的视频扩散模型。这确保了生成的环境在长距离探索中保持连贯性和 3D 一致性。为了将我们的视频生成模型基于物理世界,我们从虚幻引擎等物理引擎整理训练数据,从而实现逼真和身临其境的输出。

在这个想象的景观中,具身智能体起着至关重要的作用。通过 GPT 增强后,这些智能体可以利用想象的观察来探索物理世界的未知部分,完善对周围环境的理解,基于潜在决策模拟不同结果,并做出更明智的选择。此外,GenEx 支持多智能体场景,允许智能体在脑海中导航到其他智能体的位置,分享想象的信念,并协作完善它们的策略。

总之,GenEx 代表了人工智能发展的一个变革性步骤,提供了一个连接生成世界和基于物理世界的平台。通过使人工智能能够在无限的、动态生成的环境中探索、学习和交互,GenEx 为从现实世界导航、交互式游戏、VR/AR 到具身人工智能等应用打开了大门。

2. 生成可探索世界

我们在§2.1 中定义可探索的生成世界和问题,在§2.2 中介绍世界初始化,在§2.3 中介绍世界转换。

2.1. 问题表述

定义可探索的生成世界。我们将可探索的生成世界定义为人工智能生成的虚拟环境,受智能体周围环境的约束。生成世界在物理上是合理的且视觉上是连贯的。这个环境由智能体的以自我为中心的全景观察表示,记为。虽然是合成的,但它仍然基于直观的物理原理和逼真的外观,类似于高保真、物理上逼真的视频游戏环境。

至关重要的是,我们生成世界的可探索性确保了智能体的体验不限于静态场景。相反,环境会根据智能体的移动和动作动态演变,模拟连续且连贯的探索。形式上,设是智能体在步骤的动作,包括视图旋转和前进距离。设表示智能体根据移动时遇到的全景观察序列,其中对应于中的序列长度,即移动的距离。中的每个都是为了反映环境当前可感知的状态而生成的,确保智能体不断变化的视角保持连贯且具有物理意义。

我们使用从受控模拟环境中收集的数据来训练我们的模型。通过采用基于物理的数据引擎(§2.2),我们确保了逼真且多样的训练场景,这些场景捕捉了复杂虚拟环境中遇到的复杂变化。

任务表述:我们将“探索生成世界”的任务重新表述为给定单张初始图像、描述和每个步骤)的动作,生成初始全景世界视图和由全景视频表示的一系列世界视图的问题,它们一起表示为。形式上,我们有

在这个统一形式中,核心项是:

  • 世界初始化(§2.2):给定初始图像和语言描述,从以下分布中采样锚定的 360°世界视图其中是图像到全景生成器。

  • 世界转换(§2.3):给定选定的动作,从以下分布中采样下一个世界视图其中是 360°全景视频生成器,,且

算法 1:生成可探索世界

  • 要求

    • 一张初始单视图图像

    • 一个指定所需全景世界初始化的语言描述

    • 由图像到全景生成模型参数化的条件分布,用于初始化 360°世界

    • 在物理引擎中定义的动作空间,从中采样动作:

    • 由全景视频生成模型参数化的条件分布

  • 步骤

    • 世界转换步骤:给定和最新探索的世界(其中),采样新的全景视频

  1. 符号说明:设表示在探索步骤生成的全景视频。这里,是最新探索的全景视图。

  2. 世界初始化:从单张图像初始化一个 360°全景世界:

  3. 循环生成:对于,执行以下操作:

 

          4. 返回结果:返回初始 360°全景世界视图和生成的全景状态序列,它们一起表示一个可探索的生成世界,记为

2.2. 世界初始化

预备知识:数据和表示:由于资源限制和环境可变性,在现实世界中收集多样化的世界探索数据具有挑战性。因此,我们利用虚幻引擎 5 和 Unity 等物理引擎(如图 2 所示)进行数据整理。这些引擎允许创建丰富多样的虚拟环境,在其中我们可以模拟探索轨迹并高效收集相应数据。

我们使用智能体的全景视图来表示 360°世界。全景图像从固定视点捕捉场景的完整 360°×180°视图。一种常见的全景表示是立方体贴图,它将 360°视图投影到立方体的六个面上。每个面捕捉 90°视野,从而得到六个可以无缝拼接在一起的透视图像。由于其简单性和与渲染引擎的兼容性,我们直接在物理引擎中收集立方体贴图来表示以自我为中心的世界。值得注意的是,立方体贴图、等距柱状全景图和球面全景图是 360°全景世界的三种表示形式。整理后的立方体贴图将在世界探索阶段投影到等距柱状全景图上用于视频生成,并在改变探索角度时投影到球面空间。

给定预定义的探索轨迹,我们收集立方体贴图序列来表示虚拟世界中的不同探索结果。通过均匀采样大量探索方向,我们整理了一个广泛的世界探索场景数据集,作为我们模型的训练数据。

世界初始化模型:从单张输入图像开始,我们的目标是构建智能体环境的完整 360°全景表示。为此,我们在输入图像和所需 3D 世界的文本描述上对预训练的文本到图像扩散模型进行条件设定,生成高动态范围全景图。因此,从条件分布中抽取。

我们的世界初始化模型基于从最先进的文本到图像模型 FLUX.1(Labs,2024)调整而来的最先进的文本到全景模型(Bilcke,2024)。文本到全景模型(Bilcke,2024)从文本描述生成全景图:然而,如果不以单张图像为条件,这种方法无法保证生成的全景图与提供的参考图像的一致性。

我们扩展了该模型,使其同时基于文本输入和单张图像进行条件设定。这种调整使模型能够生成与提供的图像一致的完整 360 度环境:虽然这产生了一个连贯的、与图像一致的全景图,但场景仍然是静态的,不允许动态移动或探索。为了在生成世界中实现更深入的交互,我们引入了世界转换。

2.3. 世界转换

当智能体在想象环境中移动时,其以自我为中心的 360°视图会发生变化,从而引发世界转换。我们将这种转换建模为一个动作驱动的全景视频生成过程,随着智能体的前进,将之前观察到的全景图转换为新的前视图。

转换目标:目标是根据之前的全景图和动作采样一个新探索的全景视频。这里,是移动角度,是距离。形式上,我们有转换目标:转换过程有核心模块:

  • 动作采样:考虑从虚幻引擎和 Unity 中的无限大动作集中抽取的动作序列。我们可以将动作空间表示为:,其中。序列中每个元素都从中采样:因此,整个动作序列位于中。

  • 球面旋转:动作确定一个旋转角度,我们将其应用于等距柱状全景图的球面表示。这产生一个旋转后的等距柱状全景图其中是在附录中的公式 3 中定义的已知旋转几何变换。

  • 全景视频生成:接下来,我们通过距离生成在想象空间中移动的视频。我们的视频生成器改编自以最新探索的视图和随机采样的噪声为条件的视频扩散模型:这种方法确保每个生成的全景视频与之前的视图保持一致,同时纳入随机变化以表示一个可探索的世界。

我们旨在学习生成在球面上视觉上连贯的全景视频。如果没有额外的约束,仅在等距柱状全景图上进行训练可能会导致全景图边缘的不连续性。为了解决这个问题,我们采用球一致学习(SCL),详见(Lu 等人,2024),它促进了球面上所有观察方向的平滑和连续图像。

总结:本质上,世界转换步骤将智能体观察到的 360°全景图更新为新探索的视图序列。通过动作驱动的旋转、球面调整和基于扩散的视频模型,我们在智能体导航生成环境时实现了无缝转换并保持了连贯的全景表示。

3. 生成世界中的探索

生成可探索世界后,人类或具身智能体可以使用探索策略探索虚拟世界,探索策略在§3.1 中定义。然后我们在§3.2 中介绍三种探索模式。

3.1. 探索策略

探索动作由一个策略决定:其中是指定探索模式为人类交互或由 GPT 辅助的指令,在§3.2 中详细介绍。注意表示前一步骤中最新探索的视图。在时,它对应于初始全景图。动作定义了智能体如何通过旋转角度旋转其视野并向前移动距离,从而塑造探索的方向和范围。

3.2. 探索模式

GenEx 框架使智能体能够基于当前单视图图像和给定的探索动作,通过视频流生成在想象世界中进行探索。

我们支持三种生成世界探索模式,包括(a)交互式探索,(b)GPT 辅助自由探索,以及(c)目标驱动导航,如图 6 所示。

  • 交互式探索:GenEx 使智能体能够以无限的方向范围自由探索合成世界,增强其对周围环境的理解。用户可以控制智能体的移动方向和距离,从而实现对虚拟世界的持续探索。

  • GPT 辅助自由探索:然而,人类提供的命令有时可能会导致模型失效。例如,如果用户指示智能体过度靠近墙壁移动,所得到的视角可能会降低后续生成视频帧的质量。

为了缓解这种情况,我们采用 GPT - 4o(Achiam 等人,2023)作为“领航员”来确定探索配置,包括完整的 360°可探索方向和距离。鉴于生成质量可能会随着时间的推移而逐渐下降,GPT - 4o 充当一个策略,选择动作以最大化生成世界的保真度并避免模型失效。

  • 目标驱动导航:智能体接收带有导航指令的目标,例如“移动到蓝色汽车的位置和方向”。GPT 根据指令和初始图像进行高级规划,以迭代方式生成低级探索配置。然后 GenEx 逐步处理这些配置,在整个想象探索过程中逐步更新图像。这允许进行更精确的控制和有针对性的探索。

4. 推进具身人工智能

在我们的生成世界中,我们可以探索物理环境中以前未观察到的区域,收集更全面的信息,并完善我们的信念以做出更明智的决策。我们将这个过程构建为一种类似于人类决策的形式——“想象增强策略”——它可能在塑造具身人工智能的未来方面发挥关键作用。

4.1. 想象增强策略

算法 2. 想象增强策略

  • 输入

    • 初始单视图图像

    • 用于指定所需全景世界初始化的语言描述

    • 探索相关指令,该指令用于明确探索模式等细节内容。

  • 步骤

  1. 使用GenEx收集想象观察: 运用GenEx,基于初始图像、语言描述以及指令,从概率分布中采样获取想象观察结果。这里的表示从起始时刻到后续时刻的一系列想象观察情况,涵盖了智能体在生成世界中进行探索等过程中所对应的相关观察内容。

  2. 根据想象观察选择动作以最大化策略: 依据收集到的想象观察,结合初始图像以及目标,通过策略模型来选择动作,也就是要找到能使策略达到最大值的动作。这样做的目的在于,基于想象观察为智能体确定合适的动作,以便其能够在生成世界里做出更明智的决策、采取更有效的行动,比如在探索过程中选择更优的移动方向、距离等,朝着目标更好地推进探索活动。

  • 输出

    • 能使策略最大化的动作,该动作将被智能体用于后续在生成世界中的相关操作,辅助其完成诸如探索、决策等任务,以实现相应的目标及提升整体的探索效果。

    我们提出了一种基于生成世界中想象观察的新策略,如算法 2 所述。想象增强策略包括以下两个步骤:

    • 步骤 1:使用 GenEx 收集想象观察:

    • 步骤 2:根据想象观察选择动作以最大化策略:

    在我们的工作中,我们应用 GenEx 进行想象探索,并使用 LMM 作为策略模型,示例见图 8。

    与仅基于真实观察选择动作的普通策略相比,想象增强策略使用实际和想象观察来选择动作,可能会导致更明智的决策。

    4.2. 多智能体想象增强策略

    我们的想象增强策略可以推广到多智能体场景。一个智能体可以探索其他智能体的位置。这可以预测其他智能体的观察并推断它们对周围环境的理解。

    从技术上讲,我们可以通过提供诸如“导航到智能体的位置”之类的指令来创建多个探索路径。然后智能体可以探索生成的 360°环境以到达智能体的位置。

    通过扩展算法 2,多智能体想象增强策略有三个步骤:

    • 步骤 1:使用算法 1 并按照指令“导航到智能体的位置”探索智能体的位置来收集想象观察:

    • 步骤 2:总共重复步骤 1次,然后在我们生成的可探索世界中想象性地探索所有个智能体的结果位置:${x_{1:T}^{(k)}}{k = 1}^{K}=(x{1:T}^{(1)},x_{1:T}^{(2)},\cdots,x_{1:T}^{(K)})$

    • 步骤 3:根据想象观察选择具身动作以最大化策略:

    当探索另一个智能体的周围环境时,我们可以预测该智能体看到什么、理解什么以及接下来可能会做什么,这反过来又有助于我们利用更完整的信息调整自己的行动。

    5. 应用

    5.1. 生成质量

    我们使用 FVD(Unterthiner 等人,2019)、SSIM(Wang 等人,2004)、LPIPS(Zhang 等人,2018)和 PSNR(Horé 和 Ziou,2010)评估视频生成质量。表 1 显示我们早期的 GenEx 版本(Lu 等人,2024)在所有指标上都具有较高的视频质量。

    表 1:具有高生成质量的 GenEx

    5.2. 探索循环一致性

    我们提出想象探索循环一致性(IELC)来衡量远程探索保真度。对于每个随机采样的闭环路径,我们计算初始真实图像和最终生成图像之间的潜在 MSE,然后在 1000 个具有不同旋转和距离的循环上平均这些值,丢弃受阻路径。如图 9 所示,即使对于 20m 的循环和多个连续视频,IELC 仍然很高,保持潜在 MSE 低于 0.1,从而表明最小的漂移。这种鲁棒性源于保持球一致性,确保旋转不会影响图像质量。

    5.3. 生成鸟瞰世界

    通过沿轴向上探索,我们的方法可以直接从单个全景图像生成自上而下(鸟瞰)地图。如图 10 所示,这些俯视布局使智能体对场景有一个客观的、第三人称的理解,从而提高推理能力。

    5.4. 3D 一致性

    我们的方法能够通过围绕物体的路径进行想象探索来生成物体的多视图视频。与最先进的开源模型相比,我们的模型表现出更优的性能。重要的是,它保持了近乎完美的背景一致性,并有效地模拟了场景照明、物体方向和 3D 关系,如图 11 所示。

    5.5. 生成世界中的主动 3D 映射

    当智能体积极探索生成世界时,它会不断收集观察结果,这些观察结果可用于使用 DUSt3R(Wang 等人,2024b)重建 3D 地图,如图 12 所示。

    5.6. 具身决策

    接下来我们评估§4 中提出的想象增强策略并分享两个关键发现。

    • 评估:我们在表 2 中评估我们的想象增强策略(§4.1)。我们在(Lu 等人,2024)的 Genex - EQA 基础上为每个场景扩展了一个受控对应项。我们使用单峰来指代仅接收文本上下文的智能体,而多模态推理展示了在与以自我为中心的视觉视图一起提示时 LLM 的决策。GenEx 显示了配备生成世界探索器作为智能体的模型的性能。我们在表 3 中评估我们的多智能体想象增强策略(§4.2)。

    • 发现:基于人类策略(灰色行)和 GenEx 增强的 GPT 策略(蓝色行)的结果,我们确定了两个发现。


    表 2:想象增强策略的评估



    表 3:多智能体想象增强策略的评估

    对于 GPT 来说,没有想象的视觉可能会产生误导。有趣的是,仅依赖环境文本描述的单峰响应往往优于其多模态对应项,多模态对应项同时包含文本和以自我为中心的视觉输入。这表明没有想象的视觉可能会产生误导,因为它可能由于缺乏空间上下文和仅依赖基于语言的常识推理而导致错误的推断。这凸显了整合视觉想象以提高智能体决策过程的准确性和可靠性的重要性。

    GenEx 有潜力增强人类的认知能力。人类表现结果揭示了几个关键见解。首先,使用视觉和文本信息的个体比仅依赖文本的个体实现了显著更高的决策准确性。这表明多模态输入增强了推理能力。其次,当提供由 GenEx 生成的想象视频时,人类做出的决策比传统的仅图像设置更准确和明智,特别是在需要高级空间推理的多智能体场景中。这些发现证明了 GenEx 在增强认知能力以实现有效社会协作和态势感知方面的潜力。

    6. 讨论

    • 相关工作:单图像 3D 建模(Tewari 等人,2023;Yu 等人,2024)的进展使得新视图合成成为可能,但受渲染距离或视野限制,严重依赖深度估计器。同时,视频生成方法(Blattmann 等人,2023;Kondratyuk 等人,2024;OpenAI,2024)擅长生成多样化的视频,但往往缺乏物理基础,降低了它们在探索中的实用性。视频生成模型(Bu 等人,2024;Du 等人,2024a,b;Wang 等人,2024a;Yang 等人,2024)能够直接合成用于决策的视觉计划,但对想象观察的世界探索尚未得到研究。我们的方法通过利用基于物理的数据来生成 3D 一致的可探索世界并推进具身人工智能,将这些领域结合起来。

    • 对早期工作的扩展:我们早期的工作(Lu 等人,2024)于 2024 年 11 月在 arXiv 上发表,概念化了世界转换、探索和具身人工智能中的应用,但没有解决从单张图像进行世界初始化的关键方面。

    • 与同期工业进展的关系:WorldLabs(WorldLabs,2024)最近发布了从单张图像生成动漫世界的演示。DeepMind(DeepMind,2024)发布了一篇关于交互式世界模型的博客。我们的工作补充了这些正在进行的工业努力,共同朝着一个共同的愿景做出贡献:创建丰富、交互式、3D 一致的生成世界。重要的是,我们提供了我们的技术细节。除此之外,我们还通过探索生成世界引入了想象增强策略的概念,进一步扩展了具身人工智能的前沿。

    • 挑战:在人工智能中,连接想象和现实世界环境仍然是一个核心挑战。当前方法依赖于物理引擎。未来的工作必须解决几个关键限制,包括模拟到现实的适应、真实传感器集成、动态条件和道德保障,以最终实现具身人工智能在不同物理环境中的可靠部署。

    7. 结论

    我们引入了 GenEx,这是一个生成可探索世界的平台,使智能体(无论是由人类用户还是 GPT 指示)能够在这个想象的全景世界中自由探索。通过从单张图像生成 3D 一致的环境,我们的方法能够创建沉浸式和交互式世界,提供一个基于物理世界并由智能体探索的无限景观。我们展示了 GenEx 的多种应用,表明这种生成式可探索世界技术可以创建多样且一致的 3D 环境,构建主动 3D 映射,并通过允许智能体制定更明智和有效的计划来推进具身决策。此外,GenEx 的框架支持多智能体交互,为更先进和协作的人工智能系统铺平了道路。这项工作标志着朝着现实世界导航、交互式游戏和在具身人工智能中实现人类般智能的进步。


    作者:张长旺,图源:旺知识

    参考资料

    • 标题:GenEx: Generating an Explorable World

    • 作者:Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan L. Yuille, and Jieneng Chen

    • 单位:Johns Hopkins University

    • 标签:人工智能、生成式 AI、具身 AI、世界探索、3D 建模

    • 概述: 本文介绍了 GenEx 系统,它能从单张 RGB 图像生成 3D 一致的可探索世界,通过多种技术实现高质量生成和智能体探索,推动了人工智能在想象空间及现实世界探索的发展。

    • 链接:https://arxiv.org/pdf/2412.09624


    Ai fighting
    全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
     最新文章