闭环仿真杀器!DrivingSphere:理想提出直接构建高保真4D世界

文摘   2024-11-26 07:00   上海  

作者 | Tianyi Yan等  编辑 | 自动驾驶之心

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

写在前面&笔者的个人理解

近年来,端到端自动驾驶算法取得了重大进展,准确评估这些模型是一项非常紧迫的任务。为了安全、负责任地进行评估,必须有一个精确的模拟环境,准确反映现实世界的驾驶条件。这个要求通常包括两个方面:一是高保真传感数据的生成,二是闭环反馈机制的实现。

当前最常使用的评估方法是开环仿真方法。虽然这些基准测试提供了真实的驾驶数据,但它们的分布相对固定,且缺乏多样性,限制了它们评估自动驾驶算法的泛化能力。总而言之,尽管具有高保真传感数据,但这些开环评估解决方案无法提供评估自主系统如何响应动态变化和决策所需的动态反馈。

另外一种即闭环仿真方法,其提供反馈驱动系统,其中代理的行为会影响其他代理和环境,并受其影响。然而,由于缺乏处理视觉传感器输入的能力,限制了它们与基于视觉的端到端模型的相互作用。基于游戏引擎的模拟器创造了可扩展且物理上逼真的环境,但它们的输出通常与现实世界的传感器数据不同,限制了它们在验证基于实际输入的算法方面的作用。

针对上述提到的相关问题,为了应对这些挑战,我们提出了一种新颖的几何感知闭环模拟框架,可捕捉二维视觉和三维几何特性,同时与基于视觉的端到端驱动代理无缝集成,它利用几何先验信息来生成逼真且可控的驾驶场景,称之为DrivingSphere。与现有的相关仿真框架相比,我们提出的DrivingSphere。与现有的仿真算法框架相比,DrivingSphere 有三个显著特点

  • 丰富的仿真粒度:与过去仅对道路和汽车进行建模的方法不同,我们的方法允许包括以前未建模的元素,例如建筑物、植被和其他环境结构。虽然这些非交通元素并不直接参与交通流,但它们的存在会显著影响驾驶模型的输入,从而影响复杂驾驶场景中的决策过程。

  • 物理和空间真实感:由于我们的模型明确地表示了 4D 空间中的场景和交通参与者,因此它能够精确地描绘不同交通元素之间的物理相互作用和遮挡关系。这确保每个视点和位置自然地遵循深度和遮挡等物理原理,从而实现全球道路布局、交通参与者及其行为的结构化协调。

  • 高视觉一致性和保真度:我们的模型更加努力地将场景中每个交通参与者的外观和唯一 ID 关联起来,从而跨帧和视图提供稳定且高保真的时间和空间一致性。

下图是我们的算法模型和开环与闭环仿真的整体框架进行对比

论文链接:https://arxiv.org/pdf/2411.11252

算法模型网络结构&技术细节梳理

在详细介绍本文提出的DrivingSphere算法框架之前,下图展示了DrivingSphere的整体网络结构图。

DrivingSphere 是一个生成闭环模拟框架,它将基于占用的 4D 世界建模与先进的视频渲染技术相结合,提供高保真视觉输出,增强自动驾驶场景中的仿真真实感和代理与环境的相互作用。具体来说,DrivingSphere 从动态环境合成开始,从地图草图生成静态背景,从参与者库中选择交通参与者,并更新参与者位置,以构成具有占用格式的 4D 驾驶环境。接下来,视觉场景合成调节自车周围的占用数据,准确捕捉遮挡关系和细粒度语义信息,以生成高保真多视图视频。最后,闭环反馈机制实现动态、响应调整,其中自主代理不断接收更新的视觉数据并生成修改模拟环境的控制信号,为算法测试和改进提供全面的平台。

Dynamic Environment Composition

以前的驾驶模拟方法经常忽略建筑物、障碍物和植被等静态和多样化元素。虽然这些元素不是直接的交通参与者,但它们是自动驾驶系统感知输入的一部分,影响最终的驾驶决策。例如,建筑物等静态物体可能会阻挡传感器的视线,导致其他车辆或行人的遮挡。障碍物或植被会给自动驾驶系统带来传感器伪影或误报。这两种情况都可能导致错误的决策,例如不必要的刹车或车道变换。为了解决这个问题,我们提出了一种动态环境组合来构建一个配备复杂数字资产的综合自动驾驶驾驶世界。

4D驾驶世界表达:我们的4D驾驶世界表示包括三个关键数字资产,分别是:静态背景场景、动态前景参与者以及这些参与者的空间位置。我们采用来表达。其中,是多个区域静态场景的复合体。每个是第个静态背景场景,捕捉区域内的空间布局和静态元素。是第个参与者,例如车辆和行人,由 3D 坐标和语义标签定义。

静态场景生成:一种生成静态3D场景的直接方法是直接使用现有数据集中的真值占用数据,例如 nuScenes中的波士顿地区。然而,这种方法仅限于数据收集期间捕获的特定区域,限制了其对其他城市地区的适用性。为了解决这一限制,我们提出了一个占用扩散模型 OccDreamer,该模型以 BEV 地图和文本描述为条件,能够为任何所需的城市区域生成静态场景。OccDreamer 的框架集成了以下组件,如下图所示。

首先,为了高效地训练扩散模型,同时解决处理 3D 数据的计算复杂性,我们采用 VQVAE 作为占用标记器,将映射到潜在特征。重建的场景被定义为使用组合损失进行训练。

其次,考虑到不同的道路结构和复杂的区域地形,我们提出了一个可控的区域占用生成模块。它接受捕捉道路结构的区域 BEV 地图和描述抽象特征的语言提示(如植被丰富的郊区或两侧有建筑物的商业区)作为输入,并输出区域占用。遵循扩散模型的原理,CLIP 编码器将文本提示转换为embedding,记作。然后,通过交叉注意机制注入到降噪器中。同时,通过预训练图像 VAE处理 BEV图以提取相应的道路embedding,记作,作为 ControlNet 分支的输入。这可以精确控制潜在空间中的扩散学习过程:

第三,为了实现整个 3D 场景的空间一致性,我们提出了一种场景扩展机制,用于构建连贯的城市级静态场景,其核心思路是扩展一个初始化的区域到相邻的区域通过使用这些区域之间的重叠作为条件约束。为了生成,我们首先创建一个部分掩码的场景。然后采用扩散过程生成邻近区域和部分掩码场景。整个扩散过程可以用采用下式进行表示。

获得潜在表示后,我们使用占用 VAE 解码器对其进行解码,得到扩展区域,然后通过合并操作将两个区域组合成更大的场景

动态参与者选择:为了补充静态场景,我们在 4D 驾驶世界中填充了动态参与者,从而创建了逼真的交通流。我们构建了一个参与者库,根据与用户通过 CLIP 提供的描述的语义相似性来选择参与者,如果未指定,则从相关类别中随机抽样,以确保上下文多样性。这种灵活的选择过程允许在 4D 驾驶世界中动态地集成相关和多样化的参与者,支持现实和适应性强的交通模拟。

4D 世界构成:通过计算静态背景、动态前景参与者及其位置,我们将它们整合到综合 4D 驾驶世界中。任意时间 t 的世界状态由以下公式表示:

Visual Scene Synthesis

先前的生成模型倾向于采用 2D 视觉条件,无法准确捕捉现实世界驾驶场景中固有的几何和语义复杂性。因此,我们的视觉场景合成采用了 VideoDreamer,将上一步构建的占用驱动的 4D 驾驶世界转换为高保真视觉结果。整体框架如下图所示。

具体来说,我们引入了一种双路径条件编码策略,该策略专注于将占用数据编码为其主要条件。我们通过开发一种 ID 感知的参与者编码方法,进一步增强了视图和帧之间外观的一致性。最后,我们集成了 OpenSora 的时空扩散变换器 (ST-DiT) 作为基础技术,以确保视觉一致性并生成无伪影的帧。

双路径条件编码。我们设计了一种双路径条件编码策略,旨在有效地捕获占用数据。给定一组跨越从0到T帧的驾驶世界数据,我们首先将它们编码为全局特征,捕捉场景内的综合几何信息和时空关系。其中,是来自占用VAE 的训练好的 4D 编码器,负责捕捉场景的全局几何形状。这确保了场景的整体结构和空间布局得到准确呈现。同时,对于第帧的数据,3D占用数据根据每个视角相机的内参和外参映射到2D的语义图上,其转换公式如下

具备ID意识的参与者编码。为了确保场景中每个参与者的外观和ID信息的一致性,我们提取了一个融合序列嵌入如下

每一个参与者的embedding可以按照如下的公式进行定义

ControlNet-DiT:为了增强生成视频的视觉保真度和时间一致性,我们将 STDiT集成为我们的去噪器,利用堆叠有视图感知空间自注意力 (VSSA)、时间自注意力、交叉注意力和 FFN 的 ST-DiT 块。这种方法可确保对空间和时间连贯性的细粒度控制,从而生成无伪影的帧,满足自动驾驶模拟的高保真度要求。

Agent Interplay and Closed-Loop Simulation

我们实现了 DrivingSphere 模拟环境中自动驾驶代理的无缝协调,将代理分为两种主要类型:自车代理和环境代理。

自车代理:自车代理代表正在评估的自动驾驶系统。它由端到端模型驱动,接收视觉输入帧并每次输出预测的控制信号

环境代理:环境代理负责控制模拟世界中所有其他参与者的行为和动作。为了实现真实的信息交换,我们使用支持多代理模拟的流量引擎。环境代理从模拟状态接收输入并输出控制信号,指示环境中参与者的移动和相互作用。整个过程可以描述如下

实验结果&评价指标

我们首先根据真实的 nuScenes 数据评估 OccDreamer 中基于体素的场景和 VideoDreamer 中的视频序列的保真度,以评估领域差距。

我们进行定量和定性分析,以评估 OccDreamer 生成的占用数据的保真度。我们的方法在定量上优于现有方法,如下表所示。

下图更加直观的展现了我们的方法在保持连贯性和保真度方面表现出了显著的优越性,远远优于其他方法。这一成功主要归功于几何感知占用编码和实例编码,它们确保了外观一致性,凸显了 VideoDreamer 在创建视觉一致、详细的驾驶环境以捕捉真实场景动态方面的稳健性。

开环实验结果

在开环设置中,自动驾驶代理被动接收环境输入而不影响模拟动态,我们评估了 UniAD 在 DrivingSphere 和其他仿真器上的性能,如下表所示。

相关的实验结果展示了自动驾驶代理在 DrivingSphere 上取得的优异 PDMS分数,表明其更高的视觉保真度减少了可能误导代理决策的感知不准确性。这一改进凸显了 DrivingSphere 适用于在紧密模拟真实世界条件的环境中测试自动驾驶系统。

闭环实验结果

在闭环评估中,自动驾驶代理接收视觉输入和输出控制信号,从而以交互方式塑造模拟。此评估设置涉及 100 条预定义轨迹,用于在受控但多样的场景中进行测试。相关实验结果如下表所示,UniAD的路线完成度 (RC) 得分相对较低,平均每条路线的完成度仅为 11.7%。与 DriveArena相比,我们的模拟始终能获得更好的性能指标,并且还表现出卓越的视觉保真度。

结论

在本文中,我们提出了DrivingSphere,一个生成式闭环模拟框架,它弥补了传统闭环模拟和开环生成模型之间的差距。通过先进的基于占用的建模和可控的生成机制,DrivingSphere 为自动驾驶创建了逼真的高保真模拟。我们的实验展示了卓越的视觉质量、时间一致性以及在动态环境中有效测试自动驾驶算法的能力。


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章