写在前面 && 笔者理解
自动驾驶模拟器在开发和验证驾驶系统中扮演着至关重要的角色,对于测试复杂行为、理解交互动态和确保对潜在故障的鲁棒性起着非常重要的作用,这可以帮助实现更加安全和可靠的自动驾驶系统。然而,现有的自动驾驶场景演化方法通常是专项的,例如地图生成、运动预测或轨迹规划。考虑到这些方法通常只关注一个特定的任务,目前还没有一个统一的框架将这些方面整合到一个整体模型中进行整体模拟。作者提出了一个统一的生成预训练驾驶(GPD-1)模型来统一这些元素。他们将地图、智能体和自我车辆编码为一组统一的token标记,使其能够将场景演化表述为场景标记的生成预测。
论文链接:https://arxiv.org/pdf/2412.08643 项目链接:https://wzzheng.net/GPD/
作者采用了自回归transformer架构,并使用场景级注意力掩码,以实现场景内双向交互,允许模型有效地捕获自我、智能体和地图标记之间的依赖关系。对于自我和智能体标记,作者提出了一个分层位置标记器,有效地编码BEV位置和航向。位置标记器将连续的智能体位置转换为离散标记,显著减少了特征空间中的噪声。对于地图标记,作者利用向量量化自编码器(VQ-VAE)将自我中心的语义地图压缩成离散标记。通过将地图信息表示为离散标记,消除了预测连续地图坐标的复杂性,简化了学习过程并增强了泛化能力。
为了展示作者的GPD-1模型的有效性,作者进行了一系列的挑战性实验,跨越了多种任务。如图1所示,作者的模型无需任何微调,就能够执行场景生成、交通模拟、闭环模拟和运动规划。再通过进一步的微调,GPD-1可以在下游任务上实现最先进的性能,特别是在nuPlan基准的运动规划任务上。
相关工作
离散标记在自动驾驶中的应用
对于自动驾驶而言,将复杂的空间布局以高效和可解释的方式捕获变得越来越流行。VQ-VAE引入了一个码本机制,构建了一个在离散潜在空间中的编码器-解码器架构,使得高维数据的更丰富、更紧凑的表示成为可能。VQ-VAE-2通过层次量化代码和自回归先验进一步增强了这一框架。沿着这个方向,像VQ-GAN、DALL-E和VQDiffusion这样的模型将输入映射到与码本条目对应的离散标记,允许简化但富有表现力的表示。最近在许多视觉预训练中的工作采用了类似的标记策略,使用标记来表示图像块,并预测掩蔽标记作为智能体任务,以增强模型的鲁棒性和多功能性。为了表示地图元素,最近关于地图重建和端到端驾驶的方法将每个地图元素编码成向量表示以进行建模,这忽略了场景级结构。作者将标记应用到基于BEV的自动驾驶场景中,并将地图特征编码成离散标记。作者的方法通过最小化空间噪声并为地图和智能体信息提供统一的结构,解决了BEV建模中的常见问题,如计算效率低下和表示不一致。
数据驱动的自动驾驶模拟技术
传统的模拟技术通常涉及重放记录的驾驶数据以模拟各种驾驶条件。例如,像nuPlan这样的传统模拟器严重依赖于广泛的驾驶日志来覆盖多样化的场景。然而,这些模拟需要大量的存储容量,使得它们资源密集且难以更广泛地获取。此外,这些基于模型的模拟器需要复杂的基于规则的模块来进行场景生成、智能体行为和渲染。为此,提出了数据驱动的模拟方法,用于传感器渲染、道路网络生成和智能体行为预测。例如,SLEDGE利用生成模型来模拟场景,使用紧凑的矢量化数据,实现了高效的存储使用,同时不影响场景多样性或复杂性。虽然有效,但它们缺乏在动态建模智能体与周围地图之间交互的适应性,限制了它们在反应性任务中的应用。不同地,作者的框架旨在通过整合一个能够进行场景演化的生成模型来弥补这一差距,从而允许交互式和灵活的场景生成,支持各种下游任务。
方法论
2D地图场景标记器
自动驾驶的一个关键方面是准确和高效地捕获环境的空间信息。为了实现这一点,作者采用了2D地图场景标记器,将复杂的基于向量的地图表示转换为离散标记,这些标记可以在生成框架内有效建模。这个标记器旨在将连续的空间特征简化为结构化、离散的格式,使作者的模型能够将地图信息与智能体和自我标记无缝结合。
地图向量光栅化。地图数据由线条的向量表示组成,每个线条由多个点定义。直接编码这些向量存在挑战,因为向量格式内缺乏空间关系。为了解决这个问题,作者将地图向量光栅化到以自我车辆为中心的2D画布上,并且只表示立即可见的区域。这个光栅化的地图被表示为二进制图像,其中插值的线段和背景区域被标记为1和0。
特征提取和量化。为了高效表示地图数据,作者使用向量量化自编码器(VQ-VAE)将连续的地图特征转换为离散标记。光栅化的地图首先通过ResNet-50编码成紧凑的特征,其中,是下采样因子,是特征维度。对于量化,作者引入了一个码本,包含个离散代码,每个代码捕获场景的高级特征。每个地图特征在中通过映射到中最近的代码进行量化:
这里,表示L2范数。这里,表示量化函数,将连续的潜在向量映射到码本中的最近邻居,结果就是离散表示。这些标记提供了地图信息的紧凑和一致的表示,并在降低模型复杂性的同时编码空间结构。
使用离散查询重建。作者遵循DETR解码方法定义在SLEDGE中,将量化的地图标记解码成SLEDGE中概述的向量车道表示。为了对齐生成的和真实的地图线条,作者还采用匈牙利算法进行匹配,并使用与SLEDGE相同的监督损失设置,以确保准确的地图重建。地图标记器将基于向量的地图转换为紧凑的离散空间,编码关键的空间关系。这种表示促进了生成框架内动态场景元素的建模。
智能体标记器
在自动驾驶模拟中,准确表示场景中的动态智能体对于现实和连贯的场景生成至关重要。为了高效编码智能体数据,作者引入了一个分层位置标记器来捕获空间(2D位置)和角度(航向)信息。这个标记器使模型能够在减少特征空间的同时表示复杂的智能体动态。
多级量化。每个智能体坐标,表示为一般变量(例如,,或航向),在个层次化的级别上进行多级量化,由一组阈值表示,其中每个表示特定的粒度规模。对于第一级,量化值计算为:
对于级别,量化是在考虑前一级之后的残差上执行的:
这种迭代量化确保每个级别都能逐渐捕获更精细的细节,专注于前一级未捕获的残差。结果是一组个量化值,每个值在不同精度级别上表示坐标。
位置嵌入。量化后,作者为每个量化级别并入一个固定的正弦位置嵌入,捕获其在特征空间中的相对位置。这种正弦编码基于Transformers中引入的经典位置编码,它提供了空间上下文并保持离散嵌入空间内的位置关系。每个量化级别的嵌入定义为:
其中是对应于量化值的嵌入。最后,所有量化级别的位置嵌入被连接形成每个坐标的最终位置编码向量:
其中表示连接。这导致了一个全面的、多层次的智能体坐标的表示,捕获了细微和粗略的空间细节。这种分层标记过程统一应用于、和航向值,为每个智能体提供了一种一致的方法来编码空间和角度信息。合并的嵌入然后通过MLP连接并映射到指定的模型维度。对于在可见区域之外的智能体,作者应用一组统一的可学习参数,允许模型自主学习未见智能体的表示。如图2所示的智能体标记器将智能体位置和航向转换为离散嵌入,实现了空间和角度关系的有结构表示。这种标记化减少了位置噪声,并在特征空间引入了一致性,提高了学习和预测智能体动态的能力。
场景建模的生成Transformer
在自动驾驶中,对整个场景的演化进行建模对于预测智能体之间的动态交互和理解未来结果至关重要。作者采用了自回归Transformer架构来处理场景建模,灵感来自GPT的顺序生成框架。作者的方法结合了场景级注意力掩码,允许每个帧内标记之间的双向交互,允许全面理解空间和时间关系,如图3所示。
每个场景,对应于单个帧,由固定数量的地图标记和智能体标记组成。地图标记来自2D地图场景标记器,作为通过VQ-VAE获得的离散潜在表示,它们的数量由潜在空间的维度决定。智能体标记由智能体标记器产生,代表场景中的各个智能体,每个帧分配固定数量。
空间和时间嵌入。为了向模型提供有关空间布局和时间进展的结构化信息,作者添加了可学习的空间和时间嵌入。空间嵌入将每个标记与其作为地图或智能体标记的角色相关联,确保模型理解场景中每个元素的不同功能。时间嵌入编码了帧之间的序列顺序,捕获了事件随时间的进展。这些嵌入允许模型保持一致的结构,其中每个帧由固定排列的地图和智能体标记组成,有助于理解跨帧的空间关系和时间依赖性。
场景级注意力掩码。注意力机制使用场景级注意力掩码,控制帧内和跨标记之间的交互。掩码的尺寸为,其中是最大时间步数,代表每个帧中的智能体和地图标记的总数。最初,掩码被设置为上三角矩阵,以防止标记关注未来的帧,强制执行自回归结构。此外,对于每个时间步,掩码被调整以允许同一帧内的标记之间的全面交互,定义为:
这种配置允许在同一时间步内地图和智能体标记之间的帧内空间交互,同时阻止来自未来帧的信息流。
自回归建模。按照GPT的架构,作者的transformer解码器以自回归方式处理每个场景,预测场景标记随时间的演变。在每个时间步,解码器接收空间和时间嵌入的场景标记,用场景级注意力掩码处理它们,并预测下一组标记。这可以被表述为:
其中表示从0到的标记集合,而是场景级注意力掩码。这学习了帧内标记之间的空间关系以及跨帧的时间依赖性,这对于生成现实和动态的驾驶场景至关重要。生成Transformer利用结构化的地图和智能体标记组合,通过空间和时间嵌入增强,来预测场景演化。场景级注意力掩码使得每个帧内细微的交互成为可能,增强了学习连贯的空间关系和时间进展的能力,使其非常适合自动驾驶场景。
GPD-1:生成预训练驾驶
作者的生成预训练驾驶(GPD-1)模型使用两阶段训练过程来构建自动驾驶模拟和规划任务的坚实基础。作者首先训练地图VQ-VAE潜在标记器,采用L1误差用于地图线位置和二元交叉熵(BCE)来评估地图线可见性,如SLEDGE中定义。此外,为了提高码本的稳定性和精度,作者包括均方误差(MSE)损失,以鼓励准确的量化。这一阶段创建了一个高保真度的地图潜在空间,准确编码空间结构,为场景生成奠定了坚实的基础。
在第二阶段,训练好的地图标记器被冻结,并用于提取每帧的地图潜在表示,这些表示作为进一步训练的输入和真实情况。交叉熵(CE)损失用于匹配生成的标记与它们正确的码本条目,确保准确的地图重建。作者将自我和智能体标记同等对待,使用平滑L1损失来计算位置误差,以及BCE损失用于二元分类存在性。这种结构化训练使模型能够捕获空间和时间场景动态,实现跨多样化场景的一致场景建模。
场景生成:GPD-1通过初始化场景设置并预测智能体、自我车辆和地图特征的空间和时间演变来自动生成完整场景。这项任务对于从最小的初始输入创建多样化的驾驶场景至关重要。
交通模拟:通过用真实的地图和初始智能体状态初始化模型,GPD-1准确预测交通如何在帧间演化。这种模拟能力对于在动态环境中评估和训练自动驾驶模型至关重要,其中理解交通流动是基础。
闭环模拟:给定真实的地图和自我轨迹,模型可以动态适应智能体行为以响应自我车辆的移动。这种设置与nuPlan挑战赛的闭环交互设置紧密对齐,其中智能体对自我行为的反应是通过模型而不是传统的基于规则的算法生成的。
运动规划:GPD-1支持自我轨迹规划,根据给定的智能体和地图信息生成路线。这种规划能力与实际自动驾驶需求紧密对齐,提供了一种数据驱动的替代传统规划方法。
条件生成:GPD-1还可以处理条件生成,允许用户定义特定条件,如初始智能体轨迹、智能体数量或基于向量的地图特征。有了这些约束,GPD-1可以自动生成兼容的场景演变,实现针对特定场景的驾驶条件的模拟,以实现细粒度控制。
微调后的性能提升。在专门的数据集或特定任务场景上进行微调,可以进一步提升GPD-1在特定任务上的性能,特别是在复杂的规划任务中。微调使GPD-1能够生成延长、精确的轨迹,满足nuPlan规划挑战赛等挑战的严格标准,其中闭环和开环性能对于准确的轨迹预测至关重要。
生成预训练为GPD-1提供了灵活、稳健的结构,适应自动驾驶中的广泛任务。从场景生成到细致的条件模拟,GPD-1作为现实、响应性强的驾驶模拟和轨迹规划的全面解决方案,满足自动驾驶研究和开发的基本需求。
实验及结论
作者在nuPlan数据集上进行了广泛的实验。nuPlan是一个大规模闭环规划基准测试。使用官方评估指标来评估作者GPD-1的规划性能,包括开环得分(OLS)、非反应性闭环得分(NR-CLS)和反应性闭环得分(R-CLS)。R-CLS和NR-CLS使用相同的计算方法。R-CLS在模拟期间包括使用智能驾驶模型(IDM)进行背景交通控制。闭环得分是一个从0到100的复合得分,它考虑了遵守交通规则、人类驾驶相似性、车辆动力学、目标达成以及其他特定于场景的指标。
主要结果
为了展示GPD-1的通用性,作者在没有任何微调的情况下将其用于多个下游任务。如表1所示,作者展示了模型在各种设置下的性能。在这些实验中,作者提供了固定的2秒地图和智能体数据作为初始信息,并使用不同的提示设置。总体而言,自回归模型在迭代次数较少时表现最佳。例如,预测未来5秒只需要50次迭代,并能产生强大的结果。然而,随着迭代次数的增加,累积误差以大约二次方的速率增长。
结果与分析
nuPlan运动规划挑战赛。作者的模型的多功能表示使其能够无缝应用于各种下游任务,即使是最小的微调也可以大大提升其在特定任务上的性能。如表2所示,作者仅添加了一个解码器层来解码自我标记,以满足nuPlan挑战的要求。不依赖复杂的数据增强或后处理技术,作者的模型就实现了与PlanTF相当的性能,甚至在某些指标上超过了它。
地图预测。在地图预测实验中,作者在两种设置下评估了模型:1)提供智能体和自我车辆的真实地图来生成地图 2)仅提供自我的真实地图,并使所有其他智能体对模型不可见以生成地图。这个实验验证了条件生成能力。如表3所示,当仅提供自我作为输入时,地图预测质量显著提高。这是因为地图以当前自我车辆为中心,使其与自我的状态高度相关。
量化的影响。表4展示了量化智能体状态对自我车辆和智能体每帧性能的影响。作者可以看到,量化的离散智能体信息与离散地图共同降低了特征空间的学习复杂性。
可视化。图4显示了在复杂场景下场景生成设置下的性能。结果表明,即使在非常复杂的道路条件下,地图也能平滑生成。在两个转弯场景中,自我车辆和智能体都遵循自然轨迹,以相对稳定的速度行驶。同样,在两个直行驾驶场景中,模型有效地捕获了周围智能体的行为(例如,转弯、驾驶和减速),同时保持稳定的前进速度。
图5展示了在更复杂的交叉转弯场景下不同设置下的性能。地图生成的质量显著令人满意,对于智能体和自我车辆,除了明确使用真实数据的情况外,所有任务的性能都与真实情况非常匹配。这种一致性突出了作者模型的鲁棒性。
结论
在本文中,作者介绍了自动驾驶的生成预训练(GPD-1),它模型化了自我移动、周围智能体和场景元素的联合演化。作者采用了分层智能体标记器和向量量化地图标记器来捕获高级空间和时间信息,而自回归Transformer与场景级注意力预测多个驾驶任务中的未来场景。结果表明,GPD-1有效地推广到多样化的任务,如场景生成、交通模拟和运动规划,无需额外的微调。作者认为GPD-1代表了朝向完全集成的、可解释的自动驾驶框架的基础步骤。