七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

科技 2025-01-08 12:13 北京

写在前面 && 笔者理解

自动驾驶模拟器在开发和验证驾驶系统中扮演着至关重要的角色，对于测试复杂行为、理解交互动态和确保对潜在故障的鲁棒性起着非常重要的作用，这可以帮助实现更加安全和可靠的自动驾驶系统。然而，现有的自动驾驶场景演化方法通常是专项的，例如地图生成、运动预测或轨迹规划。考虑到这些方法通常只关注一个特定的任务，目前还没有一个统一的框架将这些方面整合到一个整体模型中进行整体模拟。作者提出了一个统一的生成预训练驾驶（GPD-1）模型来统一这些元素。他们将地图、智能体和自我车辆编码为一组统一的token标记，使其能够将场景演化表述为场景标记的生成预测。

论文链接：https://arxiv.org/pdf/2412.08643
项目链接：https://wzzheng.net/GPD/

作者采用了自回归transformer架构，并使用场景级注意力掩码，以实现场景内双向交互，允许模型有效地捕获自我、智能体和地图标记之间的依赖关系。对于自我和智能体标记，作者提出了一个分层位置标记器，有效地编码BEV位置和航向。位置标记器将连续的智能体位置转换为离散标记，显著减少了特征空间中的噪声。对于地图标记，作者利用向量量化自编码器（VQ-VAE）将自我中心的语义地图压缩成离散标记。通过将地图信息表示为离散标记，消除了预测连续地图坐标的复杂性，简化了学习过程并增强了泛化能力。

为了展示作者的GPD-1模型的有效性，作者进行了一系列的挑战性实验，跨越了多种任务。如图1所示，作者的模型无需任何微调，就能够执行场景生成、交通模拟、闭环模拟和运动规划。再通过进一步的微调，GPD-1可以在下游任务上实现最先进的性能，特别是在nuPlan基准的运动规划任务上。

方法论

2D地图场景标记器

自动驾驶的一个关键方面是准确和高效地捕获环境的空间信息。为了实现这一点，作者采用了2D地图场景标记器，将复杂的基于向量的地图表示转换为离散标记，这些标记可以在生成框架内有效建模。这个标记器旨在将连续的空间特征简化为结构化、离散的格式，使作者的模型能够将地图信息与智能体和自我标记无缝结合。

地图向量光栅化。地图数据由线条的向量表示组成，每个线条由多个点定义。直接编码这些向量存在挑战，因为向量格式内缺乏空间关系。为了解决这个问题，作者将地图向量光栅化到以自我车辆为中心的2D画布上，并且只表示立即可见的区域。这个光栅化的地图被表示为二进制图像，其中插值的线段和背景区域被标记为1和0。

特征提取和量化。为了高效表示地图数据，作者使用向量量化自编码器（VQ-VAE）将连续的地图特征转换为离散标记。光栅化的地图首先通过ResNet-50编码成紧凑的特征，其中，是下采样因子，是特征维度。对于量化，作者引入了一个码本，包含个离散代码，每个代码捕获场景的高级特征。每个地图特征在中通过映射到中最近的代码进行量化：

这里，表示L2范数。这里，表示量化函数，将连续的潜在向量映射到码本中的最近邻居，结果就是离散表示。这些标记提供了地图信息的紧凑和一致的表示，并在降低模型复杂性的同时编码空间结构。

使用离散查询重建。作者遵循DETR解码方法定义在SLEDGE中，将量化的地图标记解码成SLEDGE中概述的向量车道表示。为了对齐生成的和真实的地图线条，作者还采用匈牙利算法进行匹配，并使用与SLEDGE相同的监督损失设置，以确保准确的地图重建。地图标记器将基于向量的地图转换为紧凑的离散空间，编码关键的空间关系。这种表示促进了生成框架内动态场景元素的建模。

智能体标记器

在自动驾驶模拟中，准确表示场景中的动态智能体对于现实和连贯的场景生成至关重要。为了高效编码智能体数据，作者引入了一个分层位置标记器来捕获空间（2D位置）和角度（航向）信息。这个标记器使模型能够在减少特征空间的同时表示复杂的智能体动态。

多级量化。每个智能体坐标，表示为一般变量（例如，，或航向），在个层次化的级别上进行多级量化，由一组阈值表示，其中每个表示特定的粒度规模。对于第一级，量化值计算为：

对于级别，量化是在考虑前一级之后的残差上执行的：

这种迭代量化确保每个级别都能逐渐捕获更精细的细节，专注于前一级未捕获的残差。结果是一组个量化值，每个值在不同精度级别上表示坐标。

位置嵌入。量化后，作者为每个量化级别并入一个固定的正弦位置嵌入，捕获其在特征空间中的相对位置。这种正弦编码基于Transformers中引入的经典位置编码，它提供了空间上下文并保持离散嵌入空间内的位置关系。每个量化级别的嵌入定义为：

其中是对应于量化值的嵌入。最后，所有量化级别的位置嵌入被连接形成每个坐标的最终位置编码向量：

其中表示连接。这导致了一个全面的、多层次的智能体坐标的表示，捕获了细微和粗略的空间细节。这种分层标记过程统一应用于、和航向值，为每个智能体提供了一种一致的方法来编码空间和角度信息。合并的嵌入然后通过MLP连接并映射到指定的模型维度。对于在可见区域之外的智能体，作者应用一组统一的可学习参数，允许模型自主学习未见智能体的表示。如图2所示的智能体标记器将智能体位置和航向转换为离散嵌入，实现了空间和角度关系的有结构表示。这种标记化减少了位置噪声，并在特征空间引入了一致性，提高了学习和预测智能体动态的能力。

场景建模的生成Transformer

在自动驾驶中，对整个场景的演化进行建模对于预测智能体之间的动态交互和理解未来结果至关重要。作者采用了自回归Transformer架构来处理场景建模，灵感来自GPT的顺序生成框架。作者的方法结合了场景级注意力掩码，允许每个帧内标记之间的双向交互，允许全面理解空间和时间关系，如图3所示。

每个场景，对应于单个帧，由固定数量的地图标记和智能体标记组成。地图标记来自2D地图场景标记器，作为通过VQ-VAE获得的离散潜在表示，它们的数量由潜在空间的维度决定。智能体标记由智能体标记器产生，代表场景中的各个智能体，每个帧分配固定数量。

空间和时间嵌入。为了向模型提供有关空间布局和时间进展的结构化信息，作者添加了可学习的空间和时间嵌入。空间嵌入将每个标记与其作为地图或智能体标记的角色相关联，确保模型理解场景中每个元素的不同功能。时间嵌入编码了帧之间的序列顺序，捕获了事件随时间的进展。这些嵌入允许模型保持一致的结构，其中每个帧由固定排列的地图和智能体标记组成，有助于理解跨帧的空间关系和时间依赖性。

场景级注意力掩码。注意力机制使用场景级注意力掩码，控制帧内和跨标记之间的交互。掩码的尺寸为，其中是最大时间步数，代表每个帧中的智能体和地图标记的总数。最初，掩码被设置为上三角矩阵，以防止标记关注未来的帧，强制执行自回归结构。此外，对于每个时间步，掩码被调整以允许同一帧内的标记之间的全面交互，定义为：

这种配置允许在同一时间步内地图和智能体标记之间的帧内空间交互，同时阻止来自未来帧的信息流。

自回归建模。按照GPT的架构，作者的transformer解码器以自回归方式处理每个场景，预测场景标记随时间的演变。在每个时间步，解码器接收空间和时间嵌入的场景标记，用场景级注意力掩码处理它们，并预测下一组标记。这可以被表述为：

其中表示从0到的标记集合，而是场景级注意力掩码。这学习了帧内标记之间的空间关系以及跨帧的时间依赖性，这对于生成现实和动态的驾驶场景至关重要。生成Transformer利用结构化的地图和智能体标记组合，通过空间和时间嵌入增强，来预测场景演化。场景级注意力掩码使得每个帧内细微的交互成为可能，增强了学习连贯的空间关系和时间进展的能力，使其非常适合自动驾驶场景。

GPD-1：生成预训练驾驶

作者的生成预训练驾驶（GPD-1）模型使用两阶段训练过程来构建自动驾驶模拟和规划任务的坚实基础。作者首先训练地图VQ-VAE潜在标记器，采用L1误差用于地图线位置和二元交叉熵（BCE）来评估地图线可见性，如SLEDGE中定义。此外，为了提高码本的稳定性和精度，作者包括均方误差（MSE）损失，以鼓励准确的量化。这一阶段创建了一个高保真度的地图潜在空间，准确编码空间结构，为场景生成奠定了坚实的基础。

在第二阶段，训练好的地图标记器被冻结，并用于提取每帧的地图潜在表示，这些表示作为进一步训练的输入和真实情况。交叉熵（CE）损失用于匹配生成的标记与它们正确的码本条目，确保准确的地图重建。作者将自我和智能体标记同等对待，使用平滑L1损失来计算位置误差，以及BCE损失用于二元分类存在性。这种结构化训练使模型能够捕获空间和时间场景动态，实现跨多样化场景的一致场景建模。

场景生成：GPD-1通过初始化场景设置并预测智能体、自我车辆和地图特征的空间和时间演变来自动生成完整场景。这项任务对于从最小的初始输入创建多样化的驾驶场景至关重要。

交通模拟：通过用真实的地图和初始智能体状态初始化模型，GPD-1准确预测交通如何在帧间演化。这种模拟能力对于在动态环境中评估和训练自动驾驶模型至关重要，其中理解交通流动是基础。

闭环模拟：给定真实的地图和自我轨迹，模型可以动态适应智能体行为以响应自我车辆的移动。这种设置与nuPlan挑战赛的闭环交互设置紧密对齐，其中智能体对自我行为的反应是通过模型而不是传统的基于规则的算法生成的。

运动规划：GPD-1支持自我轨迹规划，根据给定的智能体和地图信息生成路线。这种规划能力与实际自动驾驶需求紧密对齐，提供了一种数据驱动的替代传统规划方法。

条件生成：GPD-1还可以处理条件生成，允许用户定义特定条件，如初始智能体轨迹、智能体数量或基于向量的地图特征。有了这些约束，GPD-1可以自动生成兼容的场景演变，实现针对特定场景的驾驶条件的模拟，以实现细粒度控制。

微调后的性能提升。在专门的数据集或特定任务场景上进行微调，可以进一步提升GPD-1在特定任务上的性能，特别是在复杂的规划任务中。微调使GPD-1能够生成延长、精确的轨迹，满足nuPlan规划挑战赛等挑战的严格标准，其中闭环和开环性能对于准确的轨迹预测至关重要。

生成预训练为GPD-1提供了灵活、稳健的结构，适应自动驾驶中的广泛任务。从场景生成到细致的条件模拟，GPD-1作为现实、响应性强的驾驶模拟和轨迹规划的全面解决方案，满足自动驾驶研究和开发的基本需求。

实验及结论

作者在nuPlan数据集上进行了广泛的实验。nuPlan是一个大规模闭环规划基准测试。使用官方评估指标来评估作者GPD-1的规划性能，包括开环得分（OLS）、非反应性闭环得分（NR-CLS）和反应性闭环得分（R-CLS）。R-CLS和NR-CLS使用相同的计算方法。R-CLS在模拟期间包括使用智能驾驶模型（IDM）进行背景交通控制。闭环得分是一个从0到100的复合得分，它考虑了遵守交通规则、人类驾驶相似性、车辆动力学、目标达成以及其他特定于场景的指标。

主要结果

为了展示GPD-1的通用性，作者在没有任何微调的情况下将其用于多个下游任务。如表1所示，作者展示了模型在各种设置下的性能。在这些实验中，作者提供了固定的2秒地图和智能体数据作为初始信息，并使用不同的提示设置。总体而言，自回归模型在迭代次数较少时表现最佳。例如，预测未来5秒只需要50次迭代，并能产生强大的结果。然而，随着迭代次数的增加，累积误差以大约二次方的速率增长。

结果与分析

nuPlan运动规划挑战赛。作者的模型的多功能表示使其能够无缝应用于各种下游任务，即使是最小的微调也可以大大提升其在特定任务上的性能。如表2所示，作者仅添加了一个解码器层来解码自我标记，以满足nuPlan挑战的要求。不依赖复杂的数据增强或后处理技术，作者的模型就实现了与PlanTF相当的性能，甚至在某些指标上超过了它。

地图预测。在地图预测实验中，作者在两种设置下评估了模型：1）提供智能体和自我车辆的真实地图来生成地图 2）仅提供自我的真实地图，并使所有其他智能体对模型不可见以生成地图。这个实验验证了条件生成能力。如表3所示，当仅提供自我作为输入时，地图预测质量显著提高。这是因为地图以当前自我车辆为中心，使其与自我的状态高度相关。

量化的影响。表4展示了量化智能体状态对自我车辆和智能体每帧性能的影响。作者可以看到，量化的离散智能体信息与离散地图共同降低了特征空间的学习复杂性。

可视化。图4显示了在复杂场景下场景生成设置下的性能。结果表明，即使在非常复杂的道路条件下，地图也能平滑生成。在两个转弯场景中，自我车辆和智能体都遵循自然轨迹，以相对稳定的速度行驶。同样，在两个直行驾驶场景中，模型有效地捕获了周围智能体的行为（例如，转弯、驾驶和减速），同时保持稳定的前进速度。

图5展示了在更复杂的交叉转弯场景下不同设置下的性能。地图生成的质量显著令人满意，对于智能体和自我车辆，除了明确使用真实数据的情况外，所有任务的性能都与真实情况非常匹配。这种一致性突出了作者模型的鲁棒性。

结论

在本文中，作者介绍了自动驾驶的生成预训练（GPD-1），它模型化了自我移动、周围智能体和场景元素的联合演化。作者采用了分层智能体标记器和向量量化地图标记器来捕获高级空间和时间信息，而自回归Transformer与场景级注意力预测多个驾驶任务中的未来场景。结果表明，GPD-1有效地推广到多样化的任务，如场景生成、交通模拟和运动规划，无需额外的微调。作者认为GPD-1代表了朝向完全集成的、可解释的自动驾驶框架的基础步骤。

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

全球首个ChatGPT爆炸案！AI教特种兵造炸弹，特朗普酒店遭自杀袭击

arXiv每日学术速递2025.1.9

NeurIPS 2024 | 基于拓扑同构的分布外鲁棒性: 重建与匹配

AAAI25 | 从稀疏聚合视角重新审视联邦推荐中的拜占庭鲁棒性

【附复现代码】基于PINN的论文创新思路

arXiv每日学术速递2025.1.8

七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

小乐数学科普：计算机科学家如何重新构想数学证明——《量子杂志》每周数学随笔

CES 2025：AMD锐龙9000新品亮相，游戏、创作力表现超Intel旗舰

arXiv每日学术速递2025.1.7

解放人工标注！理想多模态框架UniPLV：开放3D场景理解新SOTA~

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【IEEE官方会议征稿】2025年IEEE第七届软件工程和计算机科学国际会议(CSECS 2025)

arXiv每日学术速递2025.1.6

专题解读｜大语言模型在图学习中的中段信息丢失现象

陶哲轩自述被拒稿是常事，「大牛名字」不是通行证！

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

抑郁6个月后，DeepMind两万引科学家离世，万字绝笔谈在AI行业工作的压力

arXiv每日学术速递2025.1.3

从0到1构建RLHF系统——小红书大模型团队的探索与实践

即插即用，轻松涨点！把大牛的模块缝合到自己的paper里

世界模型再进化！DrivingWorld：通过视频GPT构建自动驾驶世界模型（港科技&地平线）

五战蛋白质结构预测风向标CASP，南开大学郑伟：竞争性与难度提升，关注实际生物问题

奇点临近！美国47%工作岗位将被ASI卷走，大佬急发「逃生攻略」

从核心零部件到人形本体 2025年这几家机器人代表企业值得重点关注

苹果布局人形机器人：“自我为中心”感知系统动态避障，比英伟达cuRobo计算效率提升26倍

arXiv每日学术速递2024.12.31

专题解读 | 自适应与拓扑感知：联邦图机器学习的新视角

更真实的协同感知！EI-Drive：协同感知和融合通信特征的智驾平台

稚晖君开源百万机器人真机数据集

arXiv每日学术速递2024.12.30

大模型轻量化系列解读 (三)：LLM-QAT：无需数据的 LLM 量化感知训练

期刊副主编网上挂中国学者贿赂邮件！结局却疑似神反转！

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

横扫2024各大顶会，用Mamba发Paper真的很轻松！

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

EMNLP2024 | 示例越多性能反而越差？大模型注意力分散是关键

Karpathy力荐博客：写代码的时候，请心疼一下读代码的同事

arXiv每日学术速递2024.12.25

NeurIPS 2024 | 用高斯邻域最小化提升视觉提示词微调在长尾视觉识别上的性能

MambaDETR: 基于查询的时间建模，使用状态空间模型进行多视图 3D 对象检测 !

arXiv每日学术速递2024.12.25

我发现了找顶会创新点的最强公式，真的不需要脑子

了解世界还是预测未来？一场关于自动驾驶世界模型的祛魅（清华最新综述）！

小乐数学科普：陶哲轩长文阐述机器辅助证明——译自美国数学会通讯AMS Notice 202501

唤醒企业沉睡的知识，元脑企智EPAI三步高效创建大模型RAG

arXiv每日学术速递2024.12.24

专题解读 | 图增强大语言模型研究进展

MSRA | 2025年六大AI趋势展望

EMNLP顶会最佳论文解读！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

七大任务SOTA！北大&清华GPD-1：专为智驾设计的生成式预训练

相关工作

离散标记在自动驾驶中的应用

数据驱动的自动驾驶模拟技术

方法论

2D地图场景标记器

智能体标记器

场景建模的生成Transformer

GPD-1：生成预训练驾驶

实验及结论

主要结果

结果与分析

结论