首个以人类行为端对端自动驾驶系统HE-DRIVE:基于扩散模型实现OpenScene轨迹规划最新SOTA

文摘   2024-10-17 06:01   上海  

Abstract

点击下方卡片,关注“自动驾驶之星
这里有一群奋斗在自动驾驶量产第一线的小伙伴等你加入

在本文中,我们提出了HE-Drive:首个以人类行为为中心的端到端自动驾驶系统,用于生成时间上一致且舒适的轨迹。最近的研究表明,基于模仿学习的规划器和基于学习的轨迹评分器可以有效地生成并选择准确的轨迹,这些轨迹能紧密模仿专家的操作。然而,这些轨迹规划器和评分器面临生成时间不一致和不舒适轨迹的困境。为解决上述问题,HE-Drive 首先通过稀疏感知提取关键的3D空间表示,然后将其作为条件输入到基于条件去噪扩散概率模型(DDPM)的运动规划器中,以生成具有时间一致性的多模态轨迹。随后,一个基于视觉语言模型(VLM)指导的轨迹评分器从这些候选轨迹中选择最舒适的轨迹来控制车辆,从而确保人类行为般的端到端驾驶。实验表明,HE-Drive不仅在挑战性的nuScenes和OpenScene数据集上实现了最先进的性能(例如,比VAD降低了71%的平均碰撞率),且效率提高了(比SparseDrive快1.9倍),同时在现实世界数据上提供了最舒适的驾驶体验。

代码地址:https://jmwang0117.github.io/HE-Drive/

Introduction

端到端范式整合了感知、规划和轨迹评分任务,并针对规划目标优化了一个统一模型,最近在推进自动驾驶技术方面展示了显著的潜力。最新的研究提出了基于模仿学习的运动规划器,该规划器从大规模驾驶演示中学习驾驶策略,并使用基于学习的轨迹评分器,从多个预测候选中选择最安全、最准确的轨迹来控制车辆。然而,尽管现有规划器和评分器在预测精度上取得了显著进步,但它们仍面临生成时间不一致的轨迹问题,这些轨迹在连续预测中不稳定且不一致,同时还选择了不舒适的轨迹,这些轨迹表现为连续刹车,导致停滞或过度转向。

在本文中,我们引入了HE-Drive,这是第一个以人类行为为中心的端到端自动驾驶系统,旨在解决上述两个问题。具体来说,我们发现模仿学习规划器生成的轨迹时间不一致性主要源于两个因素:时间相关性和泛化性。首先,这些规划器依赖于当前帧的过去几秒信息来预测未来轨迹,忽略了连续预测之间的相关性。其次,它们的性能受限于所收集的离线专家轨迹的质量,容易受到系统动态变化和分布外状态的影响,导致学习的策略在未见场景下缺乏泛化能力。

此外,导致预测轨迹不舒适的关键原因是评分器未能实现长期评价,并且缺乏普遍的轨迹舒适度衡量标准。为解决这些问题,我们提出了一种新的轨迹评分器和通用的舒适度指标,结合了基于规则的评分器的可解释性和VLM的适应性,调整驾驶风格(如激进或保守),以进行终身评估。

总之,HE-Drive 通过稀疏感知检测、跟踪和映射驾驶场景,基于稀疏特征生成3D空间表示。这些表示作为条件输入到基于扩散的运动规划器中,最后由VLM指导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆,确保人类行为般的端到端驾驶。

3.Method

在本节中,我们介绍了HE-Drive的关键组成部分(图2):稀疏感知(第3.1节)、基于扩散的运动规划器(第3.2节)以及由视觉语言模型(VLMs)指导的轨迹评分器(第3.3节)。

3.1 稀疏感知
HE-Drive首先使用视觉编码器从输入的多视角相机图像中提取多视角视觉特征,记作F。这些图像表示为,其中N是相机视角的数量,k是时间窗口的长度,表示时间步τ的多视角图像,T为当前时间步。随后,基于稀疏感知的检测、跟踪和在线映射任务同时执行,提供了一个更高效且紧凑的环境3D表示Θ(如图2所示)。

3.2 基于扩散的运动规划器

图2展示了我们基于扩散的运动规划器的整体流程。我们采用CNN基础上的扩散策略,该策略由一个由1D卷积层、上采样层和FiLM(Feature-wise Linear Modulation)层组成的条件U-Net构成。

运动规划器的扩散策略:我们的方法(图7)采用了条件去噪扩散概率模型(DDPM),这是通过参数化马尔可夫链训练的生成模型,使用变分推断来建模条件分布。DDPM由一个正向过程组成,该过程逐步向输入数据添加高斯噪声,将其转换为纯噪声;以及一个反向过程,逐步对噪声数据去噪以恢复原始数据。

具体而言,DDPM的输入条件包括紧凑的3D表示Θ、自车状态e、历史预测轨迹H及其相应的速度、加速度和偏航编码。包含观察和上述相关条件的组合条件C被注入到网络的每个卷积层中,使用进行通道级条件引导,从自车位置生成到锚点位置的轨迹。去噪过程从形状为[B, Na, Ti, P]的高斯噪声开始,其中B表示批大小,Na表示锚点数量,Ti表示导航点之间的时间间隔(i = 0.5, 1, 1.5, 2, 2.5, 3),P表示每个时间间隔Ti的位置信息(x, y)。通过去噪网络ϵθ迭代地将噪声数据精炼为无噪声的未来3秒多模态轨迹A0,每个轨迹τi表示为一组路径点。反向过程由以下公式描述:

其中α和γ是缩放因子,N (0, σ², I)代表均值为0,方差为σ²的高斯噪声。

我们的运动规划器通过FiLM层将紧凑的3D表示、自车状态、历史轨迹及其对应的速度、加速度和偏航编码等条件信息整合到去噪网络中,利用DDPM生成高质量样本,确保生成的轨迹具有多模态性和强时间一致性,并考虑到周围环境和历史信息。

3.3 由VLMs引导的轨迹评分器

为了从DDPM生成的多模态轨迹中选择最合适的路径,我们引入了VLMs引导的轨迹评分器(VTS),如图3所示。据我们所知,VTS是第一个结合了可解释性和零样本驾驶推理能力的轨迹评分器。通过利用视觉语言模型(VLMs),VTS能够基于各种驾驶因素(例如,碰撞概率和舒适性)有效评估轨迹,从而实现透明的决策和对新驾驶场景的适应性,而无需大量的微调(即终身评估)。

3.3.1 基于规则的轨迹评分策略

具体来说,我们使用以下成本函数的线性组合来对采样的轨迹进行评分。总成本函数 Ctotal 由两个主要组成部分构成:安全成本(Csafety)和舒适成本(Ccomfort)。

安全成本:安全成本 Csafety 是由四个子成本的聚合而成:

其中

这里, 是与障碍物的最小距离,有效地捕捉了车辆与障碍物距离和碰撞风险之间的关系。缩放因子设置为1.0米,以确保随着距离的减少成本迅速增加,优先考虑避免碰撞。分别是轨迹的终点和目标位置,表示两者之间的欧氏距离。N 是轨迹上的点数, 是第i个点的航向,是目标航向。衡量轨迹偏离目标航向的累计偏差。是平均速度,是目标速度,用于惩罚速度偏离目标速度的情况。

舒适成本:舒适成本 Ccomfort 包含三个子成本:

其中

这里,、和分别是横向、纵向和向心加速度。舒适成本 旨在惩罚过度的横向、纵向和向心加速度,因为它们可能导致乘客不适。通过最小化这些加速度的最大绝对值,轨迹规划器可以减少剧烈的左右摆动、突然刹车或激烈的加速,确保车辆平稳地通过转弯。、、和是权重,用于平衡每个子成本对总成本函数的影响(见表1),从而使轨迹规划器能够根据自动驾驶系统的具体需求优先考虑不同的安全和舒适性方面。

3.3.2 VLMs帮助调整驾驶风格

我们的VLM引导的轨迹评分器(见图3)由两个阶段组成。在第一阶段,我们收集了带有标注的周围环境图像数据集,包含当前驾驶场景的描述、周围交通参与者(即行人和车辆)的运动状态,以及当前驾驶风格(即激进或保守),并附带权重调整值。通过反复对话,吸收了上下文信息,减少了模型幻觉的出现。

在第二阶段,我们利用GPT-4o生成了一系列用于视觉问题回答(VQA)的提示模板。借助交通模式中的时空稳定性,我们每五秒间歇性地激活Llama 3.2V,以优化驾驶行为。模型在处理新图像时会评估驾驶环境,并在基于规则的系统中调整预定义的安全性和舒适性参数的评分权重。这种方法允许对成本权重进行精确调整,从而增强驾驶风格在不同场景下的响应能力。通过将VLM作为驾驶风格的调节器而非直接决策者,我们减轻了模型幻觉带来的安全风险,并提高了基于规则的轨迹评分器对新场景的适应性。

3.4 端到端驾驶舒适度评估指标

为了解决现有端到端方法中缺乏通用舒适度评估指标的问题,我们提出了一种通用的指标来评估预测轨迹的舒适度和人类相似性。我们提出的舒适度评估指标旨在量化预测轨迹与真实轨迹之间的相似性,考虑的因素包括动态可行性、颠簸程度和轨迹的平滑度。

在笛卡尔坐标系中,我们简化的车辆运动学模型描述了前轮驱动和转向的四轮车辆的动力学,假设车轮完美滚动且无滑动。状态向量定义为,其中表示车辆后轮中心的位置,v 是相对于车身坐标系的纵向速度,和分别表示纵向和横向加速度,ϕ 是前轮的转向角,κ 是曲率。完整的轨迹表示 σ(t): [0, Ts] 公式如下:

其中是整个轨迹的持续时间,是第i段的起始时间戳,。舒适度评估指标定义为:

其中代表考虑的轨迹持续时间, 和 是对应的真实轨迹中的值,w1、w2、w3、w4、w5 和 w6 是分别用于纵向加速度、横向加速度、转向角速率、纵向颠簸、横向颠簸和曲率变化率的权重。和 分别是和的时间导数。

通过计算预测轨迹与真实轨迹在这些方面的差异并对每个时间段的差异进行求和,我们得到一个总体差异分数。分数越低,表明舒适度越高,与专家轨迹的相似度越高。最终,我们通过引入一个归一化因子,将舒适度指数表示为百分比,便于进行比较分析。

Experiment

4 实验结果

4.1 在nuScenes数据集上的端到端规划结果

如表2所示,HE-Drive模型在性能和效率上显著优于先前的摄像头和激光雷达方法。该模型在使用资源高效的视觉主干网络的同时,取得了最小的L2误差。具体来说,HE-Drive相比UniAD显著降低了17.8%的平均L2误差,同时将平均碰撞率减少了惊人的68%。这一结果源于HE-Drive预测的强大的时间一致性,例如图9中第4、5、6帧的连续帧。通过增强更强大的视觉主干网络和最先进的扩散策略能力,HE-Drive将平均L2误差和碰撞率进一步降低至0.58和0.06。此外,利用自我中心的稀疏感知,HE-Drive-S表现出惊人的效率,以16.1 FPS运行,比SparseDrive和VAD分别快1.2倍和2.5倍,同时也实现了最好的舒适度,3秒舒适度比UniAD提高了39.6%(见图8)。

4.2 在nuScenes数据集上的消融研究

我们进行了广泛的实验,以研究HE-Drive每个设计选择的有效性和必要性。我们使用HE-Drive-S作为默认模型进行消融实验。

VLM的必要性:将VLM引入轨迹评分机制主要目的是实现持续评估以微调驾驶行为。缺少VLM时,安全指标显著恶化,3秒碰撞率增加了大约2.6倍(表3)。这现象表明,仅依靠规则驱动的评分器无法在复杂场景中做出细微的区别,导致轨迹确定的困难。

轨迹一致性的关键因素:通过加入历史速度和加速度数据,扩散式运动规划器显著减少了2秒和3秒轨迹预测之间的L2范数差异。当这些动力学参数作为条件变量集成到DDPM中时,能够确保生成一致的轨迹。这种一致性不仅依赖于位置坐标,还扩展到了每个导航点的速度和加速度。此外,利用历史最佳预测轨迹的时间相关性作为DDPM的条件元素大有裨益,若不采用此方法,L2范数可能会增加1.1倍(表3)。

锚点数量的必要性:我们对规划锚点数量进行了实验。如表4所示,随着规划锚点数量的增加,规划性能不断提高,直到在8个模式下达到饱和,这再次证明了多模态扩散规划的重要性。

4.3 在真实世界数据集上的端到端规划结果

真实世界数据集上的端到端规划结果如图5a所示。HE-Drive生成了一致的多模态轨迹,并使用轨迹评分器选择具有最低成本的最合适的轨迹。紫色和绿色轨迹由于偏离目标点并且在转弯时舒适性降低,因此成本较高。

该定性结果表明,我们基于规则的评分器优先考虑安全性并且具有可解释性。通过VLM调整驾驶风格,最终选择了最舒适的直线轨迹,如图13(d)、(e)、(f)所示。HE-Drive生成具有强时间一致性的多模态轨迹,并受益于VLM在未见场景中的零样本泛化能力。此外,舒适度评估指标的计算(见图6a)显示HE-Drive的1秒舒适度表现优异。

4.4 在OpenScene数据集上的端到端规划结果

我们在OpenScene闭环数据集上的结果如表5所示,突显了HE-Drive相对于基线的绝对优势。在性能方面,得分比HyDra-MDP-V8192高出2.65%。在效率方面,HE-Drive表现出优异的性能,相较于PDM-Closed和TransFuser,其FPS高出PDM-Closed的2.56倍,展示了其卓越的处理速度。此外,HE-Drive的FPS比TransFuser高出14.01%(见图6b),进一步突显了其先进能力。值得注意的是,HE-Drive的训练时间仅为22小时,使其不仅在执行上更快,在训练时间上也更加高效。

结论

本文的主要贡献如下:

  1. 基于扩散的运动规划器:本文提出了一种基于扩散的运动规划器,通过稀疏感知网络提取的3D表示生成时间一致的多模态轨迹,并结合历史预测轨迹的速度、加速度和偏航角。

  2. 即插即用的轨迹评分器:本文引入了一个基于VLMs指导的轨迹评分器和舒适度指标,弥合了人类行为般驾驶的差距,易于集成到现有的自动驾驶系统中。

  3. 在开放环和闭环基准上的优异表现:HE-Drive在nuScenes和OpenScene数据集上实现了最先进的性能,同时在现实世界数据集上增加了32%的舒适度,展示了其在各种场景中的有效性。

文章引用

HE-DRIVE: HUMAN-LIKE END-TO-END DRIVING WITH VISION LANGUAGE MODELS

自动驾驶之星和生成式AI与具身智能知识星球,新人优惠券来袭,结识一群志同道合的小伙伴一起成长。

自动驾驶之星社区将在10月26号在上海举办大模型线下交流活动。欢迎大家报名参加,我们邀请行业专家和大家一起来分享大模型在具身智能和自动驾驶场景中的应用!

自动驾驶之星社区大模型线下活动报名开始啦!(10月26号 上海)我们回来啦!


下一个风口会不会是生成式AI 与具身智能的时代,我们特意创建了生成式AI与具身智能交流社区,关于大模型,机器人的相关业界动态,学术方向,技术解读等等都会在社区与大家交流,欢迎感兴趣的同学加入我们(备注具身智能)!   

自动驾驶之星知识星球主打自动驾驶量产全技术栈学习,并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括端到端大模型,VLM大模型,BEV 障碍物/车道线/Occ 等的学习资料!

生成式AI与具身智能知识星球,我们相信生成式AI 与具身智能会碰撞出出乎我们意料的内容,本知识形象并包括: 学习板块,求职面试,有问必答,论文速递,行业动态五大板块!星球内部包括生成式AI大模型,具身智能,业界资料整理等的学习资料!

自动驾驶之星是面向自动驾驶&智能座舱量产向相关的交流社区,欢迎大家添加小助手加入我们的交流群里,这里有一批奋斗在量产第一线的小伙伴等你的加入!

👇点个“赞”和“在看”吧

自动驾驶之星
自动驾驶之星,是一个以自动驾驶\x26amp;智能座舱量产交流为主的社区。这里有自动驾驶\x26amp;智能座舱量产第一线的前沿动态,有一群奋斗在自动驾驶\x26amp;智能座舱量产第一线的小伙伴在分享他们的量产经历。期待你的加入!希望每个人在这个浪潮中都能成为自动驾驶之星!
 最新文章