关于端到端，地平线丢出一关键招数

汽车 2024-11-05 10:59 上海

来源:深蓝AI | 首图图源:网络

全文 5000+ 字，预计阅读 30-35 分钟

导读：
由地平线和香港大学等高校最新的提出的基于的视觉语言模型（VLM）的类人端到端自动驾驶框架：HE-Drive。大量实验结果证明，它不仅在nuScenes和OpenScene数据集上取得了最好的性能(即平均碰撞率比VAD降低了71%)和效率（即比Sparse Drive快1.9倍），而且在真实世界数据上提供了最舒适的驾驶体验。

PART.01

背景简介

端到端自动驾驶范式以优化规划为目标，将感知、规划和轨迹评分任务整合成一个统一的模型，在推动自动驾驶技术方面显示出巨大的潜力（见图1a）。其中，基于模仿学习的运动规划器是从大规模的驾驶专家数据中学习驾驶策略，并采用基于学习的轨迹评分器从多个预测候选轨迹中选择最安全和最准确的轨迹来控制车辆。然而，现有的规划器和评分器面临的挑战是：

●生成时间不一致的轨迹，其中连续的预测在时间上是不稳定和不一致的；

●以及选择不舒适的轨迹，这些轨迹表现出持续制动，会导致失速或过度的转弯曲率。

▲图1｜HE-Drive系统表现

基于模仿学习的规划器生成的轨迹中的时间不一致性主要源于两个因素：时间相关性和泛化能力。首先，这些规划器依赖于当前帧过去几秒的信息来预测未来轨迹，忽视了连续预测之间的相关性。其次，它们的性能受到收集的离线专家轨迹质量的限制，使得它们对系统动态变化和分布外状态非常敏感，从而导致学习到的策略缺乏对未见场景的泛化能力。本文作者提出了一种基于扩散的规划器，能够生成具有强时间一致性的多模态轨迹。

此外，造成预测轨迹不舒适的关键原因是次优的轨迹评分器缺乏整个周期的评估能力，以及缺乏通用的指标来衡量轨迹的舒适度。本文提出了一种新的轨迹评分器和通用的舒适度度量指标，将基于规则的评分器的可解释性与VLM的适应性相结合，以调整驾驶风格（即激进或保守）进行整个周期评估。

▲图2｜HE-Drive框架概览

在本文中，作者引入HE-Drive（如图2所示）旨在解决上述两个问题。它利用稀疏感知（稀疏特征）检测、跟踪和映射驾驶场景，生成3D空间表示。这些表示被条件性地输入到基于扩散的运动规划器中，该规划器由条件去噪扩散概率模型（DDPM）驱动。最后，由VLM指导（即Llama 3.2V）的轨迹评分器从候选中选择最舒适的轨迹以控制车辆，从而确保人类般的端到端驾驶。

主要贡献有：

●提出一种基于扩散的运动规划器：它通过对稀疏感知网络提取的3D表示进行条件化，并结合历史预测轨迹的速度、加速度和偏航，生成时间一致且多模态的轨迹。

●一个即插即用的轨迹评分器：基于VLM的轨迹评分器和舒适度指标，填补了类人驾驶的空白，使其能够轻松地整合到现有的自动驾驶系统中。

●在开环和闭环基准测试中表现出色：HE-Drive在nuScenes和OpenScene数据集上实现了不错性能和效率，同时在真实世界数据集上提高了32%的舒适度，展示了其在各种场景中的有效性。

PART.02

相关工作

■2.1 端到端自动驾驶

端到端自动驾驶旨在直接从原始传感器生成规划轨迹。基于不同的评估方法分为开环和闭环系统。在开环系统中，UniAD提出了一个统一框架，将全栈驾驶任务与查询统一接口相结合，以改善任务之间的交互。VAD增强了规划的安全性和效率，其在nuScenes数据集上的表现证明了这一点，而SparseDrive利用稀疏表示来减轻模块化系统中固有的信息损失和错误传播，提高了任务性能和计算效率。在闭环评估中，VADv2通过概率规划推进了向量化自动驾驶，利用多视角图像生成车辆控制的动作分布，在CARLA Town05基准测试中表现优异。

■2.2 用于轨迹生成的扩散模型

用于图像合成中的扩散模型，已应用于轨迹生成。基于势能的扩散运动规划通过采用学习到的势能函数来构建适应性运动计划，能够应对复杂环境，展现了该方法的可扩展性和可迁移性。NoMaD和SkillDiffuser均呈现了统一框架，分别简化了目标导向的导航和基于技能的任务执行，其中NoMaD在导航结果上有所改进，SkillDiffuser则实现了可解释的高层指令跟随。

总之，基于模仿学习的模型可能由于固有的因果混淆而错误地将驾驶者的行为归因于错误的因果因素。相较之下，扩散模型通过在潜在空间中学习场景特征和驾驶者动作的联合分布，能够更好地捕捉潜在的因果关系，使模型能够正确将真实原因与相应的行为相联系。

■2.3 用于轨迹评估的大语言模型

基于规则的轨迹评分方法提供了强大的安全保证，但缺乏灵活性，而基于学习的方法在开环任务中表现良好，但在闭环场景中却存在问题。DriveLM将VLMs集成到端到端驾驶系统中，通过感知、预测和规划问答对建模图结构推理。然而，大型模型生成的结果可能存在幻觉，并需要进一步的策略以确保在自动驾驶中的安全应用。

PART.03

方法精析

HE-Drive的关键组件（如图2所示）主要包含：稀疏感知、基于扩散模型的运动规划器和由VLMs指导的轨迹评分器。

■3.1 稀疏感知

HE-Drive首先采用视觉编码器从输入的多视角摄像头图像中提取多视图视觉特征，记为。这些图像记为，其中为摄像头视角的数量，为时间窗口的长度，表示时间步的多视图图像，为当前时间步。然后，稀疏感知为运动规划器提供3D表示（3D Reressentations）（如图2所示）。

■3.2 基于扩散的运动规划器

下图展示了基于扩散的运动规划器的整体流程。

运动规划器的扩散策略：如图2所示，本文使用条件去噪扩散概率模型（DDPM），这是一种生成模型，通过参数化的马尔可夫链实现，利用变分推理来建模条件分布。DDPM由一个前向过程组成，该过程逐步向输入数据添加高斯噪声，将其转换为纯噪声，以及一个反向过程，该过程迭代去噪有噪声的数据以恢复原始数据。

运动规划器的扩散策略概览

具体而言，DDPM的输入条件包括紧凑的3D表示、自车状态、历史预测轨迹，以及其相应的速度、加速度和偏航编码。包含观察及上述相关条件的拼接条件通过FiLM注入到网络的每个卷积层中。这种通道级条件引导轨迹生成从自我位置到锚位的过程。去噪过程从形状为的高斯噪声开始，其中表示批量大小，表示锚的数量，指导航点之间的时间间隔。表示每个时间间隔的坐标位置。通过利用去噪网络，噪声数据通过次迭代精炼为无噪声的3秒未来多模态轨迹。每条轨迹表示为一组路径点。反向过程由以下方程描述：

其中和是缩放因子，表示均值为0、方差为的高斯噪声。

▲图3｜VTS概览

■3.3 基于VLMs的轨迹评分器

如图3所示，作者引入了VLMs指导的轨迹评分器（VTS），从DDPM生成的多模态轨迹中选择最适合的路径。VTS作为第一个结合了可解释性和零样本驾驶推理能力的轨迹打分器。通过使用视觉语言模型（Vision-Language Models，VLMs），VTS有效地评估了基于各种驱动因素（例如碰撞概率和舒适度）的轨迹，实现了透明的决策和对新驾驶场景的适应性，而无需对终身评价等进行广泛的微调。

基于规则的轨迹评分器：使用以下成本函数的线性组合来为采样轨迹评分。总成本函数由两个主要组成部分构成：安全成本和舒适成本。

其中，是车辆与障碍物的最小距离，是车辆障碍物距离与碰撞风险之间的关系。缩放因子设置为1.0米，以确保随着距离减小成本迅速增加，从而优先考虑避免碰撞。和分别是结束位置和目标位置，表示它们之间的欧几里得距离。是轨迹上点的数量，是第个点的航向，是目标航向。衡量轨迹与目标航向之间的累计偏差。是平均速度，是目标速度，则是惩罚与目标速度的偏差。

Comfort Cost由以下Cost组成：

其中，、和分别是横向、纵向和向心加速度。舒适成本旨在惩罚可能导致乘客不适的过大横向、纵向和向心加速度。通过最小化这些加速度的最大绝对值，轨迹规划器旨在减少剧烈的侧向移动、突然的刹车或激烈的加速，并确保在转弯时的平稳导航。权重、、、、、和平衡了每个子成本对整体成本函数的影响（如表1所示），允许轨迹规划器根据自动驾驶系统的具体要求优先考虑安全与舒适的不同方面。

▲表1｜规则评分器的权重值

VLMs帮助驾驶风格：VLM指导的轨迹评分器（如图3所示）由两个阶段组成。在第一阶段，需要一个包含标注周边图像的数据集，其中包括当前驾驶场景的描述、周围主体（即人类和车辆）的运动状态，以及当前的驾驶风格（即激进或保守）和权重调整值。通过迭代对话，Llama 3.2V吸收上下文信息，减少模型幻觉（model hallucinations）。

在第二阶段，使用GPT-4o生成一系列用于视觉问答（VQA）的提示模板。利用交通模式中固有的时空稳定性，以每五秒间歇性地激活Llama 3.2V，以细化驾驶行为。该模型在处理新图像时评估驾驶上下文，并为规则基系统中的预定义安全与舒适参数校准评分权重。这种方法允许对成本权重进行精确调整，增强驾驶风格对不同场景的响应能力。

■3.4 端到端的驾驶舒适性指标

为了应对现有端到端方法中缺乏通用舒适度评估指标的问题，作者提出了一种通用指标来评估预测轨迹的舒适度和人类相似性。该舒适度指标旨在量化预测轨迹与真实轨迹之间的相似性，考虑动态可行性、颠簸和轨迹平滑度等因素。

在笛卡尔坐标系中的运动自行车模型，描述了具有完美滚动和无滑动的前驱和转向四轮车辆的动力学。状态向量定义为，其中表示后轮中心的位置信息，是相对于车辆车身坐标系的纵向速度，和分别表示纵向加速度和横向加速度，是前轮的转向角，而是曲率。完整的轨迹表示形式化为：

其中是整个轨迹的持续时间，是第段的起始时间戳，且，舒适度指标定义为：

其中表示考虑的轨迹持续时间，，，，，和是对应的真实轨迹值，分别是纵向加速度、横向加速度、转向角速率、纵向颠簸、横向颠簸和曲率速率的权重因子。纵向和横向颠簸和分别计算为和的时间导数。

PART.04

实验结果

■4.1 实验设置

数据集：实验在三个具有挑战性的数据集上进行，即nuScenes数据集和用于开放环路测试的真实世界数据集，以及用于闭环评估的OpenScene数据集。

实施细节：HE-Drive的训练过程分为多个阶段。首先，根据SparseDrive提出的两阶段方法训练稀疏感知组件，依据不同的感知主干网络，将其分为HE-Drive-S和HE-Drive-B。稀疏感知训练第二阶段的输出作为运动规划器的输入。运动规划器采用基于卷积网络的扩散策略生成准确且具有时间一致性的轨迹。最后，对整个HE-Drive系统进行端到端的训练。

■4.2 在nuScenes上的实验结果

如表2所示，HE-Drive模型展示了相较于以往基于相机和激光雷达的方法的优越性能和效率。该模型在采用资源高效的视觉主干的同时，实现了最低的L2误差。具体而言，HE-Drive在均值L2误差上显著降低，减少幅度达到17.8%，同时碰撞率平均降低了68%。这一结果源于HE-Drive预测的优异强时间一致性。当结合更强大的视觉主干和尖端的扩散政策能力时，HE-Drive将平均L2误差和碰撞率进一步降低至0.58和0.06。

▲表2｜在nuScenes数据集上的规划结果

▲图4｜Llama 3.2V在nuScence定性实验结果

■4.3 消融实验

本文使用HE-Drive-S作为消融实验的默认模型。

▲表3｜不同规划器的消融实验结果

VLM的必要性：将VLM引入轨迹评分机制主要旨在促进一种持续的评估方法，以细化驾驶行为。缺乏VLM显著影响安全指标，3秒碰撞率大约增加了2.6倍（表3）。这一现象凸显了仅依赖规则基础评分的局限性，因为它难以辨别不同场景之间的细微差异，从而使轨迹确定变得复杂。

轨迹一致性的关键因素：通过历史速度和加速度数据丰富基于扩散的运动规划器，缩小了观察到的2秒和3秒轨迹预测之间的L2范数差异。当这些动力学参数作为条件变量集成到DDPM中时，可以确保生成一致的轨迹。这种一致性不仅取决于位置坐标，还扩展到每个导航点的速度和加速度。此外，利用历史最佳预测轨迹的时间相关性作为DDPM的条件元素证明是显著有利的，其省略可能导致L2范数增加1.1倍（表3）。

锚点数量的必要性：对规划锚点的数量进行了实验。如表4所示，随着规划锚点评估数量的增加，规划性能持续改善，直到在8个模式处饱和，再次证明了多模态扩散规划的重要性。

▲表4｜锚点数量的消融实验结果

■4.4 在Real-World上的实验结果

真实世界数据集的端到端规划结果如图5a所示。HE-Drive生成了一致的多模态轨迹，并使用轨迹评分器选择了成本最低的最合适轨迹。紫色和绿色轨迹由于偏离目标点和在转向操作时舒适度降低而具有较高的成本。

这一定性结果表明，基于规则的评分器优先考虑安全性，并且具有可解释性。此外，舒适度指标的计算（图6a）显示，HE-Drive的1秒轨迹段舒适度达到了100%，比VAD高出20%，而整体的3秒轨迹舒适度也高于VADv2，这表明本文的评分器在长期轨迹评估中的持久能力和效率。

▲图5｜规划生成和轨迹评分过程

▲图6｜舒适性和效率结果对比

■4.5 在OpenScene上的实验结果

在闭环数据集OpenScene上的结果（表5）突显了HE-Drive相对于基准模型的绝对优势。在性能方面，该评分比HyDra-MDP-V8192高出2.65%。在效率方面，HE-Drive的性能优于其PDM-Closed和TransFuser。它的每秒帧数（FPS）比PDM-Closed高出2.56倍。此外，HE-Drive在FPS上比TransFuser高出14.01%（见图6b）。值得注意的是，HE-Drive的训练周期仅为22小时，既在执行方面更快，也在训练时间上更高效。

▲表5｜OpenScene数据的性能表现

PART.05

总结

本文提出的HE-Drive，它是一种以类人为中心的端到端自动驾驶系统，并通过集成稀疏感知模块、基于扩散的运动规划器以及一个由Llama 3.2V驱动的轨迹评分系统，用于解决现有方法在实现时间一致性和乘客舒适度方面的局限性。大量的实验表明，它在开放环路和闭环数据集中的表现优于现有的方法，生成了具有更好时间一致性和乘客舒适性的类人规划轨迹。

公号👇发消息“我来了”，可直接领取“10G+自动驾驶相关资料”

联系 & 声明

进交流群

号主六耳

知识星球

声明：除文内特殊声明外，本公众号内所有文章编写或转载的目的仅用于学习和交流，不予以商用，不代表本号观点及立场。本公众号内资讯及正文引用图片均由个人公众号 ADS 智库六耳基于官网或公开信息梳理或引用。本公众号所引用及转载内容版权均归原作者所有，凡是注明来源 “ XXX ADS 智库 ” 或作者为 “ XXX 六耳、XXX ADS 智库 ” 的文章转载或引用时请注明来源 ADS 智库。若有版权或其他任何问题请联系六耳（微信号：adas_miao ），本号将及时处理。

转发、点赞、在看

，安排一下？

http://mp.weixin.qq.com/s?__biz=Mzg5OTA2MDA0MA==&mid=2247519392&idx=1&sn=7cd6ee1034290db0cde13564783ebd0c

ADS智库

聚焦 ADAS \x26amp; ADS 相关内容，公号发消息『我来了』免费领取 10G+ 自动驾驶资料

最新文章

技术趋势 | 2025年度中国汽车十大技术趋势发布，多项智驾技术入选

主控拆解 | 小米汽车智驾/智能座舱控制器

关于端到端，地平线丢出一关键招数

端到端的另一种声音：听一听 Mobileye CEO 的观点

Kalman Filter For Dummies

倒计时2天｜2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即！

近万字干货 | C-NCAP 2024 ADAS 主动安全导读与分析【建议收藏】

一图看懂｜GB/T 44461 智能网联汽车组合驾驶辅助系统技术要求及试验方法

端到端对传统的自动驾驶算法开发影响有多大？

大盘点 | 自动驾驶中的规划控制概述

20 多家端到端自动驾驶企业/研究机构方案盘点（2）理想、地平线、元戎启行

PlanKD：压缩的端到端自动驾驶运动规划器的第一个知识蒸馏框架（CVPR 2024）

20 多家端到端自动驾驶企业/研究机构方案盘点（1）tesla、小鹏汽车、零一汽车

24 年 8 月国内自动驾驶领域中标项目一览

自动驾驶三大主流芯片架构分析

端到端自动驾驶的秘密（三）5 家可能支持/潜在支持端到端架构的芯片企业方案介绍

【预告】2024国际智慧出行设计大会暨CCDIS中国汽车设计（国际）峰会启幕在即，报名通道已开启！

端到端自动驾驶的秘密（二）概述

自动驾驶哪些技术必须掌握？

从定点到SOP，汽车零部件开发的关键节点解析

端到端自动驾驶的秘密（一）导读篇

自动驾驶哪些技术必须掌握？

自动驾驶域控制器的来龙去脉（2024版）：L3、大模型、还是舱驾一体？

说人话版 GB_T 34590，看完带你入门功能安全

线上直播注册 | 2024 MathWorks 中国汽车年会

冠军方案详解 | CVPR 2024 全球自动驾驶挑战赛浪潮信息 F-OCC 方案实践

干货 | 详解芯片内部各个电路结构

E-NCAP 2024 高速公路和城际辅助系统-测试评估规则介绍

1.5 万多字 Robotaxi 产业详解

从 ECU 系统视角理解 CAN 通讯需求

智驾激光雷达新趋势

中国科学院大学：通过隐式世界模型增强端到端自动驾驶

干货 | 2 万字综述多模态大型语言模型（MLLM）

2024 年车载摄像头趋势

功能安全实例：LKA，ACC

域控拆解 | 上汽智己 ICC 智算域控制器设计方案

地平线 VADv2：通过概率规划实现矢量化端到端自动驾驶

干货 | 一份相机标定指南

清华等：端到端自动驾驶系统的关键技术与发展趋势

清华 && 地平线 SparseDrive：重新定义端到端自动驾驶任务设计，所有任务都超过 SOTA 的方法！

小鹏理想华为等多家公司都推出端到端方案了，后面的岗位都会倾向于这个方向吗？

对端到端的系统架构闭环的思考

30 多家国内车企背后庞大的汽车供应链盘点！建议收藏~

Delphi：更适合端到端模型的 world model，更长更真更可控！（理想汽车&西湖大学）

NOA 智驾背后的关键运作奥秘被这本书讲透了

24 年 5 月国内自动驾驶领域中标项目一览

李想是真懂自动驾驶细节

功能安全入门 | SoC 设计漫谈

智能车『智商测试体检表』

初探自动驾驶 SOC 芯片设计流程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉