ADAS Laboratory
近年来,多模态端到端自动驾驶取得了令人鼓舞的进展。通过将更多模态集成到端到端网络中,系统的对驾驶环境既静态又动态的理解得到了加强,从而提高了自动驾驶的安全性。
在本文中,作者提出了一种端到端系统 METDrive,该系统利用包括自车状态中的旋转角、转向、油门信号和路点向量的嵌入时间序列特征的时序指导。
从感知传感器数据和自车状态时间序列特征中衍生的几何特征与所提出的时序指导损失函数共同指导路点预测。
作者在CARLA 排行榜的 Longest6 基准测试中评估了 METDrive,实现了驾驶得分 70%,路线完成得分 94%,违规分数 0.78。
I Introduction
多模态端到端自动驾驶系统在提高自动驾驶车辆的鲁棒性和可靠性方面具有显著前景[1, 2]。传感器融合,将来自摄像头和激光雷达等多种来源的数据集成在一起,已经成为了推进这些系统的基石[3, 4]。
然而,从感知传感器获得的原始数据通常包含大量无关的目标,这些目标并不会显著影响自动驾驶车辆的运动规划。因此,依赖这些传感器融合的特征的端到端模型的输出可能会受到这类无关检测的影响[5, 6]。作者发现,现有的端到端方法没有包含与自身相关的状态,表现出在某些场景下的缺陷和失败案例。因此,在本文中,作者提出将额外的与自身相关的特性作为向导添加到编码器中,可以作为缓解这一问题的可行解决方案。为此,作者提出了METDrive,这是一个融入了时间指引的新颖端到端系统。
此外,一些关键的与自身相关的状态,如旋转角度、转向输入、油门输入和兴趣点,通常以不同的模态表示,与原始图像和激光雷达点云不同。为进一步扩大端到端自动驾驶系统的功能,作者提出了一种新颖的方法,将这些与自身相关的状态编码为时间序列特征。通过将这些时间戳作为如1所示的时间线索,作者旨在指导感知传感器提取的几何特征,从而提高系统做出明智决定的能力。这种集成不仅增强了系统对其环境的理解,而且使运动规划更加准确和有意义。
CARLA领导栏[7]是一个在线评估平台,用于测试在CARLA模拟器中运行的自动驾驶代理的性能。具体来说,Longest6基准测试包括设计有扩展路线的测试,旨在测试自动驾驶系统的耐久性和可靠性。为了评估作者的系统在长期任务上的表现,作者选择了Longest6基准进行评估。
欢迎加入自动驾驶实战群
根据上述洞察,本文的贡献可总结如下:
作者观察到,现有的端到端模型没有将 ego-vehicle 状态作为输入,这对于运动规划任务至关重要。作者证明了这些模型可能会在长期场景中遇到失败案例。 作者提出了一种时间序列数据编码器,处理包括旋转角度、转向信号、油门信号和兴趣点向量在内的与自身相关的状态,以指导来自所有传感器融合特征的一致性,从而优化相邻时间步的兴趣点预测的一致性。根据这样的设计,具有时间指引的METDrive新颖端到端系统被提出。 在CARLA最长6项基准测试中,作者的 Proposal 系统相对于其他最近系统实现了更好的驾驶分数、路线完成和违规分数。
II Related Work
在自动驾驶领域,尤其是在端到端学习系统中,利用深度学习架构在提高车辆导航和决策过程中取得了显著的进展 [8, 9, 10]。以下部分回顾了自动驾驶汽车模型架构的最新进展,重点关注它们对该提出的模型的贡献和关联性。
Learning from All Vehicles
一个在端到端系统中实现运动规划的关键进步是Chen等人提出的从环境中所有车辆学习的概念[11]。他们的模型,结合了感知模块、运动规划器和水准控制器,采用了三段级联模块化流水线。这种方法通过在所有周围车辆的轨迹上进行训练,而不是仅仅在自车轨迹上,显著提高了运动规划的泛化能力。模型的结构设计旨在生成 vehicle-invariant特征,以增强运动规划器在不同车辆之间预测未来轨迹的能力。
Trajectory Prediction and Multi-Modal Fusion
最近,轨迹预测成为模型研究中的一个核心关注点,其目标为生成车辆未来路径的准确途径点。由Chitta等人提出的TransFuser模型采用了多模态融合 Transformer ,将RGB图像和LiDAR数据相结合。这种架构使得模型可以利用不同传感器输入的互补性,从而提高途径点预测的准确性。TransFuser模型在 Transformer 架构内部利用自注意力机制,特别有效地将全局上下文集成到决策过程中。
Addressing Biases in Imitation Learning
一个在基于模仿学习的自动驾驶模型中面临的重大挑战是隐藏的偏见,特别是在横向恢复和纵向控制方面。Jaeger等人[13]通过识别依赖于目标点跟踪和多模态路标预测的当前最先进模型中存在的偏见,对这些进行了研究。他们提出的TransFuser++模型通过结合架构修改和训练策略,通过消除这些偏见,在基准任务上的驾驶性能得到了提高。
Combining Trajectory Planning with Control Prediction
近年来,一些方法也探索了轨迹规划与控制预测的集成。例如,吴等人[14]提出了一种新颖的结构,将这两种范式集成到单个学习 Pipeline 中。该模型使用一个多步控制预测分支和一个轨迹规划分支来指导,这使得控制决策更加准确和考虑语境。这种方法在处理复杂驾驶场景中特别有益,因为在这些场景下,直接预测控制动作可能导致次优行为。
Alignment with Student's Perception and Teacher's Planning
贾等人在[15]中提出了一种新颖的方法,通过使用冻教师模型进行规划,而学生模型则专注于感知。论文提出了一种适配模块,将学生的感知输出与教师的规划输入对齐,解决了预测数据和真实数据之间的分布差异问题,采用了基于动作引导的特征学习,并采用屏蔽策略来优化学习过程。
[15] Jia et al. 引入了一种端到端的自驾方法,利用冻教师模型进行规划,学生模型仅关注感知。本文提出了一个适配模块,将对学生的感知输出和对教师的规划输入进行对齐,以解决预测数据和真实数据之间的分布差距问题,实现了一种基于动作引导的特征学习和采用屏蔽策略来优化学习过程。
III Temporal Guidance for End-to-end Autonomous Driving
利用更多模态实现模仿学习。作者通过在CARLA最近的全端到端系统中进行的实验,评估了从其论文提出的预训练权重进行的长期CARLA城镇路线。对于TransFuser++ [13]的性能,从实验中图2可以看出,在交通条件明确的情况下,自身车辆在绿灯前突然停止。通过更多的观察,作者发现,在一些情况下,代理的行为可能根据模型的训练标签遇到失败。为了解决这些问题,作者提出的系统旨在编码更多的模态,如自身车辆状态,以提供增强的运动规划任务指导。
与其他现有的端到端系统相比,作者的系统还包含了与自身相关数据的输入,从而增强了系统利用时间信息的能力。具体来说,作者将与自身相关状态视为时间序列数据,使系统能够捕捉随着时间变化自身车辆状态的动态演进[17]。
因此,作者的系统架构分为两个互补分支:感知分支,该分支处理来自相机的传感器数据和激光雷达的传感器数据,将其转化为代表环境空间布局的几何特征;时间分支,该分支处理与自身相关数据作为时间序列输入,从而捕捉自身车辆状态的动态。如图3所示,作者说明了作者提出的做法,其中几何特征和时间特征首先通过各自的编码器进行提取。这些编码的特征随后通过门控循环单元(GRUs)[18]融合并处理,以方便具有时间引导的路线点预测。
感知分支。感知分支包括图像和激光雷达编码器,两者基于ResNet,从传感器数据中提取几何特征[19]。使用注意力机制的特征融合模块用于有效整合这些特征[20]。通过注意力机制的融合,几何特征与来自图像和激光雷达数据的时间输入相结合,以确保与时间序列数据的后续融合时的一致性[21, 22]。
时间分支。补充自身车辆的旋转角度θ、转向ψ、油门u信号以及目标点之间的归一化向量()的编码。为了明确横向和纵向特征从而获取单维时间序列信息,这些时间信号在自身车辆坐标系内分解为水平和垂直方向进行标记化。为了获取嵌入的水平标记,其中为批量大小,输入序列数据通过位置和标记嵌入进行处理,如下所示:
在序列中,位置嵌入用于确保具有索引的编码器在每个元素的位置上都有唯一的标识。由以下方程定义:
标记词嵌入通过1D卷积层从输入序列数据中提取特征。
类似地,嵌入的垂直标记词通过和计算。
与的关系如下
使用基于自注意力的编码器对相应标记词进行编码。编码器产生的特征通过一个全连接网络整合,该网络从旋转角度、转向角度、油门信号和目标点归一化向量的时间输入中产生融合特征。
时间几何和时序特征被拼接并输入到基于GRU的道路点解码器中。与目标点输入结合,这种设置使得可以像Transfuser [12]一样,对输出道路点进行回归预测。
时间引导损失。为了确保以自车状态的序列输入为基础的时间引导,设计了一个损失函数,用于最小化来自不同时间邻近的两个道路点预测之间的差异。通过重要采样来自几何和时序特征的融合特征,其中与当前时间更接近的融合特征赋予较高的权重。时间引导损失 如下所示:
使用基于自注意力的编码器对相应标记词进行编码。编码器产生的特征通过一个全连接网络整合,该网络从旋转角度、转向角度、油门信号和目标点归一化向量的
在n个时间步长内,基于重要性采样,从当前时间近似的时间序列特征中,采用更高的权重从近似时间邻近性中采样特征。
为了从近似时间和远似时间邻近性中预测方式点,提出了两组方式点预测,其中方式点预测是通过近似和远似时间邻近性特征结合位觉编码器输出的特征得到的。对于噪声序列输入的情况,提出的时序指导损失旨在平滑和保持时间序列特征与几何特征的一致性。
IV Experimental Results
实验设置。作者的训练数据集是在CARLA城镇01、03、04、06、07和10中收集的,包括前端摄像头图像、中央LiDAR点云、旋转角度记录、控制信号记录、速度记录、控制命令记录和目标点记录。由于记录基于CARLA提供的自动代理,这些自动驾驶的行为并不是人类的驾驶员的那么自然和流畅,所以作者从控制信号中过滤并平均了噪声序列,以最小化系统的性能退化。
遵循TransFuser++ [13]的方法,作者的训练数据包含两阶段的训练,其中感知阶段,包括旋转角度记录、控制信号记录、速度记录和控制命令记录,首先使用相应的损失进行训练。然后,作者使用所有损失将预训练权重检查到时间点GPU-based解码器进行微调。在320K训练样本上,作者在单个16度的Nvidia RTX 4090 24G上以批量大小16进行训练。
基准测试。为了评估作者的模型的性能,作者使用CARLA最长时间6(Longest6)基准测试,该测试包括公开的Town 01-06中的36条长路线,这些路线上的最大交通密度最大。表1显示了在Longest6基准测试上评估的模型的性能比较,与最近的方法相比,作者提出的系统在驾驶得分、路线完成和违规得分方面都有更好的表现。
消融研究。为了验证作者设计有效性,作者进行了带有时间引导损失的消融实验和不同序列输入的时间序列特征。时间引导损失的结果显示在表2中。没有时间引导损失的训练,作者的模型在CARLA最长时间6基准测试上的性能下降,因为训练好的时间序列特征没有预定损失函数所施加的约束,无法与没有约束的时间几何特征对齐。
在表3中,作者测试了 Token 化器的不同类型输入,并发现分解后的序列输入是最优的。这是因为分解清楚地阐明了
V Conclusion and Future Work
通过本文,作者指出了现有的端到端CARLA模拟器系统中一个普遍的缺陷:缺乏来自其他模态的指导,这导致了长期任务中的失败案例。为解决这个问题,作者提出利用与自我相关的时序线索,如旋转角度、转向、油门信号和路点向量,来指导从感知传感器中提取的几何特征预测路点。
因此,作者设计了一个时序指导损失来监控这个集成过程。为了评估作者的系统,作者在CARLA领导者排行榜的Longest6基准上进行了实验,实现了70%的驾驶得分、94%的路线完成得分和0.78的非合规评分。
尽管在本研究中,作者在时间序列特征中使用了时间指导,但特征融合方法的有效性受到由收集到的数据集中自车状态输入质量的限制。具体来说,由于数据集是在CARLA模拟环境中使用一个自主代理生成的,该代理的表现不一致,导致平滑度和自然驾驶行为缺乏。因此,自车状态数据充满了大量的噪声,在有效使用之前需要进行预处理过滤。
鉴于这些限制,作者未来的研究计划将专注于获取更高保真的数据集。
这个数据集将来自在各种交通场景中导航的专家人类驾驶员。通过结合来自熟练的人类操作者的数据,作者可以期待减少噪声,并提高输入数据的质量。
此外,作者计划开发一个更健壮的框架,涵盖更广泛的时序编码器和特征融合,以应对自车状态输入。这种增强的方法预计可以减轻现有问题,并提高开发系统的整体性能和可靠性。
参考
[1].METDrive: Multi-modal End-to-end Autonomous Driving with Temporal Guidance.
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。