SEPT只需要一张3090就能训练!(轨迹预测视频课程筹备中, 也可报名!)
这篇来自清华的论文, 提出了一种新的场景encoding方式, 在Argoverse 1 和 Argoverse 2预测挑战赛均超越QcNet取得了第一名.
整个网络参数只有QcNet的40%. 不过可惜的是, 目前代码并未开源.
1. 概述
1.1 摘要
SEPT(Scene Encoding Predictive Transformer)是一种新型的建模框架,旨在通过自监督学习提高对复杂交通场景的时空理解,以实现更准确的运动预测。该框架包含三个关键的预训练任务:Marked Trajectory Modeling(MTM)、Masked Road Modeling(MRM)和Tail Prediction(TP),分别针对轨迹时序依赖、道路网络空间结构和道路与代理间的交互进行学习。SEPT模型在Argoverse 1和Argoverse 2运动预测基准测试中取得了优异的成绩,超越了现有方法,证明了其在效率和效果上的显著优势。SEPT模型的研究不仅推动了自动驾驶领域运动预测技术的发展,也为理解和预测复杂交通环境中的交互模式提供了新的视角。
1.2 SEPT模型的主要贡献
SEPT模型的主要贡献在于其创新的自监督学习框架,以及在运动预测任务中的卓越性能。以下是SEPT模型的几个关键贡献:
自监督学习框架:SEPT模型提出了一种自监督学习框架,通过设计不同的预训练任务来训练场景编码器,使其能够捕捉轨迹中的动力学约束、道路网络的空间结构以及道路与交通参与者之间的交互关系。这种方法避免了对复杂网络架构设计的依赖,而是通过有效的训练策略来提升模型的泛化能力。
三重预训练任务:SEPT模型包含三个预训练任务——Marked Trajectory Modeling (MTM)、Masked Road Modeling (MRM)和Tail Prediction (TP)。MTM任务通过随机遮蔽轨迹中的关键点并重建它们,来学习轨迹中的时序依赖性;MRM任务通过遮蔽道路网络的一部分并预测被遮蔽部分,来学习道路网络的拓扑结构;TP任务则关注轨迹和道路之间的交互,通过短期运动预测任务来捕捉交通场景中的时空关系。
高效的信息处理流程:SEPT模型采用了一个紧凑的信息处理流程,其中时序和空间信息被顺序编码,这导致了模型结构更加简洁,减少了功能性模块的数量,同时提高了模型的效率。
卓越的性能:SEPT模型在Argoverse 1和Argoverse 2这两个大规模运动预测基准测试中均取得了第一名的成绩,超越了之前的方法。此外,与最强的基线模型相比,SEPT模型在保持高性能的同时,实现了更快的推理速度和更少的网络参数,这表明了SEPT模型在效率和效果上的显著优势。
2. SEPT模型架构
2.1 输入层与特征表示
SEPT模型的输入层设计考虑了交通场景的复杂性,包括历史轨迹和车道线的特征表示。该模型通过投影层将这些多维度的输入特征映射到一个统一的表征空间中,为后续的时序和空间特征提取打下基础。
历史轨迹:SEPT模型将历史轨迹表示为
,其中A代表周围障碍物的数量,T代表时间序列的长度,而D_h包含了轨迹点坐标、时间戳、类型和其他数据集属性。这种表示方式能够捕捉目标代理及其邻域代理的运动信息,为时序特征提取提供丰富的上下文。车道线:车道线被表示为
,其中R代表道路向量的数量,D_r包含了车道起始点位置、车道长度、车道转向方向等属性。SEPT模型通过减少车道线的数量,降低计算量,同时保持了对道路网络结构的有效编码。特征映射:投影层
将不同输入维度的特征映射到固定维度D=256的表征空间中,这一步骤是特征融合的关键,为模型提供了一个统一的特征表示,以便于后续的Transformer模块进行处理。
2.2 TempoNet时序特征提取
TempoNet作为SEPT模型的核心组成部分,专注于从历史轨迹中提取时序特征。该模块由三个堆叠的Transformer Encoder组成,能够沿着时间维度T进行self-attention计算,并利用相对位置编码来捕捉时间序列中的相对位置关系。
Self-attention机制:TempoNet通过self-attention机制,能够对时间序列中的每个点进行全局依赖关系的建模,这使得模型能够捕捉到长期依赖性,对于预测未来的运动状态至关重要。
Max-pooling聚合:经过self-attention处理后,TempoNet使用max-pooling对时间维度的特征进行聚合,得到代理的时序特征表示
。这种聚合方式有效地提取了关键的时间信息,为后续的空间特征提取提供了丰富的时序上下文。
2.3 SpaNet空间特征提取
SpaNet模块由两个堆叠的Transformer Encoder组成,专注于从车道信息和轨迹信息中提取空间特征。SpaNet的输入是轨迹和车道信息的融合表示
,输出轨迹与车道之间的交互特征。空间交互特征:SpaNet通过self-attention机制,统一地对代理-代理、道路-道路、代理-道路之间的交互进行编码。这种编码方式使得模型能够捕捉到交通场景中的空间结构和交互关系,为运动预测提供了重要的空间上下文。
2.4 CrossAttender交互特征提取
CrossAttender模块由三个交叉注意力层组成,它使用一组可学习的query
去查询经过时空编码的特征,输出维度为的注意力特征,并经过两个MLP,输出轨迹和概率值。Learnable query:CrossAttender中的可学习query为模型提供了一种灵活的方式来捕捉时空特征之间的复杂交互,这对于预测交通参与者的未来运动状态至关重要。
MLP输出:经过CrossAttender处理的特征通过两个MLP层,最终输出每个代理的未来轨迹和相应的概率值。这种设计使得SEPT模型能够提供多模态的预测结果,增强了模型的预测能力和鲁棒性。
3. 自监督学习预训练
3.1 Marked Trajectory Modeling (MTM)
Marked Trajectory Modeling (MTM) 是SEPT模型中的关键预训练任务之一,旨在通过随机遮蔽并重建代理历史轨迹中的一些轨迹点来学习轨迹中的时序依赖性。这一任务对于捕捉运动约束产生的动力学模式至关重要。
随机遮蔽:在MTM任务中,模型随机选择并遮蔽代理历史轨迹中的一部分点,这些点的相对位置和运动状态被隐藏,模型需要基于剩余可见的轨迹点来预测这些被遮蔽点的特征。这种设计模拟了实际驾驶中对周围环境部分信息缺失的情况,迫使模型学习从有限信息中推断出完整的运动状态。
重建学习:MTM任务的目标是重建被遮蔽的轨迹点,模型通过最小化重建误差来优化参数。这一过程不仅增强了模型对轨迹时序特征的捕捉能力,而且提高了模型对异常值和噪声的鲁棒性。
性能提升:通过MTM任务预训练的模型在后续的运动预测任务中表现出更好的性能。实验结果表明,预训练模型在Argoverse等基准测试中的平均预测误差比未预训练模型低20%以上,这证明了MTM任务在提升模型预测能力方面的有效性。
3.2 Masked Road Modeling (MRM)
Masked Road Modeling (MRM) 是SEPT模型中的另一个预训练任务,专注于从道路网络中提取空间结构特征。通过随机遮蔽道路网络的一部分并预测被遮蔽部分,MRM任务使模型能够学习道路网络的拓扑结构和连接关系。
道路网络表示:SEPT模型将道路网络表示为一系列向量,每个向量包含道路段的起点、终点、转向等属性。MRM任务通过属性级别的掩码,将部分道路段的属性设置为零,迫使模型基于剩余信息重建被遮蔽的道路属性。
拓扑结构学习:MRM任务要求模型不仅要识别出道路网络中各个路段的位置,还要理解它们之间的连接关系。这种学习方式使得模型能够捕捉到道路网络的整体结构,为运动预测提供了重要的空间上下文。
交互关系建模:通过MRM任务,模型学会了如何从道路网络中提取与交通参与者行为相关的空间特征,这对于理解和预测交通参与者的运动状态至关重要。
3.3 Tail Prediction (TP)
Tail Prediction (TP) 是SEPT模型的第三个预训练任务,它关注于轨迹和道路之间的交互关系。TP任务通过短期运动预测任务来捕捉交通场景中的时空关系,为模型提供了一种有效的时空特征交互学习方式。
轨迹分割:在TP任务中,代理的历史轨迹被分为头部(head)和尾部(tail)两部分。模型的目标是基于头部轨迹和道路上下文信息来预测尾部轨迹,这一任务可以被视为完整运动预测任务的简化版。
时空交互捕捉:TP任务迫使模型同时考虑轨迹的时序信息和道路的空间结构,从而学习到更加丰富的时空交互特征。这种特征对于理解和预测交通参与者在复杂交通环境中的行为模式至关重要。
预测性能提升:实验结果表明,TP任务预训练的模型在运动预测任务中表现出更高的准确性和鲁棒性。预训练模型能够更好地捕捉到交通参与者之间的复杂交互关系,从而在预测未来运动状态时做出更准确的决策。
4. 微调与损失函数
4.1 微调策略
SEPT模型的微调策略是在预训练的基础上进行的,目的是进一步提升模型在特定运动预测任务上的性能。微调过程中,SEPT模型采用了端到端的训练方式,将预训练的编码器和解码器进行拼接,并在运动预测任务的数据集上进行微调。
端到端微调:SEPT模型在微调阶段,将预训练得到的编码器参数作为初始化,然后与解码器一起进行端到端的训练。这种策略允许模型在保持预训练得到的通用特征的同时,进一步学习特定任务的特定特征。
数据集适配:在微调过程中,SEPT模型使用了Argoverse等公开数据集进行训练。这些数据集包含了丰富的交通场景和运动模式,使得模型能够更好地适应实际的运动预测任务。
参数更新:在微调阶段,SEPT模型的所有参数都是可训练的,包括预训练阶段的编码器参数。通过这种方式,模型能够对预训练阶段学到的知识进行调整和优化,以适应新的数据分布。
微调效率:SEPT模型在微调阶段展现出了较高的效率。由于预训练阶段已经学习到了丰富的场景表示,微调过程只需要相对较少的迭代次数就能达到较好的性能,这大大减少了训练成本。
4.2 损失函数设计
SEPT模型的损失函数设计是其训练过程中的关键部分,它直接影响模型的学习效果和预测性能。SEPT模型采用了复合损失函数,包括轨迹的回归损失和分类损失。
回归损失:SEPT模型的回归损失部分是基于预测轨迹和真实轨迹之间的差异来计算的。这部分损失确保了模型能够准确地预测交通参与者的未来位置。具体来说,回归损失可以表示为:
分类损失:SEPT模型的分类损失部分是基于预测轨迹的置信度来计算的。这部分损失确保了模型能够对其预测结果的不确定性进行建模。分类损失可以表示为:
损失函数的平衡:SEPT模型在训练过程中需要平衡回归损失和分类损失。通过调整两者的权重,模型可以在准确性和置信度之间取得平衡,从而提高整体的预测性能。
损失函数的优化:SEPT模型在训练过程中使用了Adam优化器来最小化损失函数。Adam优化器结合了梯度下降和动量方法的优点,能够自适应地调整学习率,从而加快收敛速度并提高模型的稳定性。
5. 实验与评估
5.1 数据集与评估指标
为了全面评估SEPT模型的性能,我们选用了两个广泛认可的自动驾驶运动预测数据集:Argoverse 1和Argoverse 2。这些数据集因其规模大、场景多样性以及标注质量高而被广泛用于基准测试。
数据集特点:
Argoverse 1包含从多个城市收集的轨迹数据,涉及多车道、十字路口、进出匝道等多种交通场景。 Argoverse 2在Argoverse 1的基础上增加了更多复杂场景,提高了数据集的挑战性。 评估指标:
平均位移误差(Average Displacement Error, ADE):衡量预测轨迹与真实轨迹之间的平均欧氏距离。 平均最终位移误差(Average Final Displacement Error, AFDE):衡量预测轨迹与真实轨迹在最后一个时间步的欧氏距离。 预测精度(Prediction Accuracy):衡量在特定时间范围内,预测轨迹与真实轨迹的重叠比例。 多样性(Diversity):衡量预测结果的多样性,即模型能否生成多种可能的预测轨迹。
5.2 与现有方法的比较
我们将SEPT模型与当前最先进的运动预测方法进行了比较,包括基于规则的方法、传统的机器学习方法以及最新的深度学习方法。
与传统方法的比较:
SEPT模型在ADE和AFDE指标上显著优于传统方法,这得益于其强大的时空特征提取能力。 在处理复杂交通场景时,SEPT模型展现出更高的鲁棒性和适应性。 与深度学习方法的比较:
SEPT模型在Argoverse数据集上的表现超越了现有的深度学习方法,包括基于Transformer的模型。 在预测精度和多样性方面,SEPT模型提供了更加准确的预测结果和更丰富的预测轨迹。
5.3 实验结果分析
通过在Argoverse 1和Argoverse 2数据集上的实验,我们对SEPT模型的性能进行了深入分析。
ADE和AFDE结果:
SEPT模型在两个数据集上的ADE和AFDE结果均低于其他方法,表明其预测轨迹更加接近真实轨迹。 在不同时间步的预测中,SEPT模型展现出稳定的性能,这表明其时序特征提取的有效性。 预测精度和多样性:
SEPT模型在预测精度上优于其他方法,尤其是在预测时间较长时,其预测结果的准确性更高。 在多样性方面,SEPT模型能够生成多种可能的预测轨迹,这有助于评估不同交通参与者的行为不确定性。 案例研究:
我们进一步分析了几个具有代表性的交通场景,包括十字路口、进出匝道等复杂情况。 在这些场景中,SEPT模型不仅能够准确预测主要交通参与者的运动轨迹,还能够捕捉到次要参与者的动态变化。
通过以上实验结果分析,我们证明了SEPT模型在运动预测任务中的有效性和优越性。SEPT模型通过其创新的自监督学习框架和紧凑的信息处理流程,在多个评估指标上均展现出了卓越的性能。
6. 总结
6.1 研究贡献回顾
SEPT模型的研究贡献主要体现在以下几个方面:
自监督学习框架:SEPT模型提出了一种新颖的自监督学习框架,通过设计特定的预训练任务来训练场景编码器,有效捕捉交通场景中的动力学约束、道路网络的空间结构和交互关系,而无需依赖复杂的网络架构设计。 三重预训练任务:SEPT模型的三个预训练任务(MTM、MRM、TP)分别针对轨迹时序依赖性、道路网络拓扑结构和轨迹-道路交互关系进行学习,为模型提供了丰富的时空上下文信息。 高效的信息处理流程:SEPT模型采用了紧凑的信息处理流程,顺序编码时序和空间信息,减少了模型的功能性模块数量,提高了模型的效率。 卓越的性能:SEPT模型在Argoverse 1和Argoverse 2基准测试中取得了优异的成绩,超越了现有的方法,展现了模型在效率和效果上的显著优势。
6.2 实验结果与分析
实验结果表明,SEPT模型在多个评估指标上均优于现有的运动预测方法。具体来说:
ADE和AFDE:SEPT模型在两个数据集上的ADE和AFDE结果均低于其他方法,显示出其预测轨迹与真实轨迹的高度一致性。 预测精度和多样性:SEPT模型在预测精度上表现出色,尤其是在长期预测中,其准确性更高。同时,模型能够生成多种可能的预测轨迹,增加了预测结果的多样性。 案例研究:在复杂交通场景的案例研究中,SEPT模型不仅能够准确预测主要交通参与者的运动轨迹,还能够捕捉到次要参与者的动态变化,显示了模型的鲁棒性和适应性。
6.3 研究意义与展望
SEPT模型的研究不仅推动了自动驾驶领域运动预测技术的发展,也为理解和预测复杂交通环境中的交互模式提供了新的视角。未来的研究可以在以下几个方向进行拓展:
多模态数据融合:探索如何将SEPT模型与其他类型的传感器数据(如雷达、激光雷达)进行融合,以提高模型的感知能力和预测准确性。 实时性能优化:研究如何进一步优化SEPT模型的实时性能,使其更适合在实际的自动驾驶系统中部署。 更复杂的交通场景:在更加复杂和动态的交通场景中测试和优化SEPT模型,以提高其在现实世界中的适用性。 模型泛化能力:研究如何提高SEPT模型的泛化能力,使其能够在不同的地理和文化背景下有效工作。
总体而言,SEPT模型的研究为自动驾驶运动预测领域提供了一个强大的工具,其研究成果有望在未来的自动驾驶系统中发挥重要作用。
🏎️自动驾驶小白说官网:https://www.helloxiaobai.cn
推荐阅读:
🏎️自动驾驶小白说官网:https://www.helloxiaobai.cn