Abstract
尽管自动驾驶技术迅速发展,但在密集交通中并线仍然是一个重大挑战,许多针对该场景的运动规划方法已经被提出,但这些方法很难进行全面评估。目前大多数现有的闭环模拟器依赖基于规则的车辆控制,导致缺乏多样性和随机性,无法在高度交互的场景中准确评估运动规划能力。此外,传统的评估指标不足以全面评估在密集交通中的并线表现。为了解决这些问题,我们提出了一个闭环评估基准,用于评估并线场景中的运动规划能力。我们的方法采用在大规模数据集上训练的其他车辆,具有微观行为特征,显著增强了复杂性和多样性。此外,我们通过利用大型语言模型(LLMs)对每个自动驾驶车辆并入主干道的过程进行评分,重新构建了评估机制。大量实验表明,该评估基准具有先进的特性。通过该基准,我们对现有方法进行了评估,并发现了常见问题。
项目地址:https://anonymous.4open.science/r/Bench4Merge-EB5D
欢迎加入自动驾驶实战群
Introduction
在密集交通中并线是一个高度交互的驾驶场景,自动驾驶车辆面临着重大挑战。这些挑战通常源于无法与周围车辆有效互动,以创造足够的空间进行并线,导致交通停滞。最近,关于这种场景中运动规划的研究不断增加,旨在提高自动驾驶车辆在密集并线场景中的交通处理能力。然而,在仿真环境中对这些方法进行全面评估仍是一个未解决的问题。评估问题主要来源于并线过程中缺乏现实的微观交互行为,限制了对这些方法的进一步分析、训练和优化。
典型的自动驾驶闭环评估基准主要包含三个部分:初始场景生成、场景迭代更新和评估指标。现有的初始场景生成方法可以分为基于规则的生成方法和基于神经网络的生成方法。基于规则的方法通常采用之前研究中的预定义交通流规则,但这些方法难以反映真实环境。另一方面,基于神经网络的生成方法无法充分表现车辆之间的互动,因此不适用于密集并线场景中的闭环仿真。此外,现有的评估指标分为安全性、效率和舒适性等方面,但往往未能考虑驾驶模式的不同,例如车辆是否处于紧急状态。这种对单一指标的依赖导致对算法的片面评估,无法全面捕捉其性能。
3. BENCH4MERGE
A. 概述
Bench4Merge 由三个主要组成部分构成:场景级生成、主路车辆的微控模型和基于LLM的大语言模型评估,如图2所示。首先,我们的场景生成与基于预定义规则随机排列初始场景的方法不同,完全来源于真实世界的数据分类。其次,周围车辆的运动策略是基于大规模密集并线交通数据集进行训练的,能够有效捕捉微观交互特征。通过引入特征标签,反映不同车辆的个性,使得环境中的每辆车都能单独观察状态、规划轨迹并迭代动态更新,实现实时的微观交互。最后,评估模块基于大语言模型(LLM),通过LLM对被测车辆的并线过程进行评分并提供改进建议。这种方法克服了以往离散指标的局限性,能够根据车辆的驾驶模式进行动态调整。
B. 初始场景
为了实现更逼真的初始环境生成,我们从真实世界中提取了初始场景数据,并对这些场景进行了分类,使得Bench4Merge能够提供更丰富的场景组合,进行更全面的评估。这种方法克服了以往车辆仅根据预定义规则沿着中心线排列的局限性,生成的环境更具现实性和多样性。
最终,我们从DJI Dense Traffic Dataset(DJI 密集交通数据集)中提取了超过50,000个初始场景。数据显示,场景中的平均速度和平均间距呈现线性关系:平均间距越小,平均速度越慢。我们利用高斯混合模型(GMM)算法,以平均速度和平均间距作为分类特征,将场景分为三类:高度密集、中等密集和较低密集环境。
C. 微控车辆模型
训练数据构建:我们选择了 DJI 稠密交通数据集作为主要数据来源。为了增强数据多样性并提升车辆控制模型的泛化能力,我们还从 nuPlan和 ExiD数据集中提取了大量与并道场景相关的数据。为了更好地体现这些车辆的多种行为类型,我们对所选数据进行了分析,最终将车辆分为三类:长车、进攻型车辆和友好型车辆。这三种类型在交互行为上表现出显著差异。图4(a)显示了车辆长度的分布,依据中国交通法规,长短车辆的划分线定义为6米,平均长度分别为4.7米和11.5米。进攻型和友好型车辆均属于短车类别。
我们将整个过程中始终未被插队的车辆定义为“进攻型”车辆,其他车辆则归类为“友好型”车辆。如图4(b)所示,进攻型车辆的横向偏移更大,而友好型车辆的横向偏移较小,这进一步突显了主车道车辆在微观层面的横向交互的重要性。第四章的表III汇总了具体的数据,长车与其他两种类型的车辆相比表现出显著不同的特征。
最后,我们根据公式(1)构建了每个训练样本。每个样本包括目标车辆和其他车辆的状态,以及地图信息,如图5所示。“其他车辆”类别包括所有位于自车引导范围和交互范围内的车辆。
其中,坐标系以目标车辆的后轴为中心,θ表示航向角,v表示速度,a表示加速度,d表示与前车的距离。标签对应于车辆的风格标签。表示主车道的航点,表示并道的航点。我们的环境以10Hz的频率更新,每个数据样本包含50帧信息。前10帧作为输入,后40帧作为真实值。值得注意的是,我们的车辆分类方法可以根据需要适应更广泛的风格区分。
训练设置:我们设计了一个基于模仿学习的模型,用于模拟主车道车辆的驾驶行为,如图2右下部分所示。为了有效捕捉微观层面的交互特征,模型将所有车辆状态,包括选择的车辆和主车道车辆,以及车道信息作为输入,基于注意力机制规划每个主车道车辆的未来轨迹。这里,和分别表示车辆和道路折线的数量。
具体而言,我们将每个车辆状态表示为 ,将道路折线表示为 ,其中 和 分别对应历史帧数和折线点数。和是输入特征的维度,其中 包含每个时间戳下每辆车的位置信息、速度、加速度和个性标签,而包含每个点的坐标。我们首先将这些特征规范化到目标主车道车辆 的局部坐标系。然后,通过两个专用的线性网络将车辆特征和道路特征展平并投影到相同的维度以进行后续的注意力操作:
接下来,将投影后的特征和输入两个基于注意力的模块。首先,对 使用一个自注意力模块,使所有车辆特征相互交互,从而捕获车辆的微观交互特征。在第二个模块中,更新后的车辆特征作为查询,道路特征作为键和值,一同输入交叉注意力层。此后,车辆特征同时获得了其他车辆和道路结构的信息:
最后,使用另一个线性网络预测目标车辆的未来轨迹 :
需要注意的是,为了保持坐标的一致性,模拟中我们仅保留目标车辆的预测结果。在处理每个主车道车辆后,整个场景即可更新。
在训练过程中,一个驾驶场景会被分割为多个数据样本,每个样本包含一个目标车辆。对于每个数据样本,我们使用均方误差(MSE)损失来监督目标车辆的未来位置、速度和航向角的预测:
其中表示一个指数衰减加权机制,它允许根据时间步的重要性对预测误差进行加权:
除目标车辆的损失外,我们还使用一个辅助预测模块来输出所有车辆的轨迹,并为每辆车计算损失,以提高训练效率。因此,最终损失组合如下:
D. 基于LLM的综合评估
如图6所示,我们首先为每个样本计算多项数据,包括平均速度、加速度的平均/最大变化率、总耗时、并道点的位置以及与其他车辆的平均/最小距离,同时输入主车道的交通信息。此外,我们提供了关键的先验知识,例如舒适加速度范围、有效速度范围以及与其他车辆的安全时间间隔,以为LLM提供必要的参考信息。最后,我们输入被测试车辆的当前模式,比如车辆是否处于紧急状态或放松状态。使用LLM的一个显著优势在于,它避免了为不同模式下的车辆设计复杂评估规则的需求,这是以往方法中的一个难题。
在提示的设计中,我们首先指示模型从安全性、舒适性和效率三个角度分析场景。然后,要求模型给出一个综合评分,并明确指示不要为每个方面单独评分,而是专注于综合评分。最后,提示模型提供潜在的改进建议。此方法旨在直观地识别方法的不足之处,并揭示不同方法中的常见问题,从而指导进一步优化规划方法。
4.Experiment
A. 基于LLM评估的有效性
我们引入了一个基于LLM的评估器,具体为阿里巴巴的Qwen 70B。为了展示LLM作为评估机制的有效性,我们与人类专家的评分结果进行了比较。我们进行了100次实验,保存了视频和数据,并以输入LLM的相同格式呈现给人类专家。邀请了10位专家,将他们分成5对,每对专家负责评分相同的20个样本(如表I所示)。然后,将专家评分与LLM评分进行了比较。使用皮尔逊相关系数和均方误差(MSE)来评估人类评分和LLM评分之间的相关性和差异,相关系数超过0.8,表明具有强相关性。评分差异均在1到2分的范围内。
我们进一步验证了LLM的有效性,通过指示其仅分析特定方面。结果显示(如表II所示),当仅要求评估效率时,数据被调整为更高效的过程,LLM为较高速度的情况赋予了显著更高的分数。此外,当驾驶模式改为“放松”模式,且保持其他数据不变时,模型对舒适性的评估降低。这一变化表明模型在此模式下优先考虑舒适性而非效率,从而突显了我们评估机制的综合性。
B. 微观可控车辆模型的有效性
我们还展示了车辆能够反映微观层面的特征。为此,我们对环境进行了100次测试,分析了我们配置的三种车辆风格之间的关键指标差异。如表III所示,友好车辆与进攻性车辆之间的平均距离分别为5.31米和3.45米,与数据集中5.35米和4.07米的结果非常接近,表明我们的模型有效捕捉了微观行为。
我们在环境中实现了一个基于强化学习(RL)的方法。与之前的环境相比,平均得分和成功率较低,表明之前基于规则定义的主车道车辆缺乏真实交通参与者的微观行为,从而导致场景过于简单。值得注意的是,不同的初始场景在我们的环境中表现出了不同的成功率,进一步凸显了初始环境分类(见章节III-B)的重要性。
结论
本文贡献如下:
本文提出了用于评估密集交通并线场景中的运动规划方法的新基准Bench4Merge,该基准集成了更加现实的并线场景、丰富的微观交互行为以及更全面的评估机制。
本文设计了一种深度神经网络架构,用于捕捉数据中的微观交互行为,周围车辆基于环境频率更新其规划和状态。
本文重新构建了评估机制,利用大型语言模型(LLMs)进行评分,克服了传统单一评估指标的局限性。
通过该基准,发现了现有并线方法中以前未被注意到的问题,旨在推动自动驾驶在复杂交通环境下的进一步发展。
本文引用:Bench4Merge: A Comprehensive Benchmark for Merging in Realistic Dense Traffic with Micro-Interactive Vehicles
最后别忘了,帮忙点“在看”。
您的点赞,在看,是我创作的动力。
AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。
长按扫描下面二维码,加入知识星球。