不确定路口场景下考虑驾驶风格的安全平衡轨迹规划

文摘 2023-11-21 16:44 上海

编者按：本文提出了一种安全平衡的两阶段轨迹规划方法，该方法考虑了其他车辆的驾驶风格，以解决交叉口场景中周围交通参与者的行为不确定性导致的车辆轨迹规划困难。

本文译自：

《Safety-Balanced Driving-Style Aware Trajectory Planning in Intersection Scenarios With Uncertain Environment》

文章来源：

IEEE TRANSACTIONS ON INTELLIGENT VEHICLES

作者：

Xiao Wang, Ke Tang, Xingyuan Dai , Jintao Xu, Jinhao Xi , Rui Ai, Yuxiao Wang, Weihao Gu, Changyin Sun

作者单位：

安徽大学人工智能学院、毫末智行科技有限公司、中国科学院自动化研究所复杂系统管理与控制国家重点实验室

原文链接：

https://ieeexplore.ieee.org/document/10026339

摘要：本文提出了一种在社会环境不确定的交叉口场景中，考虑其他交通参与者（即不同驾驶风格的人类驾驶车辆）的自动驾驶车辆（SDV）的两阶段轨迹规划方法。首先利用专家混合方法从人类驾驶轨迹数据中学习，构建多模式运动规划器，该规划器使用Transformer通过明确考虑车辆的驾驶风格来对车辆之间的交互进行建模，以便于集成网络实现场景一致的多模式轨迹预测和候选轨迹生成。其次，基于SDV的生成轨迹和其他HDV的预测轨迹，通过安全平衡值函数来评估每个候选规划轨迹。之后，选择具有最高值的轨迹进行实现。这种方法在复杂和不确定的场景中规划安全高效的驾驶轨迹。实验结果证明了所设计方法的有效性和有效性，以及考虑HDV行为动力学的SDV在交叉口机动决策的稳健性和合理性。

关键词：自动驾驶汽车，轨迹规划，社交互动，不确定环境

Ⅰ 引言

在城市道路上的十字路口，新参与者不时加入的轨道规划是日常驾驶中最常见但最具挑战性的任务[1]。感知和响应时变的社会情境变化对于自动驾驶汽车（SDV）在与周围交通参与者互动时做出安全、有效和高效的决策至关重要。因此，他们的社会复杂性成为最具挑战性但又至关重要的因素。

当考虑到其他参与者是具有一致驾驶风格的人类驾驶车辆（HDV）时，学习和分析驾驶风格[2]、感知和预测新参与者的意图以及根据情景变化做出自主决策是SDV在规划通过十字路口的轨迹时的三大主要功能。

图1显示了一个典型的左转轨迹规划场景，该场景受到十字路口迎面而来的车辆的干扰。在驾驶时，SDV所需的左转轨迹规划也应考虑交通安全并避免拥堵。因此，如图1（a）所示，如果迎面而来的车辆的驾驶风格激进，并有坚定的直行意图，则SDV需要让行并减速以避免碰撞。然而，如果迎面而来的车辆的驾驶风格是保守的，意图左转，如图1（d）所示，SDV直接执行左转决策。因此，学习和分析相关参与者的驾驶风格对于SDV轨迹规划至关重要。

传统的基于规则的规划方法为上述复杂情况设置预定义的建模规则。他们通常通过综合考虑交通参与者之间的即时社会互动来做出合理的规划决策，以确保特定的通过率。但是，这些预定义的规则不能涵盖交叉口中的所有可能情况。不断发生的规则未覆盖的角落案例导致基于规则的规划方法总是失败。此外，基于规则的SDV不能相互传递和共享关于不同场景的共同知识。这种共享信息的能力的缺乏与上述约束相结合，导致基于规则的方法无法有效利用大数据的优势，并限制了它们与流行的深度学习方法的兼容性。

图1 SDV的轨迹规划将受到不同驾驶风格和周围HDV驾驶意图的影响

数据驱动的轨迹规划方法恰恰相反，可以互补地使用大数据、深度学习和强化学习方法来应对交叉口决策的挑战。对他们来说，增强场景泛化和建模不确定环境对于SDV在不同时间和场景下实现安全合理的轨迹规划至关重要。然而，最先进的方法往往无法同时实现上述两个目标。Bansal等人提出了ChaufeurNet，它直接从专家数据中学习轨迹规划[3]。尽管这种方法比传统的基于规则的规划方法更具可扩展性，但它没有考虑环境不确定性的情景和预测的泛化。因此，它不能保证自动驾驶的安全。为了解决环境的不确定性，Diehl等人提出了UMBRELLA模型[4]，该模型通过对部分可观测环境中的不确定性进行建模，解决了自动驾驶的预测、规划和控制问题。然而，该模型没有考虑自动驾驶汽车规划轨迹的多样性，缺乏对环境实体的关系推理能力，导致规划的场景泛化能力较差。同时，上述方法生成的单一轨迹难以保证行车安全，规划的路线也不一定满足下游控制器的动态要求。为了解决这个问题，考虑环境随机性的多模式轨迹生成正受到研究人员的关注[5]。然而，现有的多模式轨迹规划方法往往忽视了社会因素对环境的影响，难以确保驾驶安全。

并行驾驶是在21世纪初提出的，旨在通过在数字化证明小组中进行培训来提高SDV的安全性、智能性、敏感性、安全性、可持续性和效率[6]，[7]。最近，随着数据驱动的机器学习方法的发展，学者们将这一思想扩展到了虚拟-真实的交互式学习和测试，并进一步提出了并行学习[8]、[9]、[10]、[11]和并行测试方法[12]。同时，MIT、Waymo和Intel也注意到了虚拟空间预训练的重要性，分别提出了并行自主[13]、数据闭环平台[3]和变道模型[14]，验证了并行驾驶的有效性和识别性。

我们的工作建立在关于并行驱动的研究思想之上，旨在设计一个并行推理架构和开发安全高效的轨迹规划新方法。在其他交通参与者之间存在不确定社会互动的交叉口场景中，我们提出了一种SDV的两阶段轨迹规划方法。考虑驾驶风格和意图的不确定性，在保证驾驶安全的同时，实现更好的场景泛化性能。具体来说，我们从专家驾驶轨迹数据中学习，并构建了一个专家混合（MoE）[5]，[45]多模式轨迹生成器，该生成器类似于[5]中描述的架构。Transformer[15]用于捕捉车辆的交互行为，并将驾驶风格感知模块与网络相结合，以实现场景一致的多模式轨迹预测和规划。其次，设计了一个安全验证模块来评估在第一阶段获得的候选规划轨迹；然后，为下游控制器选择具有最高安全分数的轨迹。

新参与者不断加入的城市道路交叉口的轨迹规划一直是SDV最常见但最具挑战性的任务之一。为此，我们关注交叉口驾驶的社会复杂性，提出了一种安全平衡的驾驶风格感知轨迹规划方法。这项工作的主要贡献包括：

1）设计了一种两阶段自动驾驶轨迹规划方法，该方法提高了自动驾驶策略的安全性、合理性和鲁棒性。

2）提出了一种考虑周围车辆驾驶风格和驾驶意图的候选轨迹生成方法。该方法提高了SDV预测周围车辆多模式轨迹的能力，从而帮助SDV在交互场景中生成安全且可解释的轨迹。

3）提出了一种基于候选轨迹预测的安全验证机制，以平衡规划轨迹对周围不确定车辆行为的安全性和效率。

4）实验结果表明，所设计的方法通过明确考虑周围车辆的驾驶风格，在不确定环境的交叉口规划安全有效的轨迹。

本文的其余部分组织如下。第二节介绍了相关工作。第三节介绍了所提出的两阶段规划方法的方法。第四节说明了所提出的方法是如何实现、验证和评估的，并阐述了实验的结果和解释。第五节总结了本文的工作，并介绍了我们对SDV轨迹规划发展的看法。

Ⅱ 相关工作

自动驾驶汽车必须与其他交通参与者就驾驶时的道路使用权进行协商，以实现其在复杂社会交通场景中安全高效驾驶的目标[59]。SDV在这种复杂情况下的安全路径规划可以通过预测和分析他人的驾驶风格和意图，并及时做出适当的机动决策来制定。主要功能包括（1）学习和预测其他人的驾驶风格和意图具有流动能力的交通参与者；（2）根据道路交通状况以及潜在冲突车辆的风格和意图，生成可行的多式联运路径；（3）对生成的路径执行安全验证；以及（4）选择安全平衡的最优驾驶路径。

A. 驾驶风格识别

驾驶风格是指驾驶员在不同的外部因素（如时间和天气）下，在不同的驾驶场景中如何操纵[2]。由于交通状况的社会复杂性和驾驶员状态的不确定性，即使在相同的场景下，他们也可能表现出不同的驾驶风格。预测他们的驾驶风格有助于提高SDV轨迹规划的安全性和效率。

目前的相关算法主要分为基于规则的、基于模型的和基于机器学习的方法。早期基于规则的方法使用先验知识并管理有限数量的变量和数据来对驾驶风格进行分类。基于模型的方法使用一组预定义的特征方程来描述驾驶风格，通过调整参数来拟合驾驶风格数据[16]，[17]，[18]。这些方法可以对驾驶风格有很高的识别能力，但对模型的设计来说更为复杂。

基于机器学习的方法可以具体细分为三类：（1）无监督训练方法，对具有输入特征的数据进行统计分析，以实现分类[19]，[20]；（2）监督训练方法，如K近邻（KNN）、神经网络、决策树、随机森林和马尔可夫模型[21]、[22]、[23]、[24]，它们使用已知的样本特征和相应的风格进行训练；以及（3）无监督和有监督混合方法，将两者的优点结合起来，以提高整体驾驶风格识别性能。一个例子涉及组合K-means和支持向量机（SVM）[25]。无监督训练方法有广泛的应用，但输出缺乏可解释性；监督训练方法具有较少的模型参数，易于理解，但模型的精度可能更令人满意。无监督和有监督方法的结合可以利用两者的优势来提高整体驾驶风格识别性能。

B.驾驶意图推断

驾驶意图推理是指在即将到来的时间步骤中对周围车辆随时间的行为进行推理[26]。在同一场景中，不同的车辆具有不同的驾驶意图，并产生不同的驾驶轨迹。准确推断其他交通参与者的意图有助于SDV规划正确和安全的道路。

驾驶意图推理方法包括基于概率的方法和基于学习的方法[27]。基于概率的方法通过动力学和动力学函数对车辆行为进行建模，并通过正态分布对不确定性进行建模。基于学习的方法主要通过与环境有关的数据驱动的车辆状态信息来推断驾驶意图。Zyner等人[28]使用长短期记忆网络来识别十字路口的车辆意图。Lee等人[29]提出使用卷积神经网络（CNNs）来预测和推断交通参与者的变道意图，并通过模型预测控制来提高安全性和乘坐舒适性。丁等人[30]提出了一种高速公路场景的驾驶意图预测方法，该方法通过考虑车辆的交互行为来预测车辆意图。上述研究的缺点是难以有效地使用驾驶员行为数据，也难以充分考虑驾驶风格对驾驶意图的影响。本文提出了一种数据驱动的轨迹规划方法，通过考虑驾驶员的风格并预测合理的驾驶轨迹来推断意图。

C. 数据驱动的轨迹预测

近年来，由于数据集在数量和内容方面的复杂性不断增加，研究人员专注于基于深度学习模型的自动驾驶轨迹预测任务[57]。基于数据驱动的方法，可以使用大量数据来训练模型。这些方法中的大多数由编码器-解码器体系结构组成。早期基于CNN的[31]和基于递归神经网络（RNN）的[32]方法分别通过使用鸟瞰图和历史轨迹来提取空间特征和时间序列信息。然而，这种方法会遇到场景信息丢失和远距离依赖问题。更重要的是，车辆之间的交互信息被遗漏了。尽管图神经网络[33]在后来的研究中被用于通过矢量化对交互信息进行建模，但这些模型是“黑匣子”，模型可解释性差，预测轨迹单一。为了解决上述问题，使用生成对抗性网络（GAN）对环境信息的不确定性进行建模，并生成多模式预测轨迹[34]。然而，基于GAN的方法存在模式崩溃的问题[35]，这会导致训练模型崩溃并阻止其收敛。此外，Social GAN模型忽视了周围车辆的驾驶风格和意图变化，与现实不符。为了解决这个问题，领导者-追随者博弈控制器模型[36]使用博弈论方法对周围车辆的驾驶风格和意图分类进行建模。基于注意力的机制方法[37]是一种流行的策略，最近引起了研究人员的注意。这种方法可以快速关注高价值因素，尤其是从自然语言处理领域到自动驾驶领域都采用的Transformer方法[38]。该模型可以生成高度精确的多模式轨迹。在本文中，我们使用数据驱动的规划方法，并使用鸟瞰语义图作为输入，该语义图由高清晰度（HD）地图和代理组成。为了考虑HDV驾驶行为的不确定性，通过变压器对车辆之间的相互作用进行了建模，并对HDV的驾驶风格进行了显式建模。解码器输出基于驾驶风格的多模式预测轨迹，具有安全敏感性和可解释性。

D. 安全敏感轨迹规划

作为自动驾驶系统的核心模块之一，轨迹规划模块用于接收环境从感测模块输入的信息，并输出用于下游控制模块的轨迹。轨迹规划模块首先使用环境和交互信息预测未来轨迹，并基于生成的多模式轨迹生成安全且可解释的规划轨迹。合理的路径规划是实现安全自动驾驶的关键。本文将轨迹规划任务分为数据驱动的单模态和安全敏感的多模态轨迹规划。

数据驱动的单峰轨迹规划方法主要基于模仿学习，从专家数据中学习驾驶策略。基于模仿学习的早期轨迹规划使用了行为克隆（BC）[4]。然而，BC依赖于专家数据，经历级联错误，在未知情况下安全性低。尽管数据聚合方法解决了级联错误的问题，但人力成本增加了。在随后的研究中，提出了生成对抗性模仿学习（GAIL）模型来解决BC模型中的级联误差问题[39]。GAIL由一个发生器和一个鉴别器组成。训练生成器生成专家样本，训练鉴别器生成与实际样本可区分的样本。这些数据驱动的方法侧重于应用顺序决策技术来模拟人类驾驶员。这种基于奖励的学习模型避免了行为克隆方法中短视的行为选择的缺点。GAIL可以生成不受级联错误影响的长期轨迹。Kuefler等人将GAIL应用于高速公路驾驶场景[40]。然而，上述方法没有考虑驾驶风格和驾驶意图，这是构成不确定性的主要因素。ChaffeurNet[3]将鸟瞰图作为输入，并提取环境信息。实际数据和模拟数据的混合用于训练模型。将输出的预测轨迹作为专家数据，结合专家的行为变化，学习漂移后的恢复，避免碰撞、摇摆、车道偏离等危险行为。UMBRELLA[4]以可解释的学习方式联合解决SDV的预测、规划和控制问题。该方法通过基于模型的方法从离线数据中训练模型，同时考虑环境的部分可观测性和不确定性。

数据驱动的多模态轨迹规划方法在规划过程中考虑了SDV对其他主体的影响。一项有代表性的研究首先预测了周围车辆的轨迹，生成了多模式候选轨迹，然后通过基于规则的度量选择了最终轨迹[5]。尽管数据驱动的作品对规划有高精度的推断，但它们没有考虑道路代理人驾驶风格的影响。因此，很难保证轨迹规划的合理性和一致性。在本文中，我们设计了一种驾驶风格感知的多模式规划方法，并提出了一种基于安全敏感性的安全评估环节作为轨迹选择方法，以实现安全高效的规划。

Ⅲ 方法论

本节首先描述SDV和HDV相互作用下的轨迹规划问题。然后，我们提出了一种两阶段轨迹规划方法，该方法包括驾驶风格感知的候选轨迹生成和基于安全性验证的轨迹选择。所提出的方法通过明确建模驾驶风格的不确定性和周围HDV的意图来学习交互场景中人类驾驶员的驾驶行为，以生成合理的驾驶轨迹。此外，我们对候选轨迹进行了安全验证，以提高SDV在复杂交互场景中的驾驶可行性。

A.问题表述

在预定路线的引导下，轨迹规划器考虑车辆的多目标要求和相应的动力学约束，并输出最佳可执行轨迹。我们将由SDV和不同数量的交互式交通参与者组成的驾驶场景公式化为连续空间中的离散时间系统[41]。SDV表示为，其他业务参与者（即HDV）表示为。应该注意的是，其他交通参与者可以是代理显示的车辆、自行车或行人。代理在时间状态表示为，相应的轨迹为。除了代理，还考虑了场景上下文，包括带有交通信号的矢量化高清地图。上下文表示为。在时间，给定SDV和HDV的历史状态，以及场景上下文，轨迹规划的目标，同时确保轨迹满足安全性和效率的要求。

B. 模型框架

在交互场景中，周围主体驾驶行为的不确定性导致SDV安全规划困难。如果SDV打算规划一条安全的轨迹，它需要准确预测其他车辆的运动，这些车辆受到驾驶员驾驶风格和驾驶意图的影响。同时，周围车辆的运动也将受到SDV未来轨迹的影响。因此，SDV需要充分考虑这些因素造成的环境不确定性，以确保规划行为安全高效。为了解决在具有不确定性和复杂社会互动的交叉口场景中规划的困难，我们提出了一种两阶段轨迹规划方法，该方法包括基于HDV驾驶风格识别的候选轨迹生成、驾驶意图判断和基于安全验证的轨迹选择。

模型架构如图2所示。首先，我们构建了一个多模式联合预测和规划模块，考虑候选轨迹生成阶段期间的车辆驾驶风格。该模块接受鸟瞰语义图作为输入，其中包括高清地图和其他车辆代理。车辆交互通过Transformer进行编码。同时，对周围HDV的驾驶风格进行了显式建模，并将预测的车辆驾驶风格的可能性用作条件约束，以帮助轨迹解码网络实现感知交互的联合预测和规划。该过程生成SDV的候选轨迹。在轨迹选择阶段期间，安全敏感轨迹评估函数基于第一阶段中其他车辆的预测轨迹以及其他道路信息对每个候选轨迹进行评分。最后，选择具有最安全分数的轨迹用于控制器执行。我们在第III-C节和第III-D节中详细介绍了这两个阶段。

图2 两阶段安全平衡驾驶风格感知轨迹规划器的框架

C. 驾驶风格感知的联合预测和规划

本小节介绍了考虑HDV驾驶风格的拟议联合预测和规划模块。我们首先介绍模块的输入和输出。然后，我们设计了网络结构，最后，我们提出了训练方法和优化目标。

1）输入和输出表示：联合预测和规划网络基于当前观察到的矢量化鸟瞰状态生成SDV多模式候选轨迹和周围HDV多模式预测轨迹。其输入和输出的具体表示如下：

受最近矢量化表示方法[5]、[42]的启发，我们以矢量形式描述驾驶场景，并将以下数据用作联合预测和规划网络的输入：输入包含动态实体、静态实体和额外信息。动态实体包括SDV的当前姿势和过去姿势，其中包括最后步的坐标和偏航角，以及HDV的当前和过去姿势及其类型。静态实体包括带有车道、人行横道、十字路口和红绿灯的静态HD地图。额外信息包括指示SDV应遵循的中间车道的路线。每个输入元素被编码为以SDV为中心的参考帧，并包含元素类型作为附加特征。

该模型的输出由三个部分组成：多模式轨迹规划、驾驶风格识别和周围车辆的多模式轨迹预测。

轨迹规划输出由个未来SDV轨迹和相应的概率分布组成。每个SDV轨迹被定义为一组个离散状态

其中，是区间中的时间步长，分别表示车辆中点相对于当前力矩的水平和垂直坐标以及偏航。这些值构成了车辆姿态。概率分布被定义为给定当前状态的个SDV轨迹的可能性；该可能性是根据人类驾驶轨迹数据计算的，并用于对当前状态下人类专家的不确定驾驶行为进行建模。第III-C-3节介绍了具有相应轨迹概率可能性的多模式规划轨迹的计算。

驾驶风格识别输出标记场景中的个HDV的瞬时驾驶风格。每个HDV的预测驾驶风格输出都表示为三维单热编码，对应于激进、温和和保守的驾驶风格。

该模型的轨迹预测输出包含周围代理的未来轨迹和用于评估每个代理遵循个可能的未来轨迹的可能性的概率分布。与规划输出类似，每个代理的预测轨迹被定义为一组离散的状态

每个概率分布，被定义为代理的个可能的未来轨迹。该概率分布用于选择最可能的轨迹。

2）模型架构：基于驾驶风格的联合预测和规划模型架构如图2所示。每个模块的整体架构都是使用神经网络构建的，骨干网络的设计与[5]类似。我们网络的主要区别在于中间层，它识别周围车辆的驾驶风格。所设计的网络采用端到端联合训练，确保我们的网络有效地模拟交叉口场景中驾驶风格和车辆意图的多样性。该模型可以更好地描述交叉口状态，并帮助规划人员生成安全高效的轨迹。整个网络可以分为编码器和解码器。编码器将以SDV为中心的场景矢量状态映射到隐藏嵌入。我们应用元素式点编码器来提取交叉口状态的矢量化表示，以有效地对交叉口场景中的静态和动态元素关系进行建模。具体来说，我们首先考虑场景中每个实体的局部关系，并分别对输入场景中每个矢量化实体（例如，静态映射和代理）的状态进行编码。每个实体状态中的点特征通过多层感知器（MLP）以相同的长度嵌入，而点的位置信息通过正弦编码进行编码。嵌入的每个实体的点集与相应的位置编码一起被馈送到3层PointNet[43]中，该3层PointNet输出每个实体的特征编码。所有实体的编码都具有相同的维度。然后，我们考虑场景中实体之间的全局关系。基于每个实体的编码，我们使用DETR架构[44]执行全局特征聚合，DETR架构是编码器-解码器转换器。基于通过PointNet提取的车辆局部特征，配备了自注意模块的Transformer捕捉全局场景特征。该方法包括使用Transformer编码器对所有输入元素（SDV、道路代理、动态地图和车道线）之间的关系进行编码，并使用Transformer解码器查询SDV和代理的特性。Transformer解码器的查询是使用一组可学习嵌入来形成的，这些可学习嵌入是通过将PointNet网络输出的SDV嵌入添加到可学习集合来创建的，以生成针对每个预测的未来SDV轨迹的不同查询。

我们架构中的解码器包含两个模块。驱动风格解码器基于场景状态编码输出周围HDV的驱动风格。轨迹解码器基于场景状态编码和驾驶风格解码器的中间层特征，将周围车辆的预测轨迹与SDV规划的候选轨迹联合输出。具体地，驱动风格解码器由缩放的点积关注层和MLP层组成。它的输出预测了个代理的三种驱动方式（激进、温和和保守）的概率。规划轨迹解码器和预测轨迹解码器共享缩放的点积注意力层，并包含单独的MLP层，构建在共享层之上，用于预测和规划。共享层的输入包含场景状态编码的合并嵌入和驱动风格解码器的中间层输出。轨迹解码网络输出具有多模式规划轨迹和每个轨迹的相应概率似然性的代理的预测多模式轨迹。

3）训练过程和目标函数：受[5]的启发，我们使用模仿学习来训练联合预测规划网络，训练目标包含三个组成部分：预测的SDV轨迹与人类专家轨迹之间的距离、预测的agent轨迹与其实际未来轨迹之间的距离，以及预测的代理驾驶风格与其驾驶风格标签之间的距离。驾驶风格标签是在训练过程之前通过在离线数据集中聚类获得的。

联合预测和规划过程表示为MoE模型，用于预测SDV和周围代理的多个轨迹。此外，还获得了与专家选择相对应的每个轨迹集的概率分布。为了避免专家训练和专家选择过程中的模式崩溃问题，我们使用了一种贪婪方法，其中选择了损失计算的最大概率轨迹。我们在预测轨迹和目标轨迹以及概率之间建立匹配成本，以便成本最低的专家成为赢家。计算每个SDV轨迹的匹配成本，并通过

其中

是轨迹的预测概率。是轨迹平滑性正则化项。然后，损失最小化

反对意见在轨迹规划的模拟损失和多模态损失之间进行权衡。

驾驶风格识别网络与预测和规划网络以端到端的方式进行训练。K-means聚类算法[2]，[46]，[47]，[48]用于基于车辆轨迹生成瞬时驾驶风格标签。驾驶风格识别包括三个步骤：生成轨迹数据集，从轨迹数据集生成速度和加速度数据集，以及识别每个场景中周围人类驾驶员的驾驶风格。训练集中的每个场景都通过捕捉车辆轨迹的速度和加速度来创建数据集，并通过无监督K-means聚类获得驾驶风格标签。K-means聚类的输入由表示每个场景中每个车辆的速度或加速度数据的向量样本组成。将获得的场景中每辆车的标签编码为三维单热嵌入，表示集群的三个驱动风格标签：激进、温和和保守。我们的驾驶风格识别模型基于周围车辆的当前和过去状态来识别其驾驶风格，目标函数被设计为预测驾驶风格的交叉熵函数

其中表示交叉熵函数。

D. 安全平衡轨迹选择

联合预测和规划模块在第一阶段生成的候选轨迹被用作第二阶段的输入，并且具有最高安全值的轨迹被选择用于执行

在进行轨迹选择时，我们考虑了生成的SDV的多模式轨迹和预测的HDV的轨迹。对每个未来SDV轨迹τi和预测的HDV最可能轨迹进行碰撞检查。通过计算车辆边界框之间的重叠面积进行安全验证。边界框之间的最短距离表示为。然后，SDV与车道中间带之间的距离（用表示）也用于评估SDV轨迹的合理性。以上两个指标用于选择一个安全合理的轨迹。对于每个候选轨迹，当SDV边界框与周围车辆边界框之间的距离较大，而SDV与中心线之间的距离较小时，规划的轨迹符合我们的预期要求。最终轨迹值函数由

基于该值函数选择的轨迹允许SDV与其他车辆保持安全距离，并尽可能遵循车道中心线。因此，该方法提高了在线推理过程中SDV的安全性。

Ⅳ 实验与评价

A.数据集

为了训练和测试我们的模型，我们使用Lyft运动预测数据集[49]。该数据集是从真实车辆中收集的，包含加利福尼亚州帕洛阿尔托复杂城市路线的实际驾驶样本。该数据集包含各种真实世界的驾驶场景，如多车道驾驶、转弯和十字路口的车辆交互。感知系统对数据进行预处理，以获得周围车辆随时间变化的精确位置。此外，该数据集还包含一张高清地图，提供车道线、人行横道和红绿灯的位置和状态。

B.基线

我们将我们提出的算法与四个强大的基于BC-的规划器基线进行了比较。

1）基于图像的场景表示的行为克隆（BC-I）。BC-I是基于ResNet-50骨干网。规划者的输入是一个没有历史信息的以自我为中心的场景光栅图像。

2）基于图像的场景表示和轨迹扰动的行为克隆（BC-IP）。与ChaufferNet[3]类似，该方法在训练期间向数据集中的自我轨迹添加了合成扰动。

3）使用基于向量的场景表示的行为克隆（BC-V）。BC-V是一个基于PointNet主干网的标准BC规划器。规划者的输入是以自我为中心的场景向量，这与本文中的场景表示相同。

4）基于向量的场景表示和轨迹扰动的行为克隆（BC-VP）。该方法将合成扰动添加到基于向量的场景表示的自我轨迹中。

C.评价指标

我们使用以下指标来全面评估规划师的绩效。这些指标反映了模仿性能和安全性。应该注意的是，前四个度量用于闭环测试；最后两个是开环测试。

1）碰撞：SDV与任何其他智能车身的碰撞，包括与SDV的前部、后部和侧面碰撞。

2） L2：L2从驾驶日志中的基础专家位置开始的位移误差，单位为米。

3）脱离道路：如果计划轨迹和参考轨迹之间的横向距离超过2米，就会触发此事件。该指标反映车辆驶离道路或驶入相反车道。

4）干预措施：该综合指标通过考虑碰撞和越野事件来评估安全故障。

5） ADE：规划轨迹的平均位移误差。

6） FDE：规划轨迹的最终位移误差。

D.实验结果

我们进行了闭环和开环测试来评估模型的性能。在闭环测试中，我们验证了所提出的两阶段轨迹规划方法的安全性。在开环测试中，我们重点研究了人类计划驾驶轨迹和实际驾驶轨迹之间的距离。

1）闭环测试：我们通过闭环测试将所提出的模型的规划性能与四个BC规划基准进行了比较。在1000个场景中的实验结果表明，该方法的碰撞率低于所有基线。在1000种场景中，我们的方法总共导致了62次碰撞，这是所有比较规划者中最低的。这一结果表明，所提出的两阶段方法在规划过程中更安全敏感。此外，我们的模型规划的轨迹更加合理。我们的规划师的越野活动数量是所有规划师中最低的。

我们发现扰动是解决闭环测试中协方差偏移问题[3]的一种重要技术。具体而言，与没有轨迹扰动的BC规划者（如BC-I和BC-V）相比，具有轨迹扰动的BC-IP、BC-VP和我们提出的方法的BC规划者在安全性和合理性方面都表现出了改进的规划性能。我们的结果表明，在训练过程中使用轨迹扰动作为数据增强方法，可以显著减少训练和推理时间分布之间的不匹配，提高规划器在闭环测试中的泛化能力。这一结论适用于基于图像和基于矢量的规划者。

图3 具有不确定性的复杂交叉口中闭环测试的可视化

为了进一步验证我们提出的规划器的合理性，我们将所提出的方法的规划行为与复杂交互场景的基准方法可视化。如图3所示，我们的方法可以使红色的SDV在显示红灯时停在十字路口，并在显示绿灯时恢复移动，同时与其他车辆保持安全距离并沿路线行驶。规划轨迹接近人类驾驶员的蓝色参考轨迹。相比之下，基于基线BC-VP规划器的车辆在不遵循路线的情况下闯红灯并撞上其他车辆。

表1 基线规划度量与闭环测试方法

2）开环测试：我们还使用开环测试评估了所提出的规划器和BC-VP规划器的模拟性能。性能指标反映了BC规划者的规划轨迹与分布场景中人类驾驶员的参考轨迹的接近程度。实验结果如表二所示。我们的规划器在ADE和FDE指标上的值都低于基准，这表明我们的方法更有能力模仿专家的驾驶行为。

表2 基线规划度量和我们的开环测试方法

3）消融研究：为了验证所提出方法中不同模块的有效性，我们使用闭环测试进行了消融研究。消融模块包括驾驶风格识别（DS）和安全验证（SV）。

闭环测试结果如表III所示。模拟和越野事件指标表明，在不考虑驾驶风格的情况下，计划的车辆轨迹与实际参考轨迹有很大差异。这一结果表明，其他驾驶员的驾驶风格部分影响人类的驾驶轨迹。因此，考虑到周围的车辆将有助于实现SDV的合理规划。

表3 闭环试验消融研究的规划指标

安全验证模块也被证明是有效的。实验结果表明，与不使用安全验证相比，使用安全验证可以减少碰撞次数。这一结果表明，多模式轨迹生成和安全验证相结合可以最大限度地提高SDV驾驶过程中的安全性。

Ⅴ 结论

在本文中，我们提出了一种安全平衡的两阶段轨迹规划方法，该方法考虑了其他HDV的驾驶风格，以解决交叉口场景中周围交通参与者的行为不确定性导致的SDV轨迹规划困难。两阶段规划方法包括基于驾驶风格的多模态候选轨迹生成和基于安全平衡验证的轨迹选择。在第一阶段，该模型基于驾驶风格识别和意图推断预测周围HDV的未来轨迹，同时生成符合交互场景中自动驾驶汽车人类驾驶体验的多模式候选轨迹。在第二阶段，基于生成的候选轨迹和预测的HDV轨迹，我们根据经验构建的规则，用安全值对轨迹进行验证和评分，并选择最安全的驾驶路径进行最终执行。

在所提出的两阶段方法中，第一阶段学习HDV的驾驶风格和意图，以更好地预测HDV的行驶行为，并生成可行的候选轨迹。第二阶段通过安全验证，进一步提高复杂交互场景下的驾驶安全。

未来，我们计划将所提出的两阶段方法与认知世界模型相结合，以更好地推广SDV轨迹规划。世界模型[50]可用于模拟驾驶过程中各种可能的交通事件的预测，提供评估规划行为的潜力，并确保实际系统中安全合理的轨迹规划。此外，通过基于经验数据的持续学习来更新世界模型，以确保世界模型与现实世界的认知一致。通过这种方式，我们将把并行规划与并行视觉[51]和并行控制[52]、[56]相结合，以确保在复杂的道路环境中安全高效的自动驾驶。我们认为，并行驾驶和并行测试可以作为一个闭环系统，将自动驾驶推广到6S世界，在物理世界中是安全的，在网络世界中是可靠的，在生态世界中是可持续的，对个人需求敏感，为所有人服务，在并行智能社会中是智能的[53]，[54]，[55]，[58]，[60]。

参考文献

联系人：唐老师

电话：13917148827

邮箱：tangyanqin@tongji.edu.cn

点“阅读原文”获取论文

http://mp.weixin.qq.com/s?__biz=MzU4OTU1MjcyMw==&mid=2247519958&idx=1&sn=87c7efddc8960e264b24a11d72495ec9

同济智能汽车研究所

同济智能汽车研究所公共信息展示平台