清华大学发布使用CARLA生成V2V与V2I的增强自动驾驶协作的多智能体调度数据集WHALES

文摘   2024-11-24 07:00   上海  

作者 | Siwei Chen等  编辑 | Ai fighting

点击下方卡片,关注“3D视觉之心”公众号

第一时间获取3D视觉干货

>>点击进入→3D视觉之心技术交流群

Abstract

在自动驾驶中实现高水平的安全性和可靠性仍然是一个关键挑战,特别是由于独立系统中的遮挡和有限的感知范围。车辆间的协同感知提供了一种有前景的解决方案,但现有研究受限于仅有少量代理的数据集。扩大协同代理的数量并非易事,并引入了现有工作尚未解决的显著计算和技术障碍。为弥补这一差距,我们提出了无线增强自动驾驶车辆的多代理调度数据集(WHALES),该数据集使用CARLA模拟器生成,每个驾驶序列的代理平均数量达到了前所未有的8.4个。除了在自动驾驶数据集中提供最多的代理和视角外,WHALES还记录了代理的行为,支持多任务协作。这一扩展允许协同感知中的新辅助任务的实现。作为示例,我们在代理调度任务上进行了实验,其中自车代理从多个候选代理中选择一个进行协作,以优化自动驾驶中的感知增益。

代码获取:https://github.com/chensiweiTHU/WHALES

Introduction

自动驾驶(AD)技术承诺能够预防交通事故、提高残疾人群的流动性,并改善整体交通安全和效率。近年来,深度学习的进步在自动驾驶技术的各种感知任务上带来了显著的突破,如3D物体检测、4D占用预测、多目标跟踪以及端到端规划。为了在复杂的周围环境中导航,自动驾驶系统利用不同的传感器阵列,例如摄像头、LiDAR、雷达和惯性测量单元(IMU),来感知其周围环境并对自车行为做出重要决策。

然而,独立或单车自动驾驶系统在感知方面面临一个关键的局限性:无法从非视距(NLOS)区域检测信息,导致严重的遮挡问题,这对安全构成潜在风险。为克服这一问题,研究人员通过无线通信引入了协同驾驶技术,这在复杂和具有挑战性的道路场景中特别提高了安全性。3GPP在第17版和第18版中概述的NR-V2X技术[5]支持协同驾驶中的原始、特征和对象级融合,从而在组播(groupcast)下实现合作。若干研究集中于通过解决自动驾驶和通信领域中的非理想因素(如通信延迟、传感器定位误差以及各种通信限制)带来的挑战来增强协同感知(CP)的鲁棒性。在这些研究中,智能代理在模型的不同阶段改进感知:在早期融合中,原始传感数据被融合;在中间融合中,处理后的编码特征被结合;在后期融合中,检测结果被整合,这导致了平均精度的提升。其他研究致力于通过建模自动驾驶系统与通信结合时出现的非理想因素来增强协同感知,以确保提出的模型在这些条件下保持鲁棒性。

为了推动协同自动驾驶的创新研究,我们引入了一个多代理调度数据集,即无线增强自动驾驶车辆的多代理调度数据集(WHALES),它涵盖了7万张RGB图像、1.7万帧LiDAR数据以及201万个3D边界框注释。如图1所示,WHALES涵盖了各种道路场景,包括交叉口、T型路口、高速公路匝道、环形交叉路口和五岔路口。它超越了传统的基于感知的方法,使得更全面的协同功能成为可能。我们的数据集和基准任务专门设计用于促进创新并推动V2X协同感知的进步。图2展示了WHALES数据集中单帧的概览。在图2(a)中,显示了场景的鸟瞰图(BEV)。图2(b)可视化了该帧中所有代理(包括一个RSU)的点云,而图2©展示了所有代理的前视摄像头视图。自车代理可以通过适当地调度与附近代理的协作来检测周围物体。

在WHALES数据集上进行的实验涵盖了独立和协同3D感知以及代理调度。代理调度是我们数据集引入的新任务,超越了以往研究所探索的领域。我们使用MMDetection3D实现了该数据集,并提供了基线模型及其对应的性能指标。现有的代理调度方法被集成到预处理流水线中,使研究人员能够轻松地提出和评估新的调度策略。

3.WHALES 数据集

表I突出显示了我们的数据集相较于现有协同感知数据集的优势。WHALES提供了多个独特的优势,包括对V2V和V2I的广泛支持,以及通过每个场景的大量视角提供丰富的道路信息。我们的数据集平均每个场景有8.4个视角,在评估不同多代理调度算法的性能方面,超越了其他数据集。WHALES包含了17K LiDAR点云和70K张图像,其场景相比其他数据集展示了更高的代理密度。我们定义有效的3D边界框为在代理视野内50米范围内的边界框。根据这一定义,WHALES跨多个视角拥有2.01M个有效的3D边界框。整个数据集中共有511K个唯一的3D边界框,超过了其他现有数据集中的数量。

随着在一个有限区域内的代理数量增加,模拟时间和计算成本由于代理间交互的增加而呈非线性增长。为了解决这一挑战,我们为每个活跃代理分配了一个独立的进程生成原始数据,并将结果存储在队列中。我们确保这些代理进程是同步的,并将它们的观测结果收集成批次。然后使用专家模型同时从批次观测中生成代理行为。在NVIDIA 4090 GPU上,我们的模拟器平均每增加一个代理需要约160ms的时间,从而有效地将时间成本降低为线性函数,使得生成数据集的时间和计算成本可以接受。

A. 传感器和代理设置

表II和表III列出了WHALES数据集中的传感器和代理配置。数据集为智能代理提供了多模态感官输入,在复杂性与模拟器支持的任务之间达到了平衡。总的来说,我们定义了四种代理类型。第一种是非控制的CAV(联网自动驾驶车辆)。第二种是受控CAV。这两种CAV都配备了一个64线束LiDAR和四个1920×1080摄像头,以及V2X通信设备。通过这些设置,它们可以执行感知和通信任务。受控车辆可以通过自定义的规划和控制算法进行控制。第三种是安装在路边的RSU(路边单元),也配备了LiDAR和摄像头。第四种是非玩家或障碍物代理,这些代理没有配备任何传感器,其轨迹是不可控的。在这种设置下,我们能够评估通过协作对自动驾驶的安全性和其他基准指标的增强作用。

B. 数据集结构

我们的数据集组织为场景、帧、样本和注释。一个场景表示模拟的一段时间。在模拟中,我们将采样间隔设置为0.1秒,而每隔0.5秒保存一帧。对于每个场景,我们提供基本的模拟配置信息以及两个视频:一个显示所有代理的前视摄像头视图,另一个显示类似于中所述的编码鸟瞰图(BEV)地图。在每一帧中,记录了每个代理的物体类别、位置、旋转和速度,以及世界坐标系中的注释。在一帧中,每个代理依次充当自车角色,因此在一个包含M个智能代理的场景中,我们每帧有M个样本。我们将边界框投影到自车坐标系中,并在感知范围内筛选出有效的边界框以生成一个样本中的注释。

C. 数据集配置系统

我们使用经过修改的CARLA模拟器生成数据集。此外,我们继承了一个强化学习环境,其中包括了一些来自先前研究的基本世界设置。为了创建有利于协作的环境,所有代理都生成在围绕一个中心点的矩形区域内。我们的实验配置系统集成在MMDetection3D 中,利用一个Python文件存储实验设置,包括模型结构、数据处理管道和代理调度策略。

D. 数据分析

图3展示了我们数据集中边界框注释的方向分布。如图3(a)所示,自车周围的边界框分布在各种方向。由于道路方向的限制,许多物体与自车方向平行或垂直排列,在四个方向上呈现出集中的蓝色阴影。


图3(b)展示了协作代理之间距离的分布。大多数车辆相互靠近,提供互补的视角,而一些车辆则放置得更远,以提供远距离信息。图3©说明了代理与物体之间最小距离的分布,最近的物体通常在代理20米范围内。

我们的注释方案遵循nuScenes数据集的惯例。需要注意的是,所有注释都是使用CARLA模拟器生成的。模型需要检测所有在50米有效检测范围内的物体,包括被遮挡的物体。

除了现有的nuScenes标签外,还包括了新的协作感知任务注释,例如描述代理之间距离和遮挡关系的图。

E. 支持的任务

WHALES数据集支持单一和协作的3D目标检测任务。在协作驾驶中,优化代理调度是我们工作的一个关键重点。在我们的数据集中,选择合适的代理进行协作对于训练和推理至关重要,因为有大量候选代理可供选择。而在候选数量较少的现有数据集中,这一任务的相关性较低。代理调度程序被集成到数据预处理管道中,并提供多种调度算法,使研究人员可以轻松训练和测试不同的调度策略。

此外,我们记录了RL专家的真实代理行为和轨迹。由RL模型生成的场景根据奖励、场景长度和场景中三类代理的数量进行过滤。这为下游任务的未来扩展提供了便利。在下一小节中,将详细介绍每项任务的实现。

4.Experiment

我们在自动驾驶的协作任务上进行了实验,包括单独的和协作的3D目标检测以及代理调度。在我们的实验中,使用了多种指标来评估模型在不同任务上的性能。每项任务的基准将在以下小节中分别介绍。
(1)单独的3D目标检测
表IV显示了50米和100米设置下单独3D目标检测实验的结果。所有模型在检测车辆时的表现优于检测骑行者和行人,这是由于车辆的平均边界框大于后两类。在检测范围扩展到100米时性能显著下降,大多数单独感知模型在此距离下难以检测行人和骑行者。这些发现强调了协作在增强远距离感知中的重要性。

(2)协作3D目标检测
表V展示了协作3D目标检测的实验结果。我们将No Fusion方法作为基线,并发现使用稀疏卷积进行融合的协作版VoxelNeXt[34]在所有单层融合模型中表现最好。与基线相比,所有级别的协作都能提高检测性能。原始级别的CP(协作感知)由于与无融合方法共享相同的模型结构且表现能力较弱,被特征级方法超越。与基线相比,F-Cooper[35]在50米和100米范围内的mAP分别提高了19.5%和38.4%,而VoxelNeXt[34]的提升分别为25.7%和81.3%。实验结果表明,通过协作可以显著改善检测性能。

(3)代理调度
如表VI所示。表中的每一行对应于推理过程中使用的调度策略,而每一列对应于训练过程中应用的相同调度策略。单代理调度部分包括了自车选择单个候选代理进行协作的各种策略的表现,而多代理调度则涉及两名或更多代理的调度算法在CP中的表现。

结果显示,Historical Best和MASS在单随机代理调度策略下训练时,在50米和100米范围内的单代理调度中提供了最佳的目标检测性能。需要注意的是,由于Historical Best和MASS[27]在利用与其协作的历史代理时存在相似性,因此某些推理结果是相同的。不同之处在于,MASS[27]中的自车无需握手即可进行调度,因此它只记录与其协作的最后一个代理;而在Historical Best中,自车需要握手进行调度,因此可以记录所有与其协作过的历史代理。

在多代理调度结果中,Full Communication在训练策略上优于除了No Fusion以外的所有方法。这是因为模型在单独感知设置下进行训练,在推理过程中提供显著更多的数据会使模型超负荷,引入噪声并导致性能下降。

在大多数现有数据集中,当候选车辆数量限制为一辆或两辆时,调度策略的影响较小。然而,在我们的数据集中,由于代理数量较多,调度策略变得至关重要。虽然大多数先前数据集专注于给定的一对或组合智能代理之间的CP,但我们的数据集强调优化CP中的调度问题。无论推理策略如何,随机训练策略通过生成更多多样化的输入并在有限的训练周期内表现出更好的泛化能力。我们的实验结果表明,当检测范围增加时,协作和调度变得尤为重要。

结论

本文的贡献总结如下:

1. 本文构建了WHALES,一个支持车与车(V2V)和车与基础设施(V2I)感知的大规模调度数据集。通过显著优化CARLA在处理大量代理时的模拟速度和计算成本,所有场景均由多模态传感器生成,并且每个驾驶序列平均包含8.4个代理。我们的数据集包含了超过201万个注释的3D边界框,以及对象索引和代理行为信息,具备对下游任务的强扩展性。
2. 本文展示了数据集在两个协同任务(包括3D物体检测和代理调度)中的应用。据我们所知,这是第一个考虑协同感知中调度任务的数据集。我们为这两个任务提供了详细的基准,并针对代理调度任务分析了现有的单代理和多代理调度算法。

文章引用:WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving


【3D视觉之心】技术交流群
3D视觉之心是面向3D视觉感知方向相关的交流社区,由业内顶尖的3D视觉团队创办!聚焦维重建、Nerf、点云处理、视觉SLAM、激光SLAM、多传感器标定、多传感器融合、深度估计、摄影几何、求职交流等方向。扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)


扫码添加小助理进群

【3D视觉之心】知识星球

3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。



3D视觉之心
3D视觉与SLAM、点云相关内容分享
 最新文章