清华大学发布使用CARLA生成V2V与V2I的增强自动驾驶协作的多智能体调度数据集WHALES

文摘 2024-11-22 07:02 美国

Abstract

在自动驾驶中实现高水平的安全性和可靠性仍然是一个关键挑战，特别是由于独立系统中的遮挡和有限的感知范围。车辆间的协同感知提供了一种有前景的解决方案，但现有研究受限于仅有少量代理的数据集。扩大协同代理的数量并非易事，并引入了现有工作尚未解决的显著计算和技术障碍。为弥补这一差距，我们提出了无线增强自动驾驶车辆的多代理调度数据集（WHALES），该数据集使用CARLA模拟器生成，每个驾驶序列的代理平均数量达到了前所未有的8.4个。除了在自动驾驶数据集中提供最多的代理和视角外，WHALES还记录了代理的行为，支持多任务协作。这一扩展允许协同感知中的新辅助任务的实现。作为示例，我们在代理调度任务上进行了实验，其中自车代理从多个候选代理中选择一个进行协作，以优化自动驾驶中的感知增益。

代码获取：https://github.com/chensiweiTHU/WHALES

欢迎加入自动驾驶实战群

Introduction

自动驾驶（AD）技术承诺能够预防交通事故、提高残疾人群的流动性，并改善整体交通安全和效率。近年来，深度学习的进步在自动驾驶技术的各种感知任务上带来了显著的突破，如3D物体检测、4D占用预测、多目标跟踪以及端到端规划。为了在复杂的周围环境中导航，自动驾驶系统利用不同的传感器阵列，例如摄像头、LiDAR、雷达和惯性测量单元（IMU），来感知其周围环境并对自车行为做出重要决策。

然而，独立或单车自动驾驶系统在感知方面面临一个关键的局限性：无法从非视距（NLOS）区域检测信息，导致严重的遮挡问题，这对安全构成潜在风险。为克服这一问题，研究人员通过无线通信引入了协同驾驶技术，这在复杂和具有挑战性的道路场景中特别提高了安全性。3GPP在第17版和第18版中概述的NR-V2X技术[5]支持协同驾驶中的原始、特征和对象级融合，从而在组播（groupcast）下实现合作。若干研究集中于通过解决自动驾驶和通信领域中的非理想因素（如通信延迟、传感器定位误差以及各种通信限制）带来的挑战来增强协同感知（CP）的鲁棒性。在这些研究中，智能代理在模型的不同阶段改进感知：在早期融合中，原始传感数据被融合；在中间融合中，处理后的编码特征被结合；在后期融合中，检测结果被整合，这导致了平均精度的提升。其他研究致力于通过建模自动驾驶系统与通信结合时出现的非理想因素来增强协同感知，以确保提出的模型在这些条件下保持鲁棒性。

为了推动协同自动驾驶的创新研究，我们引入了一个多代理调度数据集，即无线增强自动驾驶车辆的多代理调度数据集（WHALES），它涵盖了7万张RGB图像、1.7万帧LiDAR数据以及201万个3D边界框注释。如图1所示，WHALES涵盖了各种道路场景，包括交叉口、T型路口、高速公路匝道、环形交叉路口和五岔路口。它超越了传统的基于感知的方法，使得更全面的协同功能成为可能。我们的数据集和基准任务专门设计用于促进创新并推动V2X协同感知的进步。图2展示了WHALES数据集中单帧的概览。在图2(a)中，显示了场景的鸟瞰图（BEV）。图2(b)可视化了该帧中所有代理（包括一个RSU）的点云，而图2©展示了所有代理的前视摄像头视图。自车代理可以通过适当地调度与附近代理的协作来检测周围物体。

在WHALES数据集上进行的实验涵盖了独立和协同3D感知以及代理调度。代理调度是我们数据集引入的新任务，超越了以往研究所探索的领域。我们使用MMDetection3D实现了该数据集，并提供了基线模型及其对应的性能指标。现有的代理调度方法被集成到预处理流水线中，使研究人员能够轻松地提出和评估新的调度策略。

3.WHALES 数据集

表I突出显示了我们的数据集相较于现有协同感知数据集的优势。WHALES提供了多个独特的优势，包括对V2V和V2I的广泛支持，以及通过每个场景的大量视角提供丰富的道路信息。我们的数据集平均每个场景有8.4个视角，在评估不同多代理调度算法的性能方面，超越了其他数据集。WHALES包含了17K LiDAR点云和70K张图像，其场景相比其他数据集展示了更高的代理密度。我们定义有效的3D边界框为在代理视野内50米范围内的边界框。根据这一定义，WHALES跨多个视角拥有2.01M个有效的3D边界框。整个数据集中共有511K个唯一的3D边界框，超过了其他现有数据集中的数量。

随着在一个有限区域内的代理数量增加，模拟时间和计算成本由于代理间交互的增加而呈非线性增长。为了解决这一挑战，我们为每个活跃代理分配了一个独立的进程生成原始数据，并将结果存储在队列中。我们确保这些代理进程是同步的，并将它们的观测结果收集成批次。然后使用专家模型同时从批次观测中生成代理行为。在NVIDIA 4090 GPU上，我们的模拟器平均每增加一个代理需要约160ms的时间，从而有效地将时间成本降低为线性函数，使得生成数据集的时间和计算成本可以接受。

A. 传感器和代理设置

表II和表III列出了WHALES数据集中的传感器和代理配置。数据集为智能代理提供了多模态感官输入，在复杂性与模拟器支持的任务之间达到了平衡。总的来说，我们定义了四种代理类型。第一种是非控制的CAV（联网自动驾驶车辆）。第二种是受控CAV。这两种CAV都配备了一个64线束LiDAR和四个1920×1080摄像头，以及V2X通信设备。通过这些设置，它们可以执行感知和通信任务。受控车辆可以通过自定义的规划和控制算法进行控制。第三种是安装在路边的RSU（路边单元），也配备了LiDAR和摄像头。第四种是非玩家或障碍物代理，这些代理没有配备任何传感器，其轨迹是不可控的。在这种设置下，我们能够评估通过协作对自动驾驶的安全性和其他基准指标的增强作用。

B. 数据集结构

我们的数据集组织为场景、帧、样本和注释。一个场景表示模拟的一段时间。在模拟中，我们将采样间隔设置为0.1秒，而每隔0.5秒保存一帧。对于每个场景，我们提供基本的模拟配置信息以及两个视频：一个显示所有代理的前视摄像头视图，另一个显示类似于中所述的编码鸟瞰图（BEV）地图。在每一帧中，记录了每个代理的物体类别、位置、旋转和速度，以及世界坐标系中的注释。在一帧中，每个代理依次充当自车角色，因此在一个包含M个智能代理的场景中，我们每帧有M个样本。我们将边界框投影到自车坐标系中，并在感知范围内筛选出有效的边界框以生成一个样本中的注释。

C. 数据集配置系统

我们使用经过修改的CARLA模拟器生成数据集。此外，我们继承了一个强化学习环境，其中包括了一些来自先前研究的基本世界设置。为了创建有利于协作的环境，所有代理都生成在围绕一个中心点的矩形区域内。我们的实验配置系统集成在MMDetection3D 中，利用一个Python文件存储实验设置，包括模型结构、数据处理管道和代理调度策略。

D. 数据分析

图3展示了我们数据集中边界框注释的方向分布。如图3(a)所示，自车周围的边界框分布在各种方向。由于道路方向的限制，许多物体与自车方向平行或垂直排列，在四个方向上呈现出集中的蓝色阴影。

图3(b)展示了协作代理之间距离的分布。大多数车辆相互靠近，提供互补的视角，而一些车辆则放置得更远，以提供远距离信息。图3©说明了代理与物体之间最小距离的分布，最近的物体通常在代理20米范围内。

我们的注释方案遵循nuScenes数据集的惯例。需要注意的是，所有注释都是使用CARLA模拟器生成的。模型需要检测所有在50米有效检测范围内的物体，包括被遮挡的物体。

除了现有的nuScenes标签外，还包括了新的协作感知任务注释，例如描述代理之间距离和遮挡关系的图。

E. 支持的任务

WHALES数据集支持单一和协作的3D目标检测任务。在协作驾驶中，优化代理调度是我们工作的一个关键重点。在我们的数据集中，选择合适的代理进行协作对于训练和推理至关重要，因为有大量候选代理可供选择。而在候选数量较少的现有数据集中，这一任务的相关性较低。代理调度程序被集成到数据预处理管道中，并提供多种调度算法，使研究人员可以轻松训练和测试不同的调度策略。

此外，我们记录了RL专家的真实代理行为和轨迹。由RL模型生成的场景根据奖励、场景长度和场景中三类代理的数量进行过滤。这为下游任务的未来扩展提供了便利。在下一小节中，将详细介绍每项任务的实现。

4.Experiment

我们在自动驾驶的协作任务上进行了实验，包括单独的和协作的3D目标检测以及代理调度。在我们的实验中，使用了多种指标来评估模型在不同任务上的性能。每项任务的基准将在以下小节中分别介绍。
（1）单独的3D目标检测
表IV显示了50米和100米设置下单独3D目标检测实验的结果。所有模型在检测车辆时的表现优于检测骑行者和行人，这是由于车辆的平均边界框大于后两类。在检测范围扩展到100米时性能显著下降，大多数单独感知模型在此距离下难以检测行人和骑行者。这些发现强调了协作在增强远距离感知中的重要性。

（2）协作3D目标检测
表V展示了协作3D目标检测的实验结果。我们将No Fusion方法作为基线，并发现使用稀疏卷积进行融合的协作版VoxelNeXt[34]在所有单层融合模型中表现最好。与基线相比，所有级别的协作都能提高检测性能。原始级别的CP（协作感知）由于与无融合方法共享相同的模型结构且表现能力较弱，被特征级方法超越。与基线相比，F-Cooper[35]在50米和100米范围内的mAP分别提高了19.5%和38.4%，而VoxelNeXt[34]的提升分别为25.7%和81.3%。实验结果表明，通过协作可以显著改善检测性能。

（3）代理调度
如表VI所示。表中的每一行对应于推理过程中使用的调度策略，而每一列对应于训练过程中应用的相同调度策略。单代理调度部分包括了自车选择单个候选代理进行协作的各种策略的表现，而多代理调度则涉及两名或更多代理的调度算法在CP中的表现。

结果显示，Historical Best和MASS在单随机代理调度策略下训练时，在50米和100米范围内的单代理调度中提供了最佳的目标检测性能。需要注意的是，由于Historical Best和MASS[27]在利用与其协作的历史代理时存在相似性，因此某些推理结果是相同的。不同之处在于，MASS[27]中的自车无需握手即可进行调度，因此它只记录与其协作的最后一个代理；而在Historical Best中，自车需要握手进行调度，因此可以记录所有与其协作过的历史代理。

在多代理调度结果中，Full Communication在训练策略上优于除了No Fusion以外的所有方法。这是因为模型在单独感知设置下进行训练，在推理过程中提供显著更多的数据会使模型超负荷，引入噪声并导致性能下降。

在大多数现有数据集中，当候选车辆数量限制为一辆或两辆时，调度策略的影响较小。然而，在我们的数据集中，由于代理数量较多，调度策略变得至关重要。虽然大多数先前数据集专注于给定的一对或组合智能代理之间的CP，但我们的数据集强调优化CP中的调度问题。无论推理策略如何，随机训练策略通过生成更多多样化的输入并在有限的训练周期内表现出更好的泛化能力。我们的实验结果表明，当检测范围增加时，协作和调度变得尤为重要。

结论

本文的贡献总结如下：

1. 本文构建了WHALES，一个支持车与车（V2V）和车与基础设施（V2I）感知的大规模调度数据集。通过显著优化CARLA在处理大量代理时的模拟速度和计算成本，所有场景均由多模态传感器生成，并且每个驾驶序列平均包含8.4个代理。我们的数据集包含了超过201万个注释的3D边界框，以及对象索引和代理行为信息，具备对下游任务的强扩展性。
2. 本文展示了数据集在两个协同任务（包括3D物体检测和代理调度）中的应用。据我们所知，这是第一个考虑协同感知中调度任务的数据集。我们为这两个任务提供了详细的基准，并针对代理调度任务分析了现有的单代理和多代理调度算法。

文章引用：WHALES: A Multi-agent Scheduling Dataset for Enhanced Cooperation in Autonomous Driving

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

http://mp.weixin.qq.com/s?__biz=Mzg2Mzg5MzI5NA==&mid=2247487672&idx=1&sn=58200a7d5a4cfbebc586d613991506de

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

YoloV8最新改进手册——高阶篇

OcCRWKV:重新思考基于线性复杂度的高效三维语义占用预测 !

实车测试驱动的V2X项目车道跟随算法评估研究

清华大学发布使用CARLA生成V2V与V2I的增强自动驾驶协作的多智能体调度数据集WHALES

从车企实践看自动驾驶端到端解决方案

无需视频流实现全景分割与深度估计MGNiceNet：统一的单目几何场景理解

一种transformer稀疏神经网络的硬件加速器算法

基于BLIP-2 融合视觉信息与轨迹规划信息进行空间融合，用于自动驾驶的多模态大语言模型的轨迹规划

从特斯拉看智能驾驶未来发展

理想汽车最新成果：基于MLLM的闭环规划智能体PlanAgent

大模型推理分离架构五虎上将

英伟达最新！SCube：仅用三张图，就能实现即时大规模三维场景重建

Thermal3D-GS：热红外新视点合成的物理诱导三维高斯(ECCV2024)

清华大学提出基于ESKF的松耦合里程计RINO：一种具有非迭代估计的精确、稳健的雷达惯性里程计

智驾无图真的可以实现吗？

纯卷积框架实现最快每秒30hz的ALOcc: 基于自适应升降的 3D 语义占据与成本体积流预测

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

PointLLM：使大型语言模型能够理解点云

智驾行业正在面临哪些变化？

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

ACCV'24 | MoD：轻量化、高效、强大的新型卷积结构

实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE：用于驾驶场景的跨模态一致多传感器数据合成

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

全面带你了解端到端大模型的底层逻辑（一）

自动驾驶中一直说的BEV+Transformer到底是个啥？

轨迹规划中优化预测：学习多个初始解的优化器

PCA中方差的效用

西安交通大学提出少锚点的端到端车道线检测算法Polar R-CNN

VLM大模型在自动驾驶领域的创新应用--2024 年 PRCV 自动驾驶挑战赛冠军解决方案

GET-UP：雷达-相机深度估计的几何感知与点云上采样框架

黑芝麻智能在智驾芯片领域发展如何了？

GaussianObject：仅需四张图片就能拥有高质量3D高斯重建（上交&华为）

GGS：提升自动驾驶车道变换逼真度的新型渲染技术

RT-DETR改进策略：BackBone改进|EfficientFormerV2在RT-DETR中的创新应用，精度与效率完美平衡

从原理到应用教你了解毫米波雷达

三维高斯泼溅:综述，技术，挑战和机遇

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

规划误差降低27%，碰撞率降低33%Senna: 大规模视觉-语言模型与端到端自动驾驶相结合

XFeat:加速轻量级图像匹配(CVPR2024)

激光雷达与纯视觉方案，哪个才是自动驾驶最优选？

决策树也是一种矩阵乘法？

透视与 BEV 融合，HyDRa 混合 Transformer 模块提升3D感知能力！

The State of vLLM 2024

METDrive 多模态时控端到端自动驾驶！

端到端让智驾强者愈强时代来临？

中国科学院提出无需重建便能合成视图FREEVS：自由驾驶轨迹上的生成式视图合成

香港大学提出|UniMODE:统一单目3D物体检测

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉