作者 | Lei Yang等 编辑 | Ai fighting
点击下方卡片,关注“3D视觉之心”公众号
>>点击进入→3D视觉之心技术交流群
Abstract
现代自动驾驶车辆的感知系统通常在应对遮挡和有限感知范围方面面临困难。先前的研究已经证明,协同感知在扩展感知范围和克服遮挡方面是有效的,从而提高了自动驾驶的安全性。近年来,一系列协同感知数据集相继出现。然而,这些数据集仅关注摄像头和LiDAR,忽略了4D雷达这一在单车自动驾驶中用于应对恶劣天气条件的传感器。为弥补协同感知中缺少4D雷达数据集的空白,我们提出了V2X-Radar,这是第一个包含4D雷达的真实大规模多模态数据集。我们的V2X-Radar数据集是通过一个连接车辆平台和一个配备4D雷达、LiDAR和多视角摄像头的智能路侧单元收集的。收集的数据涵盖了晴天和雨天的天气条件,跨越白天、黄昏和夜晚,以及典型的挑战性场景。数据集包括20K的LiDAR帧、40K的摄像头图像和20K的4D雷达数据,以及跨越五个类别的350K标注框。为了促进多样化的研究领域,我们建立了用于协同感知的V2X-Radar-C,用于路侧感知的V2X-Radar-I,以及用于单车感知的V2X-Radar-V。我们进一步对上述三个子数据集的最新感知算法提供了全面的基准测试。
代码获取:http://openmpd.com/column/V2X-Radar
欢迎加入自动驾驶实战群
Introduction
感知是自动驾驶中的关键环节,尽管已经出现了大量的单车感知方法,但仍然面临由遮挡和有限感知范围引起的重大安全挑战。这些问题源于车辆只能从单一视角看到其周围环境,导致场景感知的不完整。这种局限性妨碍了自动驾驶车辆实现安全导航和最佳决策。为了解决这一局限性,最近的研究致力于车辆到万物(V2X)协同感知,其中自车通过无线通信利用来自其他代理的信息扩展感知范围并克服遮挡。
最近,协同感知引起了越来越多的关注,并发布了若干开创性数据集以支持这一研究。例如,像OpenV2V 、V2X-Sim 和V2XSet 这样的数据集是通过使用CARLA和SUMO进行仿真生成的。而像DAIR-V2X、V2X-Seq、V2V4Real和V2X-Real这样的数据集则来源于真实场景。然而,这些数据集的一个共同局限是仅关注摄像头和LiDAR传感器,忽略了4D雷达的潜力。该传感器因其在恶劣天气下的卓越适应性被认为对稳健感知有帮助,这一点在单车自动驾驶数据集如K-Radar和Dual-Radar 中得到了验证。
为了弥补协同感知领域中缺乏4D雷达数据集的空白并促进相关研究,我们提出了V2X-Radar,这是第一个包含4D雷达的真实大规模多模态数据集。该数据集涵盖了各种场景,包括阳光、雨天和雪天等天气条件,跨越包括白天、黄昏和夜晚在内的一天中的不同时间点。数据是通过一个连接车辆平台和一个智能路侧单元收集的,两者都配备了4D雷达、LiDAR和多视角摄像头(如图1所示)。从超过15小时的驾驶日志中,我们精心选择了50个具有代表性的场景用于最终数据集。
该数据集包括20K的LiDAR帧、40K的摄像头图像和20K的4D雷达数据,拥有五个对象类别的350K标注框。为了支持多种研究领域,V2X-Radar进一步被划分为三个专门的子数据集:用于协同感知的V2X-Radar-C,用于路侧感知的V2X-Radar-I,以及用于单车感知的V2X-Radar-V。此外,我们对这三个子数据集中的最新感知算法进行了全面的基准测试。
与现有的真实协同数据集相比,我们的V2X-Radar展现了以下两个优势:
(1) 更多模态:所提出的V2X-Radar数据集包括三种类型的传感器:LiDAR、摄像头和4D雷达,使得进一步探索与4D雷达相关的协同感知研究成为可能。
(2) 多样化场景:我们的数据收集涵盖了各种天气条件和一天中的不同时间,同时也专注于对单车自动驾驶具有挑战性的交叉路口。这些交叉路口存在遮挡的盲点,对车辆安全有显著影响,为协同感知研究提供了多样化的极端案例。
3. V2X-Radar 数据集
为了促进基于4D Radar的协同感知研究,我们提出了V2X-Radar,这是首个包含4D Radar的真实多模态数据集。本节首先在第3.1节详细介绍数据采集过程,然后在第3.2节描述数据标注,最后在第3.3节深入探讨多样化的数据分布和数据集分析。
3.1 数据采集
传感器配置。数据集通过一个连接的车载平台(如图2(a)所示)和一个智能路侧单元(如图2(b)所示)采集。两者均配备了4D Radar、LiDAR和多视角摄像头等传感器。此外,还使用了GPS/IMU系统实现高精度定位,用于车载和路侧平台之间的初始点云配准。同时集成了C-V2X单元以实现无线数据传输。传感器的布局配置见图2,详细规格列于表2。
同步。对于协同感知数据集而言,使用统一的时间戳标准同步车载平台和路侧平台的传感器至关重要。为确保一致性,首先将所有计算机时钟与GPS时间对齐。随后,通过精确时间协议(PTP)和每秒脉冲(PPS)信号,实现LiDAR、摄像头和4D Radar的硬件触发同步。接着,匹配车载和路侧平台的最接近LiDAR帧,并将摄像头和4D Radar数据与每个对应的LiDAR帧对齐,生成统一的多模态数据帧。最终,跨平台的传感器时间差在每个样本中均保持在50毫秒以下。
传感器标定和配准。通过传感器标定过程,我们实现了摄像头、LiDAR和4D Radar的空间同步。摄像头的内参通过棋盘格图案进行标定,而LiDAR相对于摄像头的标定是通过利用点云和相应摄像头图像中提取的100对点对实现的。外参通过最小化二维和三维点对应关系的重投影误差获得。LiDAR与4D Radar的标定通过选择位于角反射器上的100个高强度点对完成。标定结果在图3中以可视化形式呈现。
通过RTK定位初步计算并随后通过CBM [21]和人工调整精炼,完成车载LiDAR与路侧LiDAR的点云配准。点云配准的可视化结果如图4所示。
数据收集。我们收集了15小时的驾驶数据,包含540K帧,覆盖晴天和雨天等各种天气条件,时间范围涵盖白天、黄昏和夜晚,以及典型的复杂交叉路口场景。更多细节见补充材料。从中我们手动选择最具代表性的40个序列构成V2X-Radar-C;每个序列长度为10至25秒,采样频率为10Hz。在此基础上,额外采样10个仅限车载的序列构成V2X-Radar-V,并采样10个仅限基础设施的序列形成V2X-Radar-I。与V2X-Radar-C中的单视角数据相比,V2X-Radar-V和V2X-Radar-I包含了更多样化的场景。因此,上述三个子数据集共同包含了20K的LiDAR帧、40K的摄像头图像以及20K的4D Radar数据。
3.2 数据标注
坐标系。我们的数据集包含四种类型的坐标系:
(1) LiDAR 坐标系,其中X、Y和Z轴分别对应LiDAR的前、左和上方向。
(2) 摄像头坐标系,其中Z轴表示深度方向。
(3) 4D Radar 坐标系,其中X、Y和Z轴分别指向右、前和上方向。
(4) 全局坐标系,与路侧平台的LiDAR帧保持一致。
3D 边界框标注。数据标注包括车辆、路侧以及协同部分的标注。车辆和路侧标注是在各自的LiDAR坐标系中手动完成的。对于协同标注,我们首先在统一的路侧LiDAR坐标系中对齐车载和路侧标注,然后使用交并比(IoU)度量进行匹配,以消除重复。标注过程包括五类对象:行人、自行车、汽车、公交车和卡车。每个对象标注包含遮挡(occlusion)和截断(truncation)等属性,以及3D边界框的几何特性,表示为(x, y, z, w, h, l, θ),其中(l, w, h)表示对象的尺寸,(x, y, z)表示其位置,θ表示其方向。
3.3 数据分析
图5(a)展示了在白天和夜晚条件下五类对象的分布情况,其中汽车在V2X-Radar中最为常见,其次是骑行者和行人,而卡车和公交车最少。
图5(b)显示了每类对象的3D边界框内LiDAR点云的最大和平均数量,表明较大的车辆比较小的行人或骑行者拥有更多的3D点云。
图5(c)揭示了不同对象边界框内4D Radar点云的密度分布,其趋势与图5(b)类似。
最后,图5(d)表明每个协同样本的标注数量最高可达90个,显著高于单车数据集(如KITTI或nuScenes),突出了结合车载和路侧数据在增强环境感知全面性方面的优势。
4. 任务
我们的V2X-Radar数据集由三个子集组成:V2X-Radar-I、V2X-Radar-V和V2X-Radar-C,旨在支持路侧3D目标检测、单车3D目标检测和协同3D目标检测。
4.1 单体3D目标检测
任务定义。单体3D目标检测包括两个任务:使用V2X-Radar-I子数据集进行路侧3D目标检测,以及使用V2X-Radar-V子数据集进行车载3D目标检测。这些任务依赖于智能路侧单元或车载平台的传感器来检测3D目标,面临以下挑战:
单模态编码:需要将摄像头的2D图像、LiDAR的稠密3D点云、以及包含多普勒信息的稀疏4D Radar点云编码为3D空间表示,以实现精确的单模态3D目标检测。
多模态融合:在融合来自不同传感器的多模态信息时,需要解决(1) 空间错位、(2) 时间错位、(3) 传感器失效等问题,从而实现鲁棒的多模态3D目标检测。
评估指标。评估范围覆盖自自车或路侧单元的x方向[-100, 100]和y方向[0, 100]。按照Rope3D和KITTI数据集中的指标,我们利用交并比(IoU)阈值为0.5和0.7的平均精度(AP)来评估目标检测性能。
基准方法。我们广泛评估了基于不同传感器输入的多种领先单体3D目标检测器。特别地,我们的评估涵盖了以下方法:
LiDAR为中心的技术,例如PointPillars、SECOND 、CenterPoint 和PV-RCNN。
基于摄像头的方法,包括SMOKE、BVDepth、BEVHeight 和BEVHeight++ 。
基于4D Radar的方法,如RPFA-Net 和RDIoU。
4.2 协同3D目标检测
任务定义。利用V2X-Radar-C子数据集进行协同3D目标检测任务的目标是结合车载和智能路侧单元的传感器,实现自车的3D目标检测。与以往的单体感知不同,协同感知提出了一些独特的领域特定挑战:
空间不同步:定位误差可能会导致单车平台与智能路侧单元之间的相对位置存在差异,这可能在将路侧单元数据转换到自车坐标系时引发全局错位。
时间不同步:数据传输中的通信延迟可能会导致单车平台与智能路侧单元的传感器数据之间的时间戳不一致。这可能在同一坐标系内转换数据时,导致动态目标的局部错位。
评估指标。评估范围覆盖自车为中心的x和y方向各[-100, 100]米。与DAIR-V2X 和V2V4Real类似,我们将各种车辆类型归为同一类别,仅关注车辆检测。目标检测性能通过交并比(IoU)阈值为0.5和0.7的平均精度(AP)进行评估。传输成本通过平均兆字节(AM)测量。根据之前的研究,我们在以下两种设置下比较方法:
同步:忽略通信延迟。
异步:模拟100毫秒的延迟,通过获取上一时间戳的路侧传感器数据实现。
基准方法。我们针对协同3D目标检测中的以下三种融合策略提供了全面的基准:
后融合:每个代理利用其传感器检测3D目标并共享检测结果。接收方代理随后应用非极大值抑制(NMS)生成最终输出。
前融合:自车将自身和其他代理的所有点云聚合到自车坐标系中,然后进行检测操作。
中间融合:每个代理使用神经特征提取器获得中间特征,这些特征被压缩并发送到自车进行协同特征融合。我们评估了多种领先方法,包括F-Cooper、V2XVIT 、CoAlign和HEAL,以在该领域建立基准。
5.Experiment
5.1 基准结果
单体3D目标检测。在统一分割下,V2X-Radar-I和V2X-Radar-V子数据集的基准结果分别展示在表3和表4中。更多在异构分割下的结果可见于补充材料中。这些表格中的实验结果清楚地表明,基于LiDAR的方法取得了最优的性能。尽管4D雷达处理的是相对稀疏的点云,但其性能仍优于基于摄像头的方法。基于摄像头的方法,由于无法利用深度信息,表现不如基于LiDAR和4D雷达的方法。
协同3D目标检测。表5展示了在V2X-Radar-C数据集上多种方法的定量比较。我们可以观察到:
与单车感知的基线相比,所有涉及协同感知的方法都表现出了显著的性能提升,凸显了协同感知在提升单车感知中的关键作用。
与同步设置的结果相比,在异步设置中引入通信延迟导致所有方法的平均精度(AP)显著下降。例如,使用LiDAR点云的F-Cooper 、CoAlign和HEAL 在IoU为0.7的严格标准下,分别下降了13.30%、20.49%和18.51%。这些结果突显了在稳健的协同感知中,减轻通信延迟影响的必要性。
结论
本文的贡献可以总结如下:
• 我们构建了V2X-Radar,这是第一个包含4D雷达的真实大规模多模态数据集,专为协同感知设计。所有帧都通过多模态传感器在各种真实场景中捕获。
• 我们提供了20K的LiDAR帧、40K的多视角摄像头图像和20K的4D雷达数据,以及五个对象类别的350K标注框。
• 对V2X-Radar-C(协同感知)、V2X-Radar-I(路侧感知)和V2X-Radar-V(车侧感知)这三个子数据集的最新感知算法进行了全面的基准测试。我们将发布所有V2X-Radar数据集及基准代码库。
文章引用:V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
扫码添加小助理进群
3D视觉之心知识星球主打3D感知全技术栈学习,星球内部形成了视觉/激光/多传感器融合SLAM、传感器标定、点云处理与重建、视觉三维重建、NeRF与Gaussian Splatting、结构光、工业视觉、高精地图等近15个全栈学习路线,每天分享干货、代码与论文,星球内嘉宾日常答疑解惑,交流工作与职场问题。