编者按:本文介绍了一种基于深度学习的4D雷达里程计方法4DRO-Net,旨在提高智能车辆在各种环境条件下的定位精度和鲁棒性。通过利用4D雷达点云的独特速度信息,本研究解决了传统传感器在复杂环境下的局限,并通过粗到精的层次化优化技术,实现了对稀疏点云的有效特征学习和位姿估计。实验结果表明,4DRO-Net在多个评价指标上超越了现有技术,同时满足实时处理的要求,为自动驾驶领域提供了一种低成本、高效的解决方案。
《Efficient Deep-Learning 4D Automotive Radar Odometry Method》
IEEE Transactions on Intelligent Vehicles, Vol. 9, NO. 1, January 2024
Shouyi Lu1, Guirong Zhuo1, Lu Xiong1, Xichan Zhu1, Lianqing Zheng1, Zihang He1, Mingyu Zhou2, Xinfei Lu2, Jie Bai3
摘要:里程计是智能车辆自主定位的关键技术。虽然最近从激光雷达(LiDAR)和摄像头估计里程计已经取得了进展,但如何从4D雷达这种具有独特优势的新兴传感器估计里程计还有待观察。在本研究中,提出了一种基于深度学习的4D雷达里程计方法,名为4DRO-Net。该方法采用基于滑动窗口的从粗到细的分层优化技术,以迭代方式估计和细化自动驾驶车辆的姿态。提出了一种用于4D雷达点云的特征提取网络,以实现稀疏点云的高效学习。构建了一个初始姿态生成模块,用于获取初始姿态,该姿态用于扭曲第一个点云并缩短与第二个点云的距离。然后开发了一个速度感知的注意力代价体模块,用于关联扭曲后的第一个点云和第二个点云,以获取点的运动信息。利用雷达点的速度信息来学习注意力权重,以增强运动信息估计的鲁棒性。利用运动信息来回归校正后的姿态,然后用于细化初始姿态,以获得更准确的最终姿态。我们的4D雷达里程计方法在View-of-Delft和内部数据集上的优越性能和有效性得到了证明。
关键词:深度雷达里程计,自动驾驶,4D雷达
里程计技术是智能车辆自主定位的关键技术,也是此类车辆规划和决策任务的基础。里程计使用传感器捕获的两幅连续图像或点云来估计两个帧之间的相对姿态变换。最近的里程计技术发展包括利用监督或自监督学习来执行所需任务[1],[2],[3],[4],[5],[6]。然而,大多数现有的里程计方法使用摄像头或激光雷达传感器,而这两种传感器的缺点,如无法在所有天气条件下感知、检测距离短以及高昂的经济成本,限制了它们在里程计技术中的应用。
4D毫米波雷达作为一种新兴传感器,因其相较于摄像头和激光雷达的独特优势,正在学术界和工业界广泛受到关注[7],[8],[9],[10],[11],[12]。首先,4D雷达提供了更丰富的场景描述,包括场景中目标的3D位置、雷达截面积(RCS)和径向相对速度(RRV)测量,其中额外的速度信息有助于在里程计系统中排除动态点。其次,由于其短波长和高穿透能力,4D雷达能够在不利的天气条件(如雨、雪和雾)以及不利的光照条件下稳定运行。最后,4D雷达相较于激光雷达具有更低的成本和更小的体积,使其在预算和空间有限的智能车辆中更易于使用。尽管4D雷达具有诸多优势,但基于4D雷达的里程计研究仍然不足。本研究的目的是开发一种基于学习的里程计方法,使用4D雷达捕获的点云进行定位。
图1. 图像、蓝色激光雷达点云和粉红色雷达点云之间的视觉比较。雷达点云明显比激光雷达点云更小且更嘈杂。
在使用4D雷达采集的点云进行里程计学习时,存在三个挑战。(1)与激光雷达输出的点云相比,4D雷达点云更稀疏、噪声更大,且分辨率更低,如图1所示。具体来说,单帧4D雷达只有几百个点,仅为激光雷达点数的1%。这种稀疏性显著增加了稳健提取点云特征的难度。(2)由于4D雷达点的稀疏性和噪声,难以在两个连续帧的4D雷达中进行精确的点对点匹配。(3)场景中的动态物体在各种里程计技术中都是一个普遍的挑战,显著影响车辆姿态估计的精度。为了解决这些挑战,并充分利用4D雷达的点云信息,我们提出了一种基于深度学习的4D雷达里程计方法。
为了解决第一个挑战,大多数现有的深度激光雷达里程计研究使用了PointNet[13]、PointNet++[14]以及将3D点云投影到2D深度图像的方法来提取点云特征[15]。然而,由于激光雷达点云信息的局限性,上述研究仅使用了点云的空间信息。4D雷达点云不仅包含点云的空间信息,还包含速度和雷达截面积(RCS)信息。受到PointNet的启发,并结合4D雷达的点云信息,本研究为4D雷达提出了一种名为Radar-PointNet的点云特征提取网络。该网络通过分别编码和对来自4D雷达的不同点云信息进行多尺度融合,有效地提取点云特征。
针对第二个挑战,Zheng等人[16]通过在2D深度图像中提取和匹配关键点来实现点对点的对应关系。然而,雷达点云稀疏且噪声较大,因此无法实现精确的点对应。在本研究中,使用了4D雷达点云的代价体积来获得两个点云之间的注意力加权软对应关系,并直接从描述点云之间软对应关系的代价体积中回归姿态。
为了解决第三个挑战,必须滤除动态点。Wang等人[17]提出了层次嵌入掩码来滤除激光雷达点云中的动态点。然而,对于4D雷达点云而言,特定于点云的速度信息在处理动态点时具有独特性。利用4D雷达点云特有的速度信息,我们对点云进行了过滤,并在网络中提出了一个速度感知的注意力机制模块,以对来自代价体积的点的移动进行加权。此外,为了充分利用稀疏点云中的信息,构建了一个粗到细的网络架构,并通过迭代优化以获得更准确的姿态。
本研究的贡献如下:
我们开发了一种从4D雷达数据进行里程计估计的新方法,通过为4D雷达里程计任务开发了一个完整且高效的框架——4DRO-Net。在该框架中,所有模块都是完全可微的,因此每个过程不是独立的,而是通过组合进行优化。4DRO-Net使用基于滑动窗口的粗到细的分层优化方法,以迭代的方式估计和优化姿态。
在所提出的框架中,提出了一种4D雷达点云特征提取网络Radar-PointNet,它包括多尺度特征提取、深度特征融合和特征生成策略,以实现与4D雷达点云信息结合的稀疏点云的有效特征提取。
在所提出的框架中,提出了一种新颖的速度感知注意力代价体积网络,该网络利用4D雷达点云特有的速度信息对代价体积中的点的运动进行加权,以提高姿态估计的准确性。
最后,我们的方法在View-of-Delft (VoD) 数据集[18]以及内部数据集上进行了广泛的评估。我们进行了评估实验和消融研究,以证明所提出方法的优越性和每种技术的有效性。
本文余下部分的结构如下:第二部分介绍相关工作。第三部分详细介绍所提出的方法。第四部分介绍数据集处理、基准线、评估指标和训练细节。第五部分展示了将所提出的方法与其他方法进行比较的实验结果以及消融研究的结果。
A.3D点云特征学习方法
通常,3D点云特征学习方法可以分为基于体素的学习方法和基于点的学习方法。基于体素的学习方法通常将点云转换为3D网格表示,然后在体素表示上使用经过验证的2D或3D卷积神经网络(CNN)来提取3D点云特征。VoxNet[19]是第一个基于体素的学习方法,它使用概率估计来计算3D网格中的占据情况,并随后使用3D卷积神经网络处理这些占据的网格。吴等人[20]提出了一种方法,将几何3D形状表示为3D体素网格中的二进制概率分布,然后使用卷积网络进行特征提取。尽管上述方法取得了出色的性能,但由于计算和内存消耗随着分辨率的增加呈立方增长,这些方法在处理密集3D表示时无法很好地扩展。为了解决这一问题,Gernot等人开发了OctNet[21],该方法采用混合网格八叉树结构对点云进行分层划分,以减少计算和内存成本。同时,体素化过程中信息的丢失是不可避免的。VoxelNet[22]和PointPillars[23]使用神经网络在体素化过程中从每个网格的点云中提取初始特征向量,尽可能地将原始点云信息存储在提取的体素特征中,从而减少了体素化过程中信息的丢失。然而,即使引入了神经网络,在体素化过程中原始结构信息的丢失仍然是不可避免的。通过设计与卷积顺序无关的特征提取算子,基于点的学习方法可以省略体素化过程,直接从原始点云中提取特征,从而保留点云的结构信息。PointNet[13]是一种由Charles等人在2016年提出的3D点云特征学习方法,用于直接从非结构化点云中学习点云特征。PointNet++[14]是PointNet的改进版本,它通过构建“采样-邻域聚类”的特征学习模型,对场景中的局部区域点集进行均匀采样和分割。然而,处理无序、非结构化和不均匀3D点云的分组过程引入了更多的计算量。HPLFlowNet[24]尝试使用基于格子的插值方法来处理大规模点云,但与插值相关的误差是不可避免的。Choy等人[25]提出了全卷积几何特征,这些特征由3D全卷积网络在单次传递中计算得出。SpinNet[26]引入了一种强大的3D柱状卷积,用于学习丰富而通用的特征。
上述3D点云特征学习方法是为激光雷达点云设计的;然而,与激光雷达点云相比,4D雷达点云包含额外的速度和雷达截面积(RCS)信息。上述方法均无法有效提取4D雷达点云特征。受到PointNet[13]的启发,本文提出了一种新颖的4D雷达点云特征提取方法,该方法利用4D雷达点云信息,实现点云特征的多层次提取和深度融合。
B.传统的点云里程计方法
传统的点云里程计方法分为两个步骤:点云对齐和基于对齐结果的当前帧和参考帧姿态估计。迭代最近点(ICP)算法是最广泛使用的传统点云里程计方法。它通过使用最近的欧几里得距离来建立点之间的对应关系,并求解要匹配的两个点云的相对姿态[27]。根据误差测量的不同,ICP可以分为点对点ICP(P2P-ICP)[28],该方法使用点到点的欧几里得距离作为误差测量;点对面ICP(P2Pl-ICP)[29],该方法使用点到面的欧几里得距离作为误差测量;强度ICP[30],该方法使用激光雷达反射强度作为误差测量;以及广义ICP(GICP)[31],该方法结合了P2P-ICP和P2Pl-ICP。尽管基于ICP的里程计方法在大多数场景中都能取得出色的性能,但当车辆速度较高时,激光雷达点云会发生畸变,因此会给出错误的姿态估计。为了解决这个问题,现有工作中提出了一种对齐方法,该方法提取点云中的一些关键元素[32][33]。Zhang等人[34]提出的激光雷达里程计和地图构建(LOAM)框架是使用关键元素进行对齐的经典方法,该方法基于曲率从激光雷达点云中提取位于锋利边缘和平面的特征,并分别将其对齐到边缘线段和平面特征。Shan等人[35]基于LOAM框架提出了轻量级和地面优化的LOAM(LeGO-LOAM)框架。与LOAM框架相比,LeGO-LOAM框架增加了一个点云分割模块,通过提取地面和分割点来聚类点云,并基于双平滑性选择特征点,从而提高了鲁棒性。此外,还研究了各种数学性质来描述点云并解决姿态问题,其中最常见的是法向分布变换(NDT)[36]。与其他方法相比,该方法不需要建立显式的点或特征之间的对应关系,但仍然存在严重依赖初始姿态的缺点。
C.基于深度学习的点云里程计方法
近年来,基于深度学习的点云里程计方法迅速发展,在准确性和实时性方面均取得了出色的性能。深度学习能够更好地学习特征表示,使其在应对具有挑战性的场景时表现得更加稳健。Nicolai等人[37]于2016年首次使用深度学习方法来估计连续点云之间的姿态变换。他们将激光雷达点云投影到二维平面上,并使用基于图像的深度学习技术实现激光雷达里程计。Velas等人[38]也将激光雷达点云投影到二维平面上,并使用包含高度、距离和强度的3D向量作为输入,分别通过卷积神经网络和全连接层回归旋转和位移。Wang等人于2019年提出了DeepPCO[39]。该方法使用全景深度图像来表示点云,并采用并行化的思路,使用平移子网络和FlowNet[40]分别估计输入的连续点云的平移和旋转。同年,Li等人提出了LO-Net[41],该网络以两个连续的点云作为输入,通过估计3D点的法向量构建几何一致性损失,并构建掩码预测子网络以估计不确定性掩码,从而消除动态物体的影响。Zheng等人提出的LodoNet[16]将激光雷达点云转换为图像空间,然后使用基于图像的特征提取和匹配方法进行激光雷达里程计。PWCLO-Net[42]提出了一个姿态扭曲优化模块,以粗到细的方式实现激光雷达里程计的分层优化,并通过分层嵌入掩码优化处理各种异常值。EfficientLO-Net[17]提出了一种投影感知的3D点云表示,并基于这种点云表示构建了一个用于激光雷达里程计任务的金字塔、扭曲和代价体积(PWC)结构,以粗到细的方式估计和优化姿态。TransLO[43]引入了一种创新的、基于窗口的端到端掩码点转换器网络,专为大规模激光雷达里程计设计。该架构通过协同集成卷积神经网络(CNN)和转换器框架来提取全面的全局特征嵌入。
A.综述
图2. 图1中4D雷达收集的点云信息可视化,包括空间、RRV(径向相对速度)和RCS(雷达截面积)信息。RCS信息通过点的颜色来表示,颜色代表RCS值。同样,RRV的可视化也是通过点的颜色来实现,颜色表示RRV值。(a)RCS信息可视化。(b)RRV信息可视化。
问题表述:本研究的主要目的是利用两个连续的4D雷达点云来获得这两个帧之间的相对姿态变换。具体来说,给定两个连续的点云和,网络输出这两个帧之间的姿态变换,其中姿态变换由旋转和平移组成。在本研究中,旋转由欧拉角表示,平移由平移向量表示。这里,和表示点的数量。与传统的仅包含空间信息的点云不同,4D雷达捕获的点云还包括径向相对速度(RRV)和雷达截面积(RCS)信息,这些信息共同构成了一个5D特征向量。RRV描述了场景中其他物体相对于自车的运动,而目标的RCS则是截获雷达发射信号并将其反射回雷达接收器的假想区域[44],如图2所示。
图3 所提出的4DRO-Net架构的细节。该网络由点特征编码模块、初始位姿生成模块以及矫正位姿生成模块组成。网络最终估计的位姿由初始位姿和矫正位姿相乘获得。(a)在训练阶段,将连续三帧点云组成的滑动窗口作为网络的输入,相邻点云和分离点云的旋转损失和平移损失被制定来训练网络。(b)在测试阶段,将相邻点云输入网络得到点云之间的位姿变换。
整体架构:图3展示了本研究中提出的4DRO-Net的整体架构。它由特征编码模块、初始姿态生成模块和校正姿态生成模块组成。使用深度学习模型进行里程计训练的一个缺点是标签不平衡程度高,即数据集中大多数曲线都是次要曲线,只有少部分曲线是主要曲线。为了解决这个问题,在训练阶段,我们使用当前点云及其前两帧和形成一个滑动窗口作为网络的输入。在滑动窗口中,不仅解决了与之间的姿态变换,还解决了与之间的姿态变换。这增加了主要曲线的样本分布,并使模型能够更好地训练。特征编码模块对滑动窗口内的每个点云进行特征编码,生成其相应的点特征和全局特征。初始姿态生成模块使用点云全局特征作为输入对,并估计点云之间的初始欧拉角和初始平移向量。基于初始姿态变换,校正姿态生成模块执行姿态扭曲,然后使用所提出的速度感知注意力代价体积网络生成代价体积,基于扭曲后的点云及其相应的点特征。代价体积用于回归校正后的欧拉角和校正后的平移向量。最后,使用校正后的姿态对初始姿态进行优化,获得最终的欧拉角和平移向量。对于滑动窗口中的不同点云对,我们设计了网络以连续点云损失和间隔点云损失进行训练。在测试阶段,我们只将两个连续的帧和输入到训练好的网络中,以获得这两个帧之间的姿态变换。
B.特征编码网络
图4 特征提取网络的详细信息。该网络由两大部分组成:深度特征融合模块和特征生成模块。输出每个点的特征和全局特征。
4D雷达点云在3D空间中比激光雷达点云更稀疏且噪声更大。因此,如果使用像VoxelNet[22]那样的密集体素,大多数体素网格可能是空的。PointNet[13]作为经典的3D点云特征提取算法,使用共享的多层感知器和最大池化来提取点特征和全局特征,但仅利用了点的空间信息。受到PointNet的启发,并结合4D雷达点云信息,提出了Radar-PointNet以有效地提取雷达点云特征。图4展示了所提出的Radar-PointNet网络,包括深度特征融合模块和特征生成模块,具体描述如下。
1)深度特征融合模块:从4D雷达点云中提取稳健的点云特征受限于两个方面:a)雷达点云信息的复杂性,b)雷达点云的稀疏性。与激光雷达点云相比,4D雷达点云不仅包含空间信息,还包含RRV和RCS信息。RRV和RCS信息尤为重要。RRV描述了周围物体相对于自车在径向方向上的速度,这在考虑雷达里程计任务中的动态点时具有重要价值。RCS值在不同物体之间有显著差异,从而有助于对每个物体进行全面表征。将所有4D雷达点云信息编码到同一个特征空间会导致特征复杂性。为了解决这个问题,我们分别使用三个1D卷积、BN(批归一化)和ReLU层对点云的空间、速度和RCS信息进行编码,并在三个特征尺度上进行特征拼接以实现深度特征融合。为了解决雷达点云的稀疏性问题,我们提取了点云中每个点的点特征,以对稀疏点云进行细粒度特征提取,从而充分利用场景中的4D雷达点。具体来说,对于输入的点云,最终的点云融合特征通过以下计算过程得到。
其中,表示点的位置信息,表示点的速度信息,表示点的强度信息,表示1D卷积,表示ReLU激活函数,表示连接,表示点的位置信息特征提取,表示点的速度信息特征提取,表示点的强度信息特征提取,表示点的位置信息、速度信息以及强度信息的组合特征,表示平均池化函数。
2)特征生成模块:在获得最终的点云融合特征后,首先通过平均池化聚合特征,以获得点云的点特征。基于点特征,在点特征的每个维度上使用1D卷积和最大池化,以获得最终的全局特征。公式如下:
其中,和表示点特征聚合过程中生成的中间特征,表示最大池化函数。
C.初始姿态生成网络
图5 初始位姿生成模块。该模块将两帧点云的全局特征作为输入,输出初始旋转估计和初始平移估计。
将点云的全局特征转换为两帧之间全局一致的姿态变换是一个新的问题。在本小节中,提出了一种方法,使用两个点云的全局特征来生成初始姿态变换。
如图5所示,初始姿态生成网络获取了需要估计姿态变换的两个点云的全局特征和。这些特征随后被拼接,以进行后续的空间特征提取。空间特征的提取通过平均池化来实现,该方法结合了两个点云的全局特征信息,从而使特征提取网络能够有效地进行特征提取。最后,提取的空间特征被映射到一个6自由度(6-DoF)的姿态变换中。由于旋转是高度非线性的,我们使用两组独立的多层感知器(MLP)对平移和旋转的映射进行解耦。计算过程如下:
D.校正姿态生成模块
图6 矫正位姿生成模块。该模块将两帧点云、点云的点特征以及初始位姿估计作为输入,经过位姿变换、速度意识的注意力成本量和位姿回归后输出矫正旋转估计和矫正平移估计。
为了在端到端方其中实现粗到细的精细化过程,我们提出了一个校正姿态生成模块,以校正初始姿态并获得更准确的姿态。如图6所示,该网络包含几个关键组件:姿态扭曲、速度感知注意力代价体积和校正姿态回归。姿态扭曲过程使用初始姿态对进行扭曲,以减少和之间的距离。接下来,速度感知注意力代价体积模块将与扭曲后的关联起来,并推导出嵌入特征,该特征表征了中每个点的运动信息。最后,应用校正姿态回归模块,以获取和扭曲后的的校正姿态。具体过程如下:
1)姿态扭曲:此过程是使用来自初始位姿生成模块的欧拉角和平移向量对中每个点进行变换,生成。具体来说,首先将欧拉角转换为对应的旋转矩阵。之后,使用旋转矩阵和平移向量对点云进行变换。扭曲变换的公式如下:
图7. 速度感知注意力代价体积。该模块以两个点云的空间信息、速度信息和点特征为输入。通过注意力加权获得中每个点的运动信息。最后,该模块输出的代价体积特征。
2)速度感知注意力代价体积:如果初始姿态估计准确,那么和将大致相等。然而,初始姿态中的误差仅使更接近而不是。受到文献[45]的启发,并结合4D雷达点云特有的速度信息,我们引入了速度感知注意力代价体积,以关联和,然后基于代价体积生成和之间的校正姿态。代价体积使用空间和速度信息来关联两个点云,以生成代价体积特征。代价体积特征包含中每个点的运动信息,这些信息与校正姿态直接相关。然而,属于动态物体的点对雷达里程计是不利的。速度信息直接反映了雷达点的运动。因此,我们利用雷达点的速度信息来学习注意力权重,对注意力流嵌入进行加权。速度感知注意力代价体积如图7所示。该模块的输入是两个点云的空间、速度和点特征,和。其中,表示空间信息,表示速度信息,表示由点特征和点云的全局特征组成的特征向量。模型的输出是第一点云中每个点的运动编码,其中。这一过程的详细描述如下。
点的运动编码可以分为中的点对求取注意力成本量以及中的点对求取注意力成本量两个过程。在第一个过程中,根据点的空间信息,对中的每个点在中选择个最近的邻居点。对中的每个点在中选择个最近的邻居点。使用和求取中的点对的注意力成本量。首先,求取用于注意力权重学习的特征向量:
除了点云的速度信息,我们还使用了点云的空间结构信息,空间结构信息与点的相似性直接相关。基于,注意力权重计算如下所示:
其中,表示softmax激活函数,用于归一化注意力权重。之后,使用两帧点云的点特征和特征向量构建flow embedding :
最后,基于和,可获得中点对的attentive flow embedding:
这里,表示点乘。在第二个过程中,首先根据的局部3D空间结构信息和速度信息求取用于注意力权重学习的特征向量:
基于,注意力权重计算如下所示:
最后,中点的attentive flow embedding如下所示:
连接中每个点的attentive flow embedding即可得到的运动编码。
图8 修正的姿态回归。该模块将两帧点云的成本量作为输入,输出矫正旋转估计和矫正平移估计。
3)修正后的姿态回归:下一步,基于两帧点云的成本量,我们提出了一个矫正位姿回归模块从成本量中生成矫正位姿。如图8所示,该模块首先使用最大池化综合点云中所有点运动编码每一维上的信息生成点云的运动特征,之后使用MLP将提取的点云运动特征映射到6-DoF位姿变换,可得到矫正的旋转估计和矫正的平移向量,该过程如下式所示:
E.姿态细化
在本节中,根据刚体变换组合的基本法则进行两帧之间最终位姿的求解。更详细地说,给定一个3帧连续点云的滑动窗口,根据3.3节可以获得连续点云(consecutive point cloud)和区间点云(interval point cloud)的初始旋转估计和初始平移估计,根据3.4.3节可以获得连续点云和区间点云的矫正旋转估计和矫正平移估计。最终位姿的求解在下其中给出。
其中,为欧拉角对应的旋转矩阵。通过这一过程,我们基于滑动窗口将姿态从粗糙细化到精细,得到了更准确的最终姿态估计。滑动窗口的引入不仅解决了数据分布不均匀的问题,而且提高了姿态估计的精度和对大规模运动的鲁棒性。
F.训练损失
网络输出滑动窗口内连续点云的位姿和区间点云的位姿。对于每一个位姿,我们设计了旋转损失和平移损失分别学习点云帧间旋转和平移分量:
其中,表示范数,和分别是由真实姿态变换矩阵生成的真实欧拉角和平移向量。
由于欧拉角和平移向量之间的尺度和单位不同,参考之前的深度里程计工作[41],我们引入了两个可学习参数和。对于每一个位姿训练损失函数为:
因此,在一个滑动窗口内,一个两阶段的监督方法的定义如下:
其中,和为连续点云在两阶段的姿态损失函数。和是间隔点云在两阶段的姿态损失函数。是一个超参数,平衡连续点云损失函数和间隔点云损失函数的大小。
A.数据集
表I 在VOD数据集中,与测试集相对应的帧号
1)View-of-Delft Automotive Dataset:VoD数据集[18]是从Delft校园、郊区和老城区收集的,场景中包含许多动态对象,如行人和骑自行车的人。数据集包含8682帧,包括相机、激光雷达和4D雷达的数据。每个帧还提供了不同传感器之间的外部参数转换和里程计信息。基于帧之间的数据连续性,我们将8682帧分成了24个序列。在保持数据分布一致性的前提下,我们选择了五个序列(00、03、04、07、23)中的1718帧作为测试集,其余序列中的6964帧用作训练集,按照24个序列中训练集和测试集的8:2比例。数据集中测试序列对应的帧号见表I。
图9. 显示内部数据集收集场景。为了可视化数据,我们将四维雷达点投影到相应的图像上,并使用彩色编码方案表示它们的深度。
2)The In-House Dataset:我们使用了一辆装备有4D雷达和高精度多源信息组合定位设备的汽车作为数据收集平台。4D雷达序列以10fps的帧率采集,高精度多源信息组合定位设备输出的GPS数据以100fps的帧率采集。我们总共收集了11,192帧,分为4个序列,图9显示了收集的场景。在所有序列中,我们选择了序列03和04,共3403帧作为测试集,而其余序列,共7789帧用作训练集。
B.数据集处理
1)Labels:所提出的方法求出来的两帧点云之间的位姿变换是在雷达坐标系下。由于VoD数据集提供的ground truth pose是相机坐标系到里程计坐标系的变换矩阵。因此,需要根据VoD数据集提供的4D雷达和相机的外参矩阵将相机坐标系到里程计坐标系的变换矩阵转换为在雷达坐标系下两帧点云之间的位姿变换。首先,根据第帧相机坐标系到里程计坐标系的变换矩阵和第帧相机坐标系到里程计坐标系的变换矩阵求得第帧相机坐标系到第帧相机坐标系的变换矩阵:
接着,根据4D雷达和相机的外参矩阵求得第帧雷达坐标系到第帧雷达坐标系的变换矩阵:
相同的,我们可以获得第帧雷达坐标系到第帧雷达坐标系的变换矩阵对滑动窗口中的区间点云(interval point cloud)之间的位姿变换监督训练。对于自己采集的校园数据集,ground truth pose是由高精度多源信息组合定位设备输出的GPS数据转换得到。首先,将GPS数据转换为在第帧定位设备坐标系到东北天坐标系下的位姿变换矩阵,这里为雷达帧的数目。接着,基于计算第帧定位设备坐标系到第帧定位设备坐标系的变换矩阵:
最后,根据4D雷达和定位设备的外参矩阵求得第帧雷达坐标系到第帧雷达坐标系的变换矩阵:
2)Data Augmentation:在VoD数据集中,车辆的左转场景和右转场景存在着高度不平衡。深度学习模型高度依赖尽可能完善的数据集,而在VoD数据集中并非如此。为了解决这个问题,我们采用了少量标签过采样的方法。通过对训练集中样本ground truth pose偏航分量统计分析,我们使用样本重复的方法来获得更平衡的数据集。通过这种方式,我们添加了大约1000个用于旋转的样本。
VoD数据集中提供的点云速度为速度补偿后的绝对速度,而内部数据集中提供的点云速度为原始RRV。为了使两个数据集的网络信息输入保持一致性,我们对内部数据集的点云速度进行了速度补偿,并进行了参考[46]。
速度信息是4D雷达点云所特有的点云信息,使用该信息设定合适的速度阈值可以很方便的区分点云中的静态点和动态点,即速度信息的绝对值大于的点被当作动态点,反之则为静态点。对于每帧点云输入到网络的个点,我们优先从静态点中进行采样,若静态点数量不够,则从动态点中采样足够数量的点。
3)BaseLine:与3D雷达点相比,4D雷达点的空间表示已从二维转变为三维,类似于激光雷达点的空间表示。因此,将4D雷达点适应现有的3D雷达里程计方法是一个挑战。因此,我们选择了基于3D空间点的里程计方法。我们的比较方法包括三类:基于经典的里程计方法、基于激光雷达的方法和基于4D雷达的方法。在基于经典的里程计方法中,我们比较了几种经典的基于ICP的里程计方法,包括ICP-point2point [28](ICP-po2po)、ICP-point2plane [29](ICP-po2pl)和GICP [31],以及基于NDT [36]的里程计方法。对于基于激光雷达的方法,我们使用了A-LOAM和LO-Net [41]作为比较算法。A-LOAM是LOAM [34]的高级实现,目前是基于激光雷达点云的同时定位与地图构建的最佳方法。本研究中提出的算法相当于SLAM系统的前端里程计组件。因此,我们将4D雷达点云适应到A-LOAM框架中,没有后端优化,以获得基于A-LOAM框架的4D雷达里程计结果,而没有进行地图构建。LO-Net是一种基于学习的激光雷达里程计方法,用于训练和测试集的划分,以获得基于LO-Net学习的4D雷达里程计结果。对于基于4D雷达的方法,我们使用了RaFlow [10]和CMFlow [11]作为比较算法。RaFlow通过自监督估计4D雷达场景流,将里程计估计作为中间任务。我们使用默认模型参数和我们的数据集分割来训练网络。CMFlow通过跨模态监督估计4D雷达场景流、里程计和运动分割,使用GPS/INS来监督里程计。我们比较了与CMFlow重叠的测试序列。
4)Metrics:利用相对姿态误差(RPE)来量化估计姿态和地面真实姿态之间的差异,评估了该方法的性能。RPE通过测量估计姿态的姿态变化和地面真实姿态之间的差值来评估算法的精度,这同时考虑了旋转和平移误差。此外,在本研究中,我们对长度为20~160m的所有可能子序列使用了平均平移均方根误差(RMSE)(m/m)和平均旋转RMSE(◦/m),步长为20 m,以进行比较。
5)Training Details:由于我们的系统中采用了与VoD数据集中使用的不同的4D雷达设备,每个点云内的点数存在相当大的变化。在对VoD和内部数据集上的网络进行训练和评估期间,网络分别输入了256和512个点,分别记为N。所有的训练和评估实验都是在单个NVIDIA 2080Ti GPU上使用Pytorch 1.7完成的。采用了SGD优化器,动量(momentum)设为0.9,权重衰减(weight_decay)设为10-4。初始学习率为0.001,每10个epoch后衰减0.1。epoch总数为40,批量大小(batchsize)为8。所有层都使用Xavier分布进行初始化。在公式(15)中,可训练参数和的初始值分别设为-2.5和0。在公式(16)中,。速度阈值用于区分动态点和静态点,设为2。
在本节中,我们介绍了四维雷达测程任务的网络性能的定量和定性结果,并与那些最先进的方法进行了比较。本文报告了一项广泛的消融研究的结果,以证明每个成分对结果的影响。
A.性能评估
表II 在VOD数据集上的四维雷达测程实验结果
VoD数据集上的结果:在表II中展示了对VoD数据集进行定量评估的结果。尽管在密集点云(例如激光雷达)上表现令人满意,但雷达数据的稀疏性和噪声性使得现有最先进的方法在雷达数据上难以提供相同的效果。实验结果表明,与其他方法相比,所提出的方法在几乎所有指标上都取得了最佳性能。这证实了我们针对4D雷达的架构设计在处理稀疏、嘈杂和低分辨率雷达点云方面的有效性。A-LOAM在00和03序列上没有完全运行,因为4D雷达点太稀疏了。
图10. 在序列00、03、04和07上,使用位姿优化的提出方法、不使用位姿优化的提出方法、ICP-point2point、GICP、LO-Net、RaFlow、CMFlow 以及没有进行地图构建的A-LOAM的轨迹结果。(a)序列00的2D轨迹图。(b)序列03的2D轨迹图。(c)序列04的2D轨迹图。(d)序列07的2D轨迹图。
图11. 在VoD序列00、03、04、07和21上,所有可能的长度为20、40...160米的子序列上的平均平移和旋转误差。我们的方法表现最佳。
定性结果在图10和图11中展示。图10展示了我们提出的方法、ICP-point2point、GICP、LO-Net、RaFlow和CMFlow在XY平面上的轨迹。很明显,所提出的算法的轨迹明显比其他方法更准确,并且与真实轨迹大致一致。图11展示了序列00、03、04、07和21的平均段误差图。显然,在平均平移误差和平均旋转误差方面,所提出的方法都明显优于所有其他方法。
表Ⅲ 在内部数据集上的四维雷达测程实验结果
图12. 提出的方法、未进行地图构建的A-LOAM和LO-Net在序列00和01上的轨迹结果。(a)序列00的2D轨迹图。(b)序列01的2D轨迹图。
图13. 在内部序列00、03、04、07和21上,所有可能长度为20、40...160米的子序列上的平均平移和旋转误差。我们的方法表现最佳。
内部数据集的结果:内部数据集的定量结果在表III中呈现。在测试集的两个序列中,我们的方法在相对平移误差和相对旋转误差方面都优于其他方法。结果表明,所提出的方法表现出对各种类型4D雷达设备的良好适应性。
定性结果在图12和图13中展示。图12显示了所提方法、GICP、NDT、LO-Net和RaFlow在XY平面上的轨迹投影。如图12所示,所提方法的轨迹比其他方法更接近真实轨迹。图13展示了我们的方法、ICP-po2po、ICP-po2pl和LOAM(无地图构建)在所有测试序列上的平均平移和旋转误差,考虑了从20到160米、每20米为一步的所有可能的子序列。图13明显表明,我们的方法实现了最佳的定位性能。
B.消融试验
为了分析所提方法中每个模块的有效性,在VoD数据集上进行了消融研究,通过移除或更改模块组件来完成。训练和测试条件与第四部分B5节中描述的相同。
表IV 消融试验结果
深度特征融合模块的效果:我们使用了PointNet[13]的编码组件来替换所提方法中的深度特征融合模块。这意味着将4D雷达点云的空间、速度和雷达截面(RCS)信息编码到同一特征空间中。表IV-a的结果显示,所提出的深度特征融合模块基于相对平移误差和相对旋转误差获得了更好的结果。这是因为,与PointNet相比,深度特征融合模块分别对点云的空间、速度和RCS信息进行编码,并在三个特征尺度上融合特征,这有效地避免了不同类型的点云信息的混合以及高强度点云信息对低强度点云信息的掩盖。
成本体积中速度信息的优势:我们从成本体积中移除了速度信息,以验证速度信息对于点运动估计的重要性。我们仅使用点云的空间信息作为成本体积的输入,结果如表IV-b所示。与我们提出的速度感知注意力成本体积相比,仅以点云的空间信息为输入的成本体积在相对平移误差和相对旋转误差方面的表现都有所下降。在包含更多动态对象的场景中,如序列03和04,这种下降更为明显。这是因为引入速度信息为注意力流嵌入提供了注意力加权,从而允许更准确地估计点运动。因此,所提出的速度感知注意力成本体积获得了最佳结果。
位姿优化的效果:我们移除了校正位姿生成模块和位姿优化,这意味着位姿仅通过粗略估计过程来确定。结果在表IV-c中展示,其中相对平移误差和相对旋转误差的性能都显著降低,这证明了粗到细分层优化在位姿回归中的重要性。我们还在图10中展示了进行位姿优化和不进行位姿优化的轨迹。从图中可以看出,位姿优化对旋转估计有明显的校正效果,使得估计的轨迹与真实轨迹更加吻合。
C.计算时间
4D雷达点云随时间被单独捕获,处理数据所需的时间是智能车辆实时定位的关键参数。我们在VoD数据集的序列04上测试了所提出的方法和比较方法的总计算时间。如表V所示,由于在4D雷达点云中每帧只有大约256个点,因此基于经典方法的测程法的运行时间非常短。本文所述方法的总计算时间为10.82 ms,约为100 Hz。时间戳对齐后,VoD数据集中的4D雷达点云捕获频率为10 Hz,即每100 ms捕获一个点云。该方法对每个点云的处理时间均小于100 ms,足以满足实时性需求。因此,本研究中提出的方法可以在100 Hz的实时4D雷达测程。
表V 总计算时间
在这项研究中,我们介绍了4DRO-Net,一种设计用于测速的4d雷达网络。本文提出了一种针对四维雷达点云的特征提取网络,以实现对四维雷达点云特征的有效学习。提出了一种新的速度感知注意代价体积网络,以减少动态对象对姿态估计的影响。我们的方法实现了一个完全端到端高效的框架,其中一个基于滑动窗口的粗到精细的层次优化,用于估计和细化姿态。在VoD和内部数据集上的实验证明了该方法的有效性。
据我们所知,本研究是首次使用深度学习方法进行四维雷达测程测量。我们希望这项研究将促进使用4D雷达传感器,以实现低成本和高度鲁棒的测速系统。在未来的工作中,我们将探索使用无监督学习和多传感器融合来实现4D雷达测程法。
参考文献
联系人:唐老师 |
电话:13917148827 |
邮箱:tangyanqin@tongji.edu.cn |
点“阅读原文”获取论文