标题:Pseudo-Image and Sparse Points: Vehicle Detection With 2D LiDAR Revisited
by Deep Learning-Based Methods
期刊:IEEE Transactions on Intelligent Transportation Systems, 22(12), 7699-7711.
作者:Guang Chen, Fa Wang, Sanqing Qu, Kai Chen, Junwei Yu, Xiangyong Liu, Lu
Xiong and Alois Knoll
单位:Tongji University, Technical University of Munich
自动驾驶车辆需要具备可靠、有效地检测和定位周围的车辆的基本能力。现有的解决方案通常依赖于基于视觉的方法或基于三维激光雷达的方法,这些方法要么在传感器定价(3D激光雷达)和计算(相机和3D激光雷达)方面都过于昂贵,要么在抵抗恶劣环境变化(相机)方面都不太可靠。并且从单目或双目相机估计目标距离,在很大程度上依赖于传感器校准和环境照明,这使得其准确性和鲁棒性较差。
本文利用低成本的2D激光雷达解决车辆感知问题,具体提出了两种基于深度学习技术的不同的方法(如图1):一种级联金字塔RCNN模型,一种基于稀疏点输入的混合学习方法,称为混合Resnet Lite。其中级联金字塔RCNN更专注于性能,同时仍然保持实时能力;混合动力Resnet Lite追求更快的速度和更轻的重量。
图1 级联金字塔RCNN和混合ResNet Lite框架二维点云框架中的目标在空间上可能非常稀疏,而在尺度上也可能非常不同。为此,本文提出了级联金字塔RCNN,该级联金字塔RCNN利用了一个两阶段区域建议卷积神经网络,结构如图2所示。首先将点云数据转化为伪图像:将每帧的点投影到平面上,并以5.55厘米的分辨率和33.33米的跨度进行网格化。每个网格通过点的坐标和到视点的距离编码为其RGB通道值,并通过双线性插值增强其八个相邻网格。然后对帧进行归一化和数据增强,以生成适合于CNN的密集张量,从而将稀疏、无序和不规则的点云数据转换为伪图像。然后进行特征提取:将伪图像转换成特征金字塔。首先通过残差网络对伪图像进行特征提取,并构建出五层特征金字塔。然后通过反向上采样构建四层特征金字塔,将不同尺度的特征融合在一起。接着在第三个金字塔中生成不同尺度的anchor boxes,以捕捉不同大小和比例的目标。通过与真实目标匹配的anchor boxes,网络可以学习偏移和错误,进而生成更好的提议框。最后,将提议框合并,并通过随机采样保持前景和背景的平衡。最后使用检测头进行分类:使用第四个金字塔结构进行RoI检测。对于每个提议框,从第二个金字塔中切出其RoI特征图,形成一个四层的金字塔。通过RoI对齐将不同层的特征图下采样到相同的大小(7×7)。在这个过程中,由于目标尺度的变化不如之前的模块明显,所以仅使用了四层特征图。最终的检测结果是在RoI的基础上进行聚合的,通过全连接层将最后的特征图压缩成输出向量,将输出映射回原始伪图像,最后进行NMS并计算分类、框回归和方向损失。图2 级联金字塔RCNN网络结构主要分为四个模块:(a)伪图像编码器、(b)特征图提取器、(c)区域兴趣检测头和(d)检测头。由于2D-LiDAR数据只包含少量点,将其转换为其他形式可能会影响模型的速度,同时基于伪图像的方法消耗计算资源过多,难以在轻量级嵌入式平台上部署。因此,本文还提出了一种使用两个模块构成的混合模型Resnet Lite,其中第一个模块用于生成点区域提议,第二个模块是车辆检测器,使用提议的点聚类来实现分类和回归目标。混合Resnet Lite的主要架构和流程如图3所示。基于DBSCAN算法的区域提议模块,用于从点云数据中生成目标点集。DBSCAN算法是一种无监督聚类算法,可以根据两个阈值将点分成不同的簇。通过参数调整,该算法的MinPts被设置为10,半径r为0.6米。为了简化感兴趣区域的表示,使用三个参数[IdxS,IdxE,Num]对其进行编码,其中IdxS表示区域提议的起始索引,IdxE对应于区域提议的结束索引,Num表示该点云输入的总点数。这种方法可以大大压缩感兴趣区域的数据大小。车辆检测模块,使用混合ResNet Lite卷积神经网络进行特征提取和分类回归。该模块包含两个输出,一个是车辆类别的概率p和对应的背景概率1-p,另一个是目标姿态估计的编码,包括位置偏移和朝向角度。在处理过程中,通过自适应最大池化从全局特征图中裁剪出每个候选区域的局部特征图进行特征提取。在本文的实验中,我们使用了以下评估指标:预测结果通过其中心点和朝向方向进行评估,测试了不同的中心点距离和朝向角度误差标准。只有当预测的中心点偏移和朝向方向误差均低于一定阈值时,才被认为是准确的。结果总结如表I所示。表1 级联金字塔RCNN和混合ResNet Lite测试精度与速度图4 不同定位和航向误差标准的精度召回曲线:性能以平均精度(AP)表示;实线为级联金字塔RCNN和混合树脂石的虚线实验结果显示(如图4和5所示),级联金字塔RCNN在距离半径为30厘米和偏角小于15度的条件下,平均准确率达到了88.19%,每帧约需要48毫秒的推理时间。混合Resnet Lite相对于Faster RCNN的平均性能提高了31.6%,推理速度提高了400%。虽然总体性能可能比级联金字塔RCNN略逊一筹,但运行速度比纪念金字塔RCNN更快。3、结论:
本研究利用现代深度学习方法重新审视了基于LiDAR的车辆检测方法,提出了两种方法,分别是利用伪图像的级联金字塔RCNN和利用稀疏点云的混合学习方法混合Resnet Lite。实验结果表明,级联金字塔RCNN在精度上优于现有的方法,而混合Resnet Lite提供了更快速和轻量级的模型。该研究填补了2D LiDAR有效和鲁棒性车辆检测解决方案的空白,并表明即使是从单个2D LiDAR获取有限的感知信息,仍然可以实现有效和稳健的车辆检测。未来的研究可以通过优化模型结构和引入稀疏卷积等技术来进一步提高模型的性能和速度。