特邀述评
张雪波教授 南开大学
在3D点云序列中跟踪3D目标是近期的研究热点之一,现有方法跟踪精度仍需提升,且在急转弯等极端运动条件下往往容易失效。该论文提出了一种基于目标检测和场景流估计联合优化的3D多目标跟踪框架FlowDet-Track。 不同于通常将“目标检测”和“帧间数据关联”分为两阶段独立开展的做法,该论文充分考虑了单帧特征学习和帧间关联学习之间的“耦合性”,显著缓解了帧间错误关联问题,提升了3D目标跟踪算法的精度和极端运动条件下的鲁棒性。
识别二维码,访问全文PDF
欢迎引用:
王光明, 宋亮, 沈玥伶, 王贺升. 基于目标检测和场景流估计联合优化的3D多目标跟踪[J]. 机器人, 2024, 46(5): 554-561.
+ 图文导读
3D 多目标跟踪是自动驾驶所需的重要感知技术,是下游规划、导航任务的基础。目前大多数3D多目标跟踪方法独立优化目标检测和帧间数据关联部分,且都遵循先检测后跟踪的框架, 将任务分为 2 个阶段,目标检测阶段和数据关联阶段。由于先检测后跟踪的框架针对检测和数据关联 2 个部分进行独立优化,没有考虑两者之间的耦合性,因此限制了跟踪精度的提高。
该文还在 KITTI 的 MOT 数据集上对所提出的 3D 多目标跟踪方法进行训练和评估。为了提高样本多样性并避免过拟合,引入了一 种用于 3D 目标检测和场景流估计的数据增强方法。并在 KITTI MOT 测试数据集上测试了训练好的模型,并将测试结果提交到 KITTI 数据集的官方网站进行精度评估,结果如表1所示;在困难数据集上测试了极端旋转运动下的鲁棒性,结果如表2所示。实验结果表明, 所提算法的车辆类别HOTA与DetA指标比PointTrackNet算法提升了25.03%和30.8%,表明所提算法的位置跟踪精度优异。
表1 KITTI MOT 测试集上的评估结果
最后,在极端旋转运动条件下进行对比实验来验证算法的鲁棒性,可视化结果对比如图6所示。白色点是指 t − 1 帧的点,绿色点是 t −1 帧的白色点通过场景流转换到 t 帧的点,红色点是 t 帧的点。蓝色框是 t −1 帧中的 检测框;绿色框是 t 帧中的检测框。理论上,t −1 帧的点通过场景流转换到 t 帧后,在整体结构上应当与 t 帧的点云一致。图 3(a) 为使用 PointTrackNet [13] 中基于框平移的方法的结果,红色圆圈所示的变换后的绿色点与 t 帧中的红色点有部分区域不能匹配;而图 3(b) 使用本文提出的基于框变换的方法,变换后的绿色点能够很好地匹配 t 帧中的红色 点。这证明了所提出的基于框变换的场景流标签计算方法可以在目标旋转的情况下获得更准确的场景流真值。
图 4 展示了在困难数据集上测试鲁棒性时的定性结果。其中蓝色框是 t −1 帧的检测框;本文通过场景流计算 t −1 帧检测框的整体刚性运动,绿色框是通过该刚性运动对 t − 1 帧的检测框进行刚性变换得到的第 t 帧的检测框;红色框是真实的第 t 帧 点云中的目标检测框。可以看出,合成的绿色框和红色框基本重合,这说明本文提出的以合成框和真实框的交并比来进行后续跟踪的方法足够有效。
图 4 困难数据集上场景流估计和框关联可视化结果
+ 结论
该文提出了一个联合优化 3D 目标检测和场景流估 计的 3D 多目标跟踪框架。提出的检测引导场景流估计的方法探索了 3D 目标检测在促进场景流估计中的作用。提出的基于框变换的场景流标签计算方法,在目标旋转的情况下获得了更准确的场景流标签。实验结果表明,在极端旋转运动下,所提方法与其他方法相比仍然表现出具有竞争力的结果和鲁棒性。
+ 通信作者简介
联系我们 :
电话:024-23970050
E-mail:jqr@sia.cn
网址:https://robot.sia.cn