AAAI2025 | MMTracker: 结合Mamba和YOLO的无人机多目标跟踪, 代码开源

文摘   2025-01-13 08:10   荷兰  

 RS   DL 

论文介绍

题目:MM-Tracker: Motion Mamba with Margin Loss for UAV-platform Multiple Object Tracking

会议:39th Annual AAAI Conference on Artificial Intelligence (CCF-A会议)

论文:https://arxiv.org/abs/2407.10485

代码:https://github.com/YaoMufeng/MMTracker

年份:2025
单位:复旦大学,腾讯优图,上海海洋大学,冰岛大学

创新点

  • 提出了Motion Mamba模块,结合局部相关性和双向扫描的全局特征提取,实现快速而准确的运动建模。

  • 提出了Motion Margin Loss (MMLoss),通过动态调整分类边界,提高对运动模糊目标的检测能力。

  • 在两个公开的无人机多目标跟踪数据集(Visdrone和UAVDT)上,MM-Tracker在精度和速度方面均超过了现有的最先进方法。

数据


本文选用了两个公开的无人机多目标跟踪数据集

Visdrone 数据集

  • 数据描述:
    • Visdrone 是一个多类别多目标跟踪数据集,由无人机拍摄的多视角视频组成,具有典型的无人机运动和全局运动场景。
    • 数据集包含10个类别:行人(pedestrian)、人(person)、汽车(car)、货车(van)、公交车(bus)、卡车(truck)、摩托车(motor)、自行车(bicycle)、有篷三轮车(awning-tricycle)和三轮车(tricycle)。
    • 每个目标物体都标注了边界框、类别编号以及唯一的目标ID。
  • 分布:
    • 训练集:56个视频序列。
    • 验证集:7个视频序列。
    • 测试集:
      • 测试-dev:7个序列。
      • 测试-challenge:6个序列。

UAVDT 数据集

  • 数据描述:
    • UAVDT 是一个以汽车跟踪为主的多目标跟踪数据集,采集自不同的常见场景,例如广场、干道和收费站等。
    • 数据集包含3个类别:汽车(car)、卡车(truck)和公交车(bus)。
  • 分布:
    • 训练集:30个视频序列。
    • 测试集:20个视频序列。
  • 场景特点:
    • 数据集中包含了多种复杂场景,如不同的天气条件、时间、拍摄角度和背景。

数据处理

  • 光流图生成:
    • 使用预训练的 EMD-Flow 模型生成每帧的光流图。
    • 光流图用于计算目标物体在前后帧中的中心偏移量,并在目标的边界框区域内叠加偏移值,形成真实值运动图。
    • 这一过程结合了数据集的原始注释信息,生成了运动建模的监督信号。
    • 类别处理:
      • 对 Visdrone 数据集,仅选择5个主要类别进行评估,以匹配官方评估工具的限制。

      方法


      本文提出了一种针对无人机多目标跟踪场景的新方法 MM-Tracker,旨在通过高效的全局运动建模和优化运动模糊目标的检测能力,实现更高精度和速度的目标跟踪。方法主要包括两个创新模块:
      • Motion Mamba 模块:实现高效的局部和全局运动特征建模。
      • Motion Margin Loss (MMLoss):通过动态分类边界调整,提升运动模糊目标的检测能力。

      整体结构
      • 特征提取:

        • 使用 YOLOX 的主干网络提取多尺度的检测特征(1/8、1/16 和 1/32 分辨率)。

        • 检测特征用于目标检测和运动建模两个任务。

      • 运动建模:

        • Motion Mamba 模块接收多尺度检测特征,提取局部和全局运动特征。

        • 输出一个分辨率为 1/8 的运动特征图,用于预测目标在下一帧的位置。

      • 检测优化:

        • 在目标检测过程中,分类分支引入 Motion Margin Loss (MMLoss),对大幅度运动的目标设置更大的分类边界,提高运动模糊目标的检测置信度。

      • 目标跟踪:

        • 使用运动特征图预测目标在下一帧的位置。

        • 结合检测结果进行空间匹配,生成完整的目标轨迹。

      1. Motion Mamba 模块:

      Motion Mamba 模块的核心目标是高效建模局部和全局运动信息,具体设计包括:
      • 多尺度特征提取:从 1/8、1/16 和 1/32 分辨率的检测特征中提取运动信息。
      • 局部运动建模:通过交叉相关(Cross-Correlation)提取前后帧中目标的局部运动特征。
      • 全局运动建模:采用双向扫描机制(Mamba 模块),分别在垂直方向和水平方向对特征图进行扫描,捕获全局运动信息。
      • 逐级融合:从低分辨率逐级融合运动特征,生成 1/8 分辨率的运动特征图,用于目标位置预测。
      • 高效设计:通过复用检测特征,避免冗余计算,实现轻量级运动建模。

      2. Motion Margin Loss (MMLoss)

      解决运动模糊目标检测困难等问题
        
      • 动态分类边界:根据目标的运动幅度动态调整分类边界,对大幅运动目标设置更高的决策要求。

      • 优化检测性能:强制模型对运动幅度大的目标输出更高的检测置信度,从而提高检测准确性。

      • 训练难点平衡:通过针对少量运动模糊目标增加训练权重,弥补它们在数据集中训练次数不足的问题。

      3. 目标跟踪流程

      • 运动预测:对每个检测目标,利用运动特征图预测其在下一帧的位置。

      • 空间匹配:将预测位置与下一帧中的检测结果进行空间匹配,生成目标的轨迹。

      • 高效关联:通过 Motion Mamba 模块实现快速的运动信息推理,比传统方法显著降低计算复杂度。

      精度

      本文方法在两个公开数据集上均取得了最优的跟踪精度和一致性指标,显著优于当前主流方法。特别是在处理复杂运动和运动模糊目标时,展示出卓越的鲁棒性和检测能力。
      精度对比

      可视化对比

      更多图表分析可见原文


      公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
      我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:方向群说明

      公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

      往期推荐

      NeurIPS24 | 多无人机协作精确预测车辆等目标移动轨迹, Drones Help Drones

      2024-10-15

      论文赏读 | CVPR24 | 多模态无人机数据目标检测,自适应特征对齐和融合

      2024-06-14


        欢迎关注  


      分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



      欢迎加入遥感与深度学习交流群(点此加入)

      遥感与深度学习
      聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
       最新文章