论文赏读 | TPAMI | 卫星视频数据中移动目标检测,高效无监督框架HiEUM

文摘   科技   2024-07-13 00:23   荷兰  

 RS   DL 

论文介绍

题目:Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

论文:https://ieeexplore.ieee.org/document/10549838

年份:2024

作者单位:国防科技大学,芬兰奥卢大学

创新点

  • 无监督框架: 文章提出了一个用于卫星视频移动目标检测的无监督框架,该框架利用由传统方法生成的伪标签,这些标签在训练过程中不断进化。


  • 稀疏卷积网络: 作者提出了一种稀疏卷积无锚检测网络,该网络将密集多帧图像转换为稀疏时空点云表示,显著减少了背景区域的冗余计算。


  • 高效率: 所提出的方法能够在1024×1024图像上处理每秒98.8帧的速度,这在计算效率方面是一个显著的改进。


注:卫星视频移动目标检测, Moving object detection insatellite videos (SVMOD)

数据

数据来源

  • 卫星: 数据集来源于吉林一号卫星。

  • 分辨率: 地面采样距离(GSD)为0.92米

  • 帧率: 数据的帧率为每秒10帧。


数据标注

  • 原始标注: 最初发布的数据集中,移动目标(如车辆)的标注数量较少,尤其是对一些较暗和较小的目标,标注不全。

    • 这里原始数据集指的是:VISO数据集(Video Object Segmentation in Orbit)

  • 重新标注: 为了公平比较不同方法,研究人员对测试集进行了重新标注,增加了较暗和较小目标的标注。重新标注后,测试集中的实例数量显著增加,从原来的93,491个增加到155,987个。



数据集结构

  • 视频序列: 每个视频序列包含连续的帧,用于捕捉移动目标在时间上的变化。


  • 目标标注: 目标是用边界框(bounding box)形式标注的,表示每一帧中移动目标的位置和大小。


  • 场景多样性: 数据集包含多种场景,不同的视频中可能包含不同数量和种类的移动目标。


方法

总体框架

本文提出了一种高效无监督的卫星视频移动目标检测框架(HiEUM),包括两个核心部分:标签自进化无监督框架和稀疏卷积无锚检测网络。

  • 标签自进化框架: 通过不断迭代更新伪标签,提高了无监督方法的检测性能。

  • 稀疏卷积网络: 通过稀疏点云表示和稀疏卷积,显著减少了背景区域的冗余计算,提高了检测效率和精度。

  • 长时空信息建模: 能够处理更多帧,从而更好地捕捉长时空信息,有助于检测微小和暗弱的移动目标。

1. 标签自进化无监督框架


核心思想:使用传统方法生成初始伪标签,并在训练过程中不断更新这些伪标签,以提高检测性能。
步骤
  • 初始标签生成:


    • 使用传统的背景重建方法生成初始伪标签。具体实现是通过时间中值滤波器快速获取背景,然后通过帧差分生成初始伪标签。

    • 对现有文献中的方法进行了改进。


    • 过滤伪标签:


      • 使用SORT(Simple Online and Realtime Tracking)算法获取目标轨迹,并利用轨迹长度和速度约束过滤掉伪标签中的误报。


      • 迭代更新标签:


        • 每训练10个epoch后,使用训练好的网络在训练集上进行推理,生成新的伪标签。

        • 再次使用SORT算法过滤新的伪标签中的误报。

        • 将初始伪标签和新生成的伪标签结合,作为新的训练集,进行下一轮训练。

        • 通过这种迭代更新,伪标签质量不断提高,从而提升检测性能。


        2. 稀疏卷积无锚检测网络

        核心思想利用卫星视频中移动目标的稀疏性,将原始密集多帧图像转换为稀疏的时空点云表示,以减少背景区域的冗余计算。
        主要组件
        • 稀疏采样模块:

          • 背景估计: 通过时间中值滤波器估计背景。

          • 帧差分: 通过帧差分生成残差图像,进一步减少背景区域。

          • 自适应阈值分割: 使用自适应阈值分割出候选目标区域,计算残差图像的平均值(μ)和标准差(σ),通过公式 th=μ+k*σ 确定阈值(k是预定义的参数)

          • 生成稀疏点云: 提取前景区域并重塑为稀疏时空3D点云。


          • 稀疏卷积骨干网络:

            • U-Net结构: 使用稀疏卷积的U-Net结构作为骨干网络,以从稀疏时空点云中提取特征。

            • 灵活性: 该骨干网络可以替换为任何能够处理点云的网络,展示了方法的灵活性。


            • 稀疏检测头:

              • 无锚设计: 设计了稀疏无锚检测头,预测目标的中心、大小和偏移。检测头由三个平行的稀疏卷积分支组成,分别预测对象中心、大小和偏移。

              • 多帧检测: 与传统的多帧到单帧检测方法不同,本文方法采用多帧到多帧检测模式,进一步提高了效率。

              结果和精度

              文章通过全面的实验和消融研究,验证了所提出的高效无监督框架在卫星视频移动目标检测中的优越性,既提高了检测精度,又显著减少了计算开销。

              精度对比

              精度值对比(定量对比)

              可视化对比(定性对比)

              消融实验

              为了进一步验证所提出方法的有效性,文章开展了多个消融实验,分析了不同组件(如帧差分、网络深度等)对性能的影响。


              欢迎关注CVPR 2024系列



              因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



              关于AI回复功能:


              公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



              问题及讨论可直接在文章下方留言


              相关链接:


              数据论文 | TPAMI | 卫星视频数据提取车辆信息,整合GTA游戏视频,用于微小目标检测、车辆计数和交通密度估计

              论文赏读 | 结合YOLOv9和Mamba的遥感小目标检测

              论文赏读 | CVPR24 | 用于遥感目标检测的backbone网络PKINet

              论文赏读 | CVPR24 | 多模态无人机数据目标检测,自适应特征对齐和融合

              最新综述 | YOLOv1-v10系列十年回顾和综述,含各版本面对的挑战和未来方向


                欢迎关注  


              分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



              欢迎加入遥感与深度学习交流群(点此加入)


              遥感与深度学习
              聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
               最新文章