综述+数据 | ISPRS | 卫星视频单目标跟踪: 综述及首个定向目标跟踪基准!

文摘   科技   2024-08-22 00:04   荷兰  


 RS   DL 

论文介绍

题目:Satellite video single object tracking: A systematic review and an oriented object tracking benchmark

期刊:ISPRS Journal of Photogrammetry and Remote Sensing

论文:https://www.sciencedirect.com/science/article/pii/S0924271624000856

数据:https://github.com/YZCU/OOTB

年份:2024

作者单位:武汉大学,中南大学
注:本篇经由论文原作者审阅

创新点

  • 定向目标跟踪基准(OOTB):本文提出了第一个用于卫星视频定向目标跟踪的基准数据集,填补了缺乏良好标注数据集的空白。OOTB包含29,890帧来自110段视频序列的图像,所有这些帧都被高质量的定向边界框(OBB)标注。


  • 精度评估方法:作者为卫星视频数据提出了一种新的评估方法,旨在精确比较不同的跟踪器,特别是在OBB的背景下。传统的基准和评估指标通常不足以应对卫星视频所带来的独特挑战。


  • 全面的跟踪器基准测试:研究对33种最先进的跟踪器进行了基准测试,覆盖了58个模型,涵盖了广泛的特征、骨干网络和跟踪器标签。


  • 未来研究展望:文章提供了一些关于未来卫星视频跟踪研究的见解和建议,指出需要更强大的方法来应对卫星数据所带来的挑战,如小目标、背景复杂和方向变化等问题。


挑战与数据集局限性

视频卫星和数据介绍

面对的挑战

  • 图1:显示了卫星影像中,由于仅包含红、绿、蓝三个波段,导致目标的光谱特征有限。


  • 图2:展示了由于移动目标通常很小,仅占据少量像素,导致的有限空间特征(如背景和纹理),从而难以准确估计目标状态。


  • 图3:说明了小目标在复杂背景下容易受到异常干扰,如类似外观、部分遮挡、运动模糊和背景杂乱。


通用视频追踪方法回顾

单目标跟踪方法根据其范式分为生成式和判别式两类。生成式方法通过构建目标模型来寻找与目标相似的区域,而判别式方法通过训练前景和背景来提高跟踪的鲁棒性。

  • 判别相关滤波器(DCF):DCF在过去十年中表现出色,文章详细回顾了它在目标表示、尺度估计和处理边界效应方面的发展。

  • 孪生神经网络(SNN):SNN是近年来最成功的跟踪方法之一,文章回顾了其在目标表示、尺度估计和训练数据平衡方面的进展。

  • Transformer:本文讨论了Transformer在跟踪领域的最新进展,尤其是在结合CNN和Transformer架构的混合模型中的应用。

  • 其他方法:文章还回顾了RNN、GAN以及传统CNN架构在单目标跟踪中的应用。

卫星视频追踪方法回顾

1. 跟踪器的原型

  • 继承通用视频跟踪框架:许多卫星视频跟踪器基于通用视频跟踪中的主流框架,如判别相关滤波器(DCF)、孪生神经网络(SNN)、卷积神经网络(CNN)和递归神经网络(RNN)。这些框架的优势在于它们在处理通用视频中的目标跟踪任务时已经表现出色。

  • 基于KCF的跟踪器:如KCF_TFD(2018年),HKCF(2019年)和VCF(2019年)等跟踪器基于KCF(Kernelized Correlation Filters)框架,利用其高效的计算特性,在保持较高速度的同时,尝试在卫星视频中实现有效跟踪。

  • 基于SNN的跟踪器:如PASiam(2019年)、VAASN(2021年)和ThickSiam(2023年)等跟踪器继承了SiamFC的架构,SNN的主要优势在于它能够通过训练大量样本对(template-candidate pairs)来学习目标的表示,从而在卫星视频中实现鲁棒跟踪。


2. 利用的特征

  • 空间特征与时间特征:跟踪器所利用的特征可分为两类:空间特征和时间特征。

  • 空间特征:主要用于表示目标的外观信息,包括手工设计的特征(如HOG、颜色名称、Gabor滤波器、局部二值模式LBP)以及深度外观特征(DA)。深度外观特征在层次结构中包含低层的高空间分辨率信息和高层的语义信息,后者对目标变化具有不变性。

  • 时间特征:用于提取帧间动态信息,技术包括多帧差分(MFD)、背景减法(BS)、光流(OF)、深度运动特征(DM)和物理运动特征(PM)。例如,KCF_TFD结合了KCF和三帧差分以跟踪卫星视频中的目标,而深度光流(深度运动特征的一种)在CRAM(2020年)和SRN-TFM(2022年)等跟踪器中表现出色。


3. 全遮挡的识别与处理

遮挡(FO)在卫星视频中很常见,处理全遮挡需要解决以下三个子问题:

  • 遮挡感知:跟踪器需要能够感知到目标遮挡的发生。

  • 遮挡处理:跟踪器应在全遮挡发生时仍然能够维持对目标的跟踪。

  • 遮挡结束感知:跟踪器需要能够识别出遮挡的结束,并重新定位目标。


遮挡识别方法:现有跟踪器通常通过比较指标与阈值来解决第一个和第三个子问题。常用的指标包括平均峰值相关能量(APCE)、峰值(PV)、跟踪状态监控指示器(TCMI)等,这些指标用于分析跟踪置信度,从而识别全遮挡的发生。

遮挡处理方法:当目标被遮挡时,大多数跟踪器通过分析历史运动信息来预测当前帧中的目标状态,使用的技术包括卡尔曼滤波器(KF)、运动平滑(MS)和运动轨迹拟合(TFM)等。此外,一些跟踪器还采用全卷积网络(FCN)和深度强化学习(DRL)等深度学习方法来分析历史运动信息并预测目标状态。

4. 旋转估计

旋转问题的挑战:卫星视频中的目标旋转是常见现象,会导致跟踪精度的下降。为了解决这一问题,现有跟踪器通常分为两类:

  • 水平边界框(HBB)输出的跟踪器:这些跟踪器在面对目标旋转时,常通过引入旋转不变特征来表示目标,从而应对由旋转引发的尺度变化。

  • 定向边界框(OBB)输出的跟踪器:这些跟踪器通过列出一系列具有特定角度池的旋转补丁来实现与模板的更好匹配,从而检测相邻帧之间的角度变化。例如,RACF(2021年)采用这种策略,并提出了一种方法,即使在输出HBB时也能估计尺度变化。


5. 数据源与跟踪对象

  • 数据源:当前的视频卫星仍处于开发阶段,数量有限。文章总结了几个主要的视频卫星平台,如SkySat、Jilin-1、ISS和Carbonite-2,并提供了它们的详细配置和参数。Jilin-1卫星因其高质量的数据,成为大多数跟踪器的数据来源。

  • 跟踪对象:卫星视频中的常见跟踪对象包括汽车、船只、飞机和火车。由于火车具有较大的长宽比,跟踪难度更大,因此需要更多关注。

6. 评估基准

  • VOT与OTB评估:文章指出,大多数现有的卫星视频跟踪器都使用了Object Tracking Benchmark (OTB)的单次评估(OPE),而很少采用Visual Object Tracking Challenge (VOT)的基准。这主要是因为VOT的重置机制可能不适用于较短的卫星视频跟踪任务,尤其是在频繁发生遮挡、密集目标和背景杂乱的情况下。与之相比,OTB的单次评估避免了重置机制,更适合卫星视频的特点。


  • 评估基准的不足:虽然OTB评估适用于卫星视频,但它不能准确评估OBB的结果,且精度评分容易受到不同目标的影响。

数据集回顾

  • 通用视频跟踪数据集:文章回顾了多个广泛使用的通用视频跟踪数据集,包括OTB50、OTB100、LaSOT和TrackingNet等,这些数据集涵盖了多种目标类型和场景,并标注了丰富的挑战属性,如尺度变化、遮挡和背景杂乱等,广泛用于评估跟踪算法的性能。

  • 特定应用视频跟踪数据集:文章讨论了专门为特定应用设计的视频跟踪数据集,如无人机视频跟踪的UAV123数据集和针对长宽比大、易混淆目标的TOTB数据集,这些数据集针对特定场景进行了优化,能够更好地评估跟踪器在这些特定任务中的表现。

  • 卫星视频跟踪数据集:作者指出现有的卫星视频数据集在标注质量和覆盖范围上存在不足,特别是缺乏定向边界框(OBB)标注。为此,文章提出了一个新的卫星视频数据集——定向目标跟踪基准(OOTB),以更好地支持和评估卫星视频中的单目标跟踪任务。

OOTB数据集

1. 数据集的组成

  • 视频序列数量:OOTB数据集包含110段视频序列。

  • 总帧数:数据集中共有29,890帧图像。

  • 目标类别:数据集覆盖了卫星视频中常见的目标类别,包括汽车、船只、飞机和火车。



2. 数据标注

  • 定向边界框(OBB):与传统的水平边界框(HBB)不同,OOTB中的每一帧都手动标注了定向边界框(OBB),这些边界框可以更精确地表示目标在卫星视频中的位置和方向。定向边界框在处理具有显著方向变化的目标时,能提供比水平边界框更高的精度。
  • 视频选择与处理:数据集的制作过程首先从卫星视频中选取代表性的序列,这些视频包括常见的目标类型,如汽车、船只、飞机和火车。随后对这些视频进行处理,提取出高质量的帧序列。
  • 手动标注:所有的视频帧都是手动标注的,专家根据视频中的目标在每一帧中的位置和方向,为其绘制出定向边界框。整个标注过程需要极高的精度和一致性,确保每个目标的边界框准确反映其在图像中的实际位置。
  • 数据验证与优化:在初步标注完成后,标注数据会经过多轮验证和调整,确保每个OBB的精度和一致性。同时,制作团队对视频序列进行了细致的审查,以排除可能影响跟踪性能的错误标注或不一致之处。
  • 细粒度属性标签:每个视频序列都根据12个细粒度属性进行了标注。
    • DEF (Deformation): 表示目标的非刚性变形。

    • IPR (In-Plane Rotation): 表示目标在图像平面内的旋转。

    • PO (Partial Occlusion): 表示目标在卫星视频中部分被遮挡。

    • FO (Full Occlusion): 表示目标在卫星视频中完全被遮挡。

    • IV (Illumination Variation): 表示目标周围的照明发生了显著变化。

    • MB (Motion Blur): 由于目标或卫星平台的运动,导致目标区域出现模糊。

    • BC (Background Clutters): 表示目标附近的背景与目标具有相似的纹理或颜色,容易混淆。

    • OON (Out-of-Normal): 表示视频中目标的边界框的长宽比超出了[0.3, 3]的范围。

    • SA (Similar Appearance): 表示目标附近存在具有相似外观的物体。

    • LT (Less Textures): 表示目标的纹理信息较少,难以区分。

    • IM (Isotropic Motion): 表示目标附近有与目标在运动幅度和方向上相似的物体。

    • AM (Anisotropic Motion): 表示目标附近有运动幅度相似但方向相反的物体。


3. 数据统计

长宽比:

数据属性:

4. 数据可视化

场景多样性:

评估

评估方法

这种评估方法也是本文的创新之一

  • Precision Plot(精度图): 测量中心位置误差(CLE)低于预设阈值(1到30像素)的帧数百分比,特别关注5像素阈值。

  • Normalized Precision Plot(归一化精度图): 通过对CLE进行归一化处理,评估不同目标尺寸下的跟踪精度。

  • Success Plot(成功率图): 基于交并比(IoU)计算成功帧的比例,并通过曲线下面积(AUC)对跟踪器进行排名。

  • FPS Metric(FPS指标): 评估每秒帧数(FPS),以考虑跟踪器的实时性能。

作者做了大量的实验,受篇幅限制这里只展示一部分,更多结果请查看原文。
Top 30 trackers 总体精度

九个最先进的trackers 在六个不同序列中的结果



欢迎关注CVPR 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言


相关链接:


论文赏读 | TPAMI | 卫星视频数据中移动目标检测,高效无监督框架HiEUM
论文赏读 | CVPR24 | 弱监督学习用于旋转框遥感目标检测
论文赏读 |CVPR24 |单点直接生成旋转框用于遥感目标检测, PointOBB模型
论文赏读 |CVPR24 |Point2RBox, 点直接生成旋转框, 代码已集成至mmrotate
论文赏读 | TPAMI | 匹配航拍图像和地面图像用来估计摄像头的姿态, 基于卷积神经网络


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章