点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
摘要
由于目标特征极其暗淡和微小,卫星视频中的运动物体检测 (SVMOD) 是一项具有挑战性的任务。当前基于学习的方法从具有劳动密集型手动标签的多帧密集表示中提取时空信息来处理 SVMOD,这需要高注释成本,并且由于前景和背景区域之间的严重不平衡而包含巨大的计算冗余。在本文中,我们提出了一种高效的 SVMOD 无监督框架。具体而言,我们为 SVMOD 提出了一个通用的无监督框架,其中传统方法生成的伪标签可以随着训练过程而演变以提升检测性能。此外,我们通过将密集的多帧图像形式采样为稀疏的时空点云表示并跳过背景区域的冗余计算,提出了一种高效且有效的稀疏卷积无锚检测网络。应对这两种设计,我们可以同时实现高效率(标签和计算效率)和有效性。大量实验表明,我们的方法不仅可以在 1024 × 1024 图像上以每秒 98.8 帧的速度处理,而且还能达到最先进的性能。
论文链接:https://ieeexplore.ieee.org/abstract/document/10549838
论文标题:Highly Efficient and Unsupervised Framework for Moving Object Detection in Satellite Videos
论文作者:Chao Xiao, Wei An, Yifan Zhang, Zhuo Su, Miao Li, Weidong Sheng, Matti Pietikainen, Li Liu
1.关键字
高效、无监督、运动物体检测、卫星视频。
2.引言
随着卫星视频技术在过去十年的进步,能够以高时间分辨率连续观测地球的视频卫星已成为地球观测的重要工具。因此,越来越多的视频卫星和卫星星座将被发射。卫星视频比以前更容易访问,从而提供了更多的研究机会和应用。因此,卫星视频智能解译已成为迫切的需求,也是遥感领域的新前沿[1]。卫星视频中的运动物体检测(SVMOD)旨在定位感兴趣的物体,是卫星视频解译的一项基本任务,具有多种应用,包括军事监视、交通规划和公共安全[2、3、4]。最近,卫星视频中的 MOD 受到越来越多的关注。尽管它具有重要意义,但由于实际应用中至少存在以下挑战,快速准确的 SVMOD 很难实现。
(1)实时性要求。由于卫星视频数量巨大,具有时间冗余性,空间尺寸大,且用于时间关键型应用,因此实时 SVMOD 方法非常重要。而在卫星视频中,背景具有时间冗余性,前景高度稀疏,动态信息至关重要,如何充分利用这些特点来提高 SVMOD 的效率至关重要。
(2) 高质量要求。卫星视频 1 中的运动物体通常很小、很暗(前景和背景之间的局部对比度较低),形状和纹理信息很少,并且对噪声敏感。这些内在特性增加了学习高质量(准确且稳健)对象表示的难度。因此,如何开发针对 SVMOD 平衡召回率和准确率的有效且具体的框架也很重要。
(3)标注成本高。正是由于上述移动物体和卫星视频的特点,手动标记这些物体需要反复检查以确认移动物体,这很容易导致标签嘈杂且成本高昂。很难获得大量准确标注的训练数据。因此,如何为 SVMOD 开发高效的标签解决方案对于实际应用具有重要意义。
现有的方法主要可以分为两大类:基于经典模型的方法 [2、3、5、6、7、8、9、10、11、12] 和基于现代学习的方法 [4、13、14、15]。在前一类中,差分方法 [2、9] 和稳健 PCA 方法 [3、5、6、10、11、12、16、17] 在过去十年中得到了广泛的研究。然而,这类方法主要依靠运动信息来检测运动物体,而运动信息很容易受到平台不均匀运动和光照变化引起的动态杂波的影响,导致性能不佳。
最近,深度学习为 SVMOD [4, 13, 15] 带来了可喜的进展。然而,与计算机视觉领域中广泛研究的通用物体检测问题 [18, 19] 不同,针对 SVMOD 问题的深度学习仍未得到充分探索,只有少数研究成果。代表性方法侧重于探索时空信息以检测运动物体 [13, 14, 15]。例如,Xiao 等人 [13] 探索静态语义信息和动态运动线索来解决 SVMOD,它利用计算密集型的 3D 卷积来提取时空信息。Pi 等人 [15] 利用成对差分图像之间的加权元素乘法来抑制动态杂波。虽然这些方法实现了更高的性能,但由于它们是基于多帧的,因此计算成本高昂。此外,深度学习 [4] 需要大量标记数据进行训练,而这些数据很难获得,如前所述。因此,鉴于我们之前的详细分析,这项工作的重点是开发一种高效(计算和标签高效)且有效的 SVMOD 方法。
为此,在这项工作中,我们深入研究了 SVMOD 问题的固有特性(例如上述挑战),并提出了一种简单、新颖但高效且无监督的 SVMOD 框架,称为高效无监督移动物体(车辆)检测(HiEUM)。我们提出的 HiEUM 框架基于两个核心设计。首先,我们开发了一个标签自进化无监督训练框架,以降低注释成本并研究无监督 SVMOD 的可能性。具体来说,我们利用传统方法生成初始伪标签,并通过在训练期间推断所提出的模型来更新这些粗标签。其次,我们通过将稀疏采样粗目标区域公式化为时空点云,设计了一个高效的稀疏卷积无锚检测网络,这是由运动物体的极其稀疏的特性、运动物体的时间动态信息以及卫星视频中背景的高冗余度所驱动的。将这两种新颖的设计结合起来,使我们能够为 SVMOD 建立一个高效且有效的框架。
我们的实验(如图 1 所示)表明,我们显著加快了推理速度(与 SOTA DSFNet [13] 相比,速度提高了近 28.7 倍,与 PAMI [6] 中发表的传统 B-MCMD 相比,速度提高了 4490 倍),并且准确率也显著提高。我们相信,我们提出的 HiEUM 为 SVMOD 树立了新的 SOTA 榜样,并开辟了一个有希望的方向。
我们对这项工作的贡献总结如下。
我们引入了一个标签自进化无监督框架,其中伪标签可以随着训练过程而进化,这与现有的基于学习的 SVMOD 检测方法很好地兼容。 我们为 SVMOD提出了一个稀疏卷积无锚检测网络,它利用移动目标的稀疏性来跳过背景区域的冗余计算。与现有方法不同,我们的方法是首次尝试通过稀疏时空点云表示来处理 SVMOD。 为了验证卫星视频中小型和昏暗移动目标的检测性能,我们提出了一个新的 SVMOD 数据集,其中包含来自 VISO 数据集的重新标记的昏暗和小型移动车辆。我们还在新标记的数据集下提供了使用各种方法的新基准。
3.方法
在本节中,我们首先说明我们的标签自进化无监督框架,然后详细介绍稀疏卷积无锚运动物体检测网络。
3.1 标签自进化无监督框架
由于尺寸小且与背景对比度低,卫星视频中的移动车辆很难与重杂波区分开来,从而增加了注释的复杂性。为了减轻 SVMOD 注释大规模数据集的负担,我们提出了一个标签进化无监督框架,该框架利用传统方法初始化标签,并在训练期间更新标签以提高检测性能。所提出的无监督框架如图 2 (a) 所示。
所提出的框架首先使用传统方法生成伪标签。在这里,我们利用[4]中的方法,用简单的时间中值滤波器替换背景重构网络,以快速获取背景。值得注意的是,所提出的框架非常灵活,可以使用任何传统检测方法应用。然而,由于传统方法的检测性能有限,初始伪标签包含一些误报并遗漏了一些暗淡的目标,从而限制了基于学习的方法的检测性能。
因此,我们采用两种策略来提高伪标签的质量。一方面,为了减轻误报的影响,我们利用SORT [33]获取运动物体的轨迹,并利用轨迹长度和速度约束来滤除误报。另一方面,为了恢复错过的暗淡目标,我们在训练过程中迭代更新初始标签。具体而言,当网络每训练10个epoch时,我们使用训练好的网络在训练集上进行推断以生成新的伪标签。为了减少这些新伪标签中的误报,我们还应用SORT [33]来滤除误报。为了防止网络在自生成的标签上过拟合,我们保留初始伪标签,并添加训练网络生成的新标签作为新的训练集。通过不断迭代,可以提高标签质量,从而提高基于学习的方法的检测性能。
总之,所提出的框架是通用且灵活的,其中传统和基于学习的方法可以被任意经过适当设计的方法取代。此外,本文证明了移动物体的时空一致性先验(即目标轨迹的一致性)可以帮助基于学习的方法在没有任何手动注释的情况下实现良好的性能。
3.2 稀疏卷积无锚运动物体检测网络
由于前景和背景区域之间的极度不平衡,基于学习的方法的大多数计算资源都被分配给了无信息的背景区域,这带来了巨大的冗余计算负担,阻碍了长期时空信息的提取。
受卫星视频中运动目标稀疏性的启发,我们提出了一种稀疏卷积无锚运动物体检测网络,以利用稀疏先验来实现有效和高效的 SVMOD。如图 2 (b) 所示,我们提出的网络由三部分组成,即稀疏采样模块、稀疏主干和稀疏检测头。
(1)稀疏采样模块:由于尺寸极小,卫星视频中的移动车辆仅占整个图像的一小部分,可以认为本质上是稀疏的[3,6,7,34]。图3示出了测试集的平均目标比例,表明目标是稀疏的,背景区域占据了整个图像的主导地位。
为了减少卫星视频中的冗余背景区域,我们设计了一个稀疏采样模块,利用帧差分来减去背景区域。该过程如图 4 所示。我们首先使用时间中值滤波器估计背景。然后,通过从原始图像序列中减去估计的背景来生成残差图像。这样,背景可以显著减少。然而,背景区域中仍然存在许多小的残差。为了进一步减轻背景区域的影响,我们利用自适应阈值来分割候选目标区域。
我们利用参数为 的自适应阈值来产生适当的阈值,可以通过以下方式获得
其中 和 分别表示残差图像的平均值和标准差。 是控制最大阈值的预定义值。
需要注意的是,阈值对检测性能有很大的影响。当阈值太小时,更多的点会被分配到候选目标区域,这会增加计算成本。相反,当阈值太大时,并非所有的目标点都能被正确挑选出来,这会损害检测性能。因此,应谨慎选择阈值以平衡准确性和效率。
经过自适应阈值分割后,我们可以从多幅图像中提取粗前景区域。虽然大部分背景被去除,但常规的基于学习的方法仍然平等地处理所有位置,这会导致大量的冗余计算。为了减少冗余计算,我们提取有效的前景像素并将其重塑为稀疏的时空三维点云。
(2) 主干:为了应对稀疏数据结构并跳过背景区域,我们基于稀疏卷积构建了检测网络(如图 5 所示),稀疏卷积在点云处理中被广泛使用。由于卫星视频中移动车辆的尺寸非常小,下采样操作可能会导致小移动目标的信息丢失。为了解决这个问题并保留小移动目标的特征,采用由稀疏卷积组成的 U-net 结构网络 [35] 作为主干,从稀疏时空点云中提取特征。请注意,主干可以用任何其他可以处理点云的网络替代,这表明我们提出的检测网络具有灵活性。此外,与原始密集图像表示和传统的基于 3D 卷积的方法 [13] 相比,我们提出的方法可以显著降低计算要求,这对于处理来自大规模遥感图像的海量数据具有巨大的潜力。
(3)稀疏头:与基于锚点的方法(在我们的案例中会产生大量的锚点框)不同,我们设计了一个稀疏的无锚点头来预测移动目标的位置。受 CenterNet [24] 的启发,我们设计的头部由三个并行的稀疏卷积分支组成,分别用于预测对象中心、大小和偏移量。为了方便计算损失并解码检测结果,我们将结果从稀疏形式转换为密集表示。请注意,与以前的多对一检测方法(即 DSFNet [13]、ClusterNet [14] 和 VLR-MVD [15])不同,我们提出的方法是基于多对多范例设计的,这可以进一步提高效率。
在训练阶段,我们使用[24]中使用的中心损失、尺寸预测损失和偏移损失来引导网络学习检测运动目标。总体损失公式如下:,其中 和 分别是中心损失、尺寸预测损失和偏移损失。 和 表示惩罚因子。在测试阶段,我们并行解码来自头部的结果以同时获得多帧的运动物体,这可以进一步提高整个检测过程的效率。
(4) 讨论:先前的方法 [13, 15] 直接从原始稠密表示中检测运动目标,其中包含大量冗余计算,从而限制了实时使用和时间域上的长期信息建模。由于背景区域的低秩特性和卫星视频中运动目标的固有稀疏性,可以通过背景减法粗略地去除冗余区域,并过滤残差以构建稀疏的 3D 点云。由于 3D 点云的像素比原始多帧图像少得多,因此可以同时处理更多帧,并且可以在硬件和计算资源上以较低的成本实现长期时空建模。因此,我们的方法有两个显着的优势。
在SVMOD上效率很高。大多数现有方法都是从原始图像生成检测结果,而我们从新的视角(即时空三维点云)处理图像,这可以减少大量的冗余计算,从而大大提高效率。
在 SVMOD 上非常有效。高效率总是以检测性能下降为代价的。然而,我们的方法可以同时实现效率和有效性,这得益于长期的时空建模以及杂波干扰的消除。
然而,一切都是有代价的。虽然可以减少冗余背景区域,但由于背景建模不完善,目标区域也可能被错误地删除,尤其是对于大型移动目标和极暗目标,这些目标在后续步骤中无法恢复。人们可以通过细粒度的背景建模进一步提高检测性能。但请注意,复杂的背景建模可能会带来额外的计算负担。因此,在设计背景建模方法时,我们应该考虑效率和有效性之间的平衡。
4.实验结果与讨论
4.1 数据集描述
在吉林一号卫星的视频上评估了所提方法的检测性能。数据集的地面采样距离(GSD)为0.92米,帧率为每秒10帧。数据集中的移动车辆用边界框标记为地面真实值。
在之前发布的数据集中,大多数暗淡目标都被忽略了,这会导致不同方法之间的不公平比较。为了解决这个问题,我们重新标记了测试集,以包括暗淡和小目标,以便进行公平的比较。通过重新标记,我们发现前一个数据集遗漏了很多暗淡目标。图6显示了前一个和重新标记数据集的目标数量比较。可以观察到,重新标记后,测试集中所有视频的目标数量显著增加。重新标记的测试集包含155987个实例,而前一个测试集仅包含93491个实例。此外,我们重新检查了旧标签并调整了一些质量较差的标签。这个新的重新标记数据集可以作为暗淡和移动车辆检测的新基准。图7展示了重新标记前后几个典型场景的注释。可以观察到,许多暗淡的目标(红色矩形)被重新标记,以评估不同方法的暗淡运动目标检测性能。
4.2 实施细节及评估标准
我们使用 20 个连续帧作为输入。批量大小设置为 6,随机裁剪图像块大小为 256 × 256。我们使用 Adam 优化器 [36] 训练我们的网络 55 个epoch,初始学习率为 1.25-4。在 30 和 45 个epoch后,学习率降低了 10 倍。为了避免训练集过度拟合,我们抽取了 1/5 的训练集进行训练,并抽取了整个测试集进行评估。为了消除初始伪标签中的误报,我们过滤掉了轨迹长度小于 30 个点和平均速度小于每帧 0.55 像素的目标。我们每 10 个epoch迭代更新一次伪标签。所有模型均在两个 Nvidia RTX 2080Ti GPU 上使用 Pytorch 实现。
在本文中,我们遵循[3, 4, 6, 14]使用精度(Pr)、召回率(Re)和F1分数(F1)作为评估指标。所有测试视频的平均精度(avg Pr)、平均召回率(avg Re)和平均F1分数(avg F1)也用于评估。我们遵循[4, 14]使用距离度量来确定检测结果是否为正样本。距离阈值设置为5像素以进行性能评估。
4.3 与最新技术的比较
在本小节中,我们介绍了不同 SVMOD 方法的检测结果和分析。我们将所提出的方法与几种最先进的方法进行了比较,包括 2 种基于帧差分的方法(即 D&T [2] 和 MMB [9])、4 种基于 RPCA 的方法(即 GoDec [16]、DECOLOR [5]、E-LSD [3] 和 B-MCMD [6])、2 种基于监督学习的方法(即 ClusterNet [14] 和 DSFNet [13])和 1 种基于无监督学习的方法(DeepPrior [4])。
(1)定量结果。定量结果如表1所示。可以观察到,我们提出的HiEUM可以实现最佳检测性能,最高平均F1得分为89.7%,优于第二好方法DSFNet的15.3%。我们将其归因于两个原因。一方面,我们迭代更新了训练标签,这些标签可以演变为更高质量的标签并包括未标记的暗淡目标。另一方面,由于内存占用率低和计算负担轻,我们的HiEUM可以处理更多帧以获取长期时空信息,从而提升检测性能。例如,我们的HiEUM可以处理20帧以一次预测输入帧的所有结果,而DSFNet [13])只能处理5帧以获得一帧的结果。
(2) 定性结果。图 8 显示了不同方法的定性结果。可以观察到,我们提出的方法在两个场景中都检测到了所有运动目标,而比较方法或多或少地漏检了目标和误检。请注意,在处理暗淡目标(例如具有许多暗淡目标的视频 6)时,我们的方法的改进更为显著。我们将其归因于长期时空信息建模,这有利于检测卫星视频中的暗淡和小运动目标。此外,我们的方法对场景中的动态杂波(例如具有动态照明变化的视频 1)更具鲁棒性,这也得益于长期时空信息。
(3)时间效率分析。如图1所示,我们的HiEUM可以以每秒98.8帧的速度处理大小为1024×1024的图像,而最快的比较方法只能以每秒5.6帧的速度运行。这是因为我们的方法只处理有效的候选区域并跳过了背景区域的冗余计算。
4.4 消融研究
在本小节中,我们开展不同的消融研究来探究 HiEUM 的设计。
(1)无监督框架的有效性。我们使用 DSFNet [13] 作为基线,分别在手动注释、传统方法生成的标签和我们提出的无监督框架下训练我们的稀疏网络。定量结果如表 2 所示。可以观察到,在相同的手动标签监督下,由于长期时空建模,我们的 HiEUMsup 在平均 F1 得分方面比 DSFNet [13] 好 7.7%。此外,在传统方法生成的标签的监督下,我们的 HiEUM-unsup 在平均 F1 得分方面与 HiEUM-sup 相比性能下降了 8.0%。这是因为传统方法生成的标签不能覆盖场景中的所有物体,从而导致对运动物体的学习不足。值得注意的是,HiEUM-unsup 取得了与 DSFNet [13] 相当的结果,这证明了我们稀疏网络的有效性。通过迭代更新标签,我们的 HiEUM 可以大大提高检测性能,这是由于标签的演变。
(2)帧差分的有效性。由于帧差分的结果可以直接用于通过自适应阈值获得检测结果,我们将稀疏网络与仅使用自适应阈值的方法进行了比较。如表 3 所示,我们的 HiEUM 大大优于自适应阈值(F1 得分 89.7% 对 66.1%),这证明了我们提出的 HiEUM 的有效性。此外,由于某些目标太暗而无法淹没在背景中,我们在自适应阈值之前获得帧差分产生的残差的绝对值,以获得暗淡的目标。绝对值运算的有效性也在表 3 中显示。可以观察到,在进行绝对值运算之后,由于包含了暗淡的目标,我们的 HiEUM 的检测性能得到了很大的提高。
(3)阈值的影响。在我们的HiEUM中,自适应阈值是控制输入帧采样率的关键组件。具体来说,k的值控制输入帧的采样率。因此,我们研究了k值对检测性能的影响。定量结果如表4所示。可以观察到,随着k值的增加,采样点的比例减少,导致FPS的增加。当k从1增加到3时,检测性能显着提高。这是因为当k = 1时,时空点云中会包含太多杂波,这将导致所提方法的性能下降。当k从3增加到15时,检测性能逐渐下降。这是因为,随着k值的增加,一些暗淡的目标将被遗漏,导致性能下降。我们选择k = 3作为阈值以平衡性能和效率。
(4)帧数的影响。我们分析了不同帧数的 HiEUM 的性能。具体来说,我们评估了不同输入帧数(即 10、20、30、40、50、60)下 HiEUM 的性能。定量结果如表 5 所示。可以观察到,当帧数从 10 增加到 20 时,检测性能得到改善。这是因为额外的帧可以提供长期的时空信息,这有利于运动物体检测。值得注意的是,当帧数从 20 增加到 60 时,检测性能趋于下降(平均 F1 分数从 89.7 下降到 88.8)。这是因为由于卫星平台的持续运动,采样策略会将更多的杂波纳入点云中。此外,进一步增加帧数并不能提高性能,反而会因为需要处理更多的杂波而带来额外的计算负担。因此,我们使用 20 帧作为所提网络的输入。
(5)网络深度的影响。我们分析了稀疏 U-net [35] 不同网络深度下 HiEUM 的性能。具体来说,我们评估了不同网络深度(即 2、3、4)下 HiEUM 的性能。定量结果如表 6 所示。可以观察到,当层数从 2 增加到 3 时,检测性能随着深度的增加而提高。这是因为具有更多层的网络具有更强的建模能力,可以实现性能改进。然而,值得注意的是,当层数从 3 增加到 4 时,检测性能趋于下降(平均 F1 分数略有下降)。这是因为在有限的训练数据集上,更多的层往往会过度拟合。因此,我们使用 3 层稀疏 U-net 作为主干。
5.结论
在本文中,我们提出了一种通用的、高效的 SVMOD 无监督框架。在所提出的框架下,我们进一步提出了一种有效且高效的稀疏网络,用于检测时空 3D 点云表示中的移动车辆,由于移动车辆的固有稀疏性,该网络可以以更少的计算负担对长期时空信息进行建模。大量实验证明了我们提出的方法的有效性和卓越的效率。