“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
摘要
本文介绍了一种名为DEIM的创新且高效的训练框架,旨在加速基于Transformer架构(如DETR)在实时目标检测中的收敛速度。为了缓解DETR模型中一对一(O2O)匹配所固有的稀疏监督问题,DEIM采用了密集的一对一(Dense O2O)匹配策略。该方法通过引入额外的目标,并使用标准的数据增强技术,增加了每张图像中的正样本数量。尽管密集O2O匹配加快了收敛速度,但它同时也引入了许多低质量的匹配,可能影响性能。为了解决这个问题,我们提出了匹配感知损失(Matchability-Aware Loss, MAL),这是一种新颖的损失函数,它优化了不同质量级别的匹配,增强了密集O2O的有效性。
大量的实验在COCO数据集上验证了DEIM的有效性。当与RT-DETR和D-FINE结合时,它不仅持续提升了性能,还使训练时间减少了50%。值得注意的是,与RT-DETRv2配对时,DEIM仅需在NVIDIA 4090 GPU上训练一天就能达到53.2%的平均精度(AP)。此外,经过DEIM训练的实时模型超越了领先的实时目标检测器,其中DEIM-D-FINE-L和DEIM-D-FINE-X分别在NVIDIA T4 GPU上以124帧/秒(FPS)和78帧/秒的速度实现了54.7%和56.5%的AP,而无需额外的数据。我们认为DEIM为实时目标检测的进步设定了新的基准。
我们的代码和预训练模型可以在https://github.com/ShihuaHuang95/DEIM获取。
1 介绍
目标检测是计算机视觉中的一个基本任务,广泛应用于诸如自动驾驶、机器人导航等领域。随着对高效检测器需求的增长,实时检测方法的发展也得到了推动。特别是YOLO作为实时目标检测的主要范式之一脱颖而出,因为它在延迟和准确性之间提供了引人注目的权衡。YOLO模型被广泛认可为基于卷积神经网络的一阶段检测器。一对一多(O2M)分配策略在YOLO系列中广泛应用,其中每个目标框与多个锚点相关联。这种策略被认为是有效的,因为它提供了密集的监督信号,加速了收敛并提升了性能。然而,它为每个对象产生了多个重叠的边界框,需要手工设计的非极大值抑制(Non-Maximum Suppression, NMS)来消除冗余,这引入了延迟和不稳定性。
基于Transformer的目标检测(DETR)范式的出现[3]吸引了大量关注,利用多头注意力捕捉全局上下文,从而增强了定位和分类能力。DETRs采用了一对一(O2O)匹配策略,该策略在训练期间使用匈牙利算法建立预测框与真实对象之间的唯一对应关系,消除了对NMS的需求。这个端到端框架为实时目标检测提供了一个有吸引力的替代方案。
然而,收敛速度慢仍然是DETRs的主要限制之一,我们假设原因有两个方面。第一,稀疏监督:O2O匹配机制只为每个目标分配一个正样本,极大地限制了正样本的数量。相比之下,O2M生成的正样本数量要多几倍。这种正样本的稀缺性限制了密集监督,阻碍了有效模型学习——特别是对于小物体,密集监督对于性能至关重要。第二,低质量匹配:与依赖密集锚点的传统方法(通常>8000)不同,DETR使用少量(100或300)随机初始化的查询。这些查询缺乏与目标的空间对齐,导致训练中产生许多低质量匹配,即匹配框与目标的IoU较低但置信度分数较高。
为了应对DETR中监督的稀缺性,最近的研究通过将O2M分配融入O2O训练中放松了O2O匹配的约束,从而为目标引入辅助正样本以增加监督。Group DETR通过使用具有独立O2O匹配的多个查询组实现了这一点,而Co-DETR则结合了来自Faster R-CNN和FCOS等目标检测器的O2M方法。虽然这些方法成功地增加了正样本的数量,但也需要额外的解码器,增加了计算开销,并有可能像传统检测器一样产生冗余的高质量预测。相比之下,我们提出了一种新颖且简单的密集一对一(Dense O2O)匹配方法。我们的核心思想是在每张训练图像中增加目标的数量,从而在训练过程中生成更多的正样本。值得注意的是,这可以通过使用马赛克和mixup等经典技术轻松实现,这些技术在保留一对一匹配框架的同时为每张图像生成额外的正样本。密集O2O匹配可以提供与O2M方法相当的监督水平,而不需要O2M方法通常伴随的复杂性和开销。
尽管尝试通过先验改进查询初始化,使得查询在物体周围分布更有效。这些改进的初始化方法通常依赖于从编码器提取的有限特征信息,往往将查询聚集在少数显著物体周围。相比之下,大多数不显眼的物体缺乏附近的查询,导致低质量匹配。当使用密集O2O时,这个问题变得更加突出。随着目标数量的增加,显著和非显著目标之间的差异增大,导致尽管匹配数量总体增加,但低质量匹配的比例上升。在这种情况下,如果损失函数在处理这些低质量匹配方面存在局限性,这种差异将持续存在,阻碍模型实现更好的性能。
现有的DETR损失函数,如变焦损失(Varifocal Loss, VFL),是为密集锚点设计的,其中低质量匹配的数量相对较少。它们主要惩罚高质量匹配,尤其是高IoU但低置信度的匹配,并丢弃低质量匹配。为了处理低质量匹配并进一步改善密集O2O,我们提出了匹配感知损失(Matchability-Aware Loss, MAL)。MAL根据匹配可能性调整惩罚,通过结合匹配查询与目标之间的IoU与分类置信度。MAL对于高质量匹配的表现类似于VFL,但对于低质量匹配则更加重视,提高了训练期间有限正样本的利用率。此外,MAL提供了比VFL更简单的数学公式。
所提出的DEIM将密集O2O与MAL相结合,创建了一个有效的训练框架。我们在COCO数据集上进行了广泛的实验,以评估DEIM的有效性。图1(a)的结果显示,DEIM显著加速了RT-DETRv2和D-FINE的收敛,并取得了更好的性能。具体来说,在仅一半的训练轮次下,我们的方法分别超过RT-DETRv2和D-FINE 0.2和0.6个AP。此外,我们的方法能够在单个4090 GPU上训练ResNet50为基础的DETR模型,在一天内(大约24个轮次)达到53.2%的mAP。通过结合更高效的模型,我们还引入了一系列新的实时检测器,超越了现有模型,包括最新的YOLOv11,为实时目标检测设定了新的最先进(SoTA)水平(图1(b))。
本工作的主要贡献总结如下:
我们引入了DEIM,这是一种简单且灵活的实时目标检测训练框架。 DEIM通过改进匹配的数量和质量,分别通过密集O2O和MAL加速了收敛。 使用我们的方法,现有的实时DETRs在性能上有所提升,同时将训练成本减半。特别是,当与D-FINE中的高效模型配对后,我们的方法超过了YOLOs,并在实时目标检测中建立了新的SoTA。
2 相关工作
基于Transformer的目标检测(DETR)标志着从传统卷积神经网络(CNN)架构向Transformer的转变。通过使用匈牙利算法计算的一对一匹配损失,DETR消除了对手工设计的非极大值抑制(NMS)作为后处理的需求,并实现了端到端的目标检测。然而,它面临着收敛速度慢和计算密集的问题。
增加正样本
一对一匹配将每个目标限制为一个正样本,提供的监督远少于一对多(O2M),这阻碍了优化。一些研究探索了在O2O框架内增加监督的方法。例如,Group DETR引入了“组”的概念来近似实现O2M。它使用K组查询(K > 1),并在每组内部独立执行O2O匹配,使得每个目标可以分配到K个正样本。为了防止组间的通信,每组需要一个独立的解码器层,最终导致有K个并行的解码器。H-DETR中的混合匹配方案与Group DETR类似工作。
Co-DETR发现,一对多分配方法有助于模型学习更独特的特征信息,因此提出了一个协作混合分配方案,通过辅助头进行一对多标签分配,如Faster R-CNN和FCOS,以增强编码器表示。现有方法旨在增加每个目标的正样本数量以提高监督。相比之下,我们的Dense O2O探索了另一个方向——通过增加每张训练图像中的目标数量来有效提升监督。不同于现有的方法,这些方法需要额外的解码器或头,从而增加了训练资源消耗,我们的方法是无需额外计算的。
优化低质量匹配
稀疏且随机初始化的查询缺乏与目标的空间对齐,导致大量低质量匹配,阻碍了模型的收敛。一些方法引入了先验知识到查询初始化中,比如锚点查询、DAB-DETR、DN-DETR和密集独特查询。最近,受两阶段范式的启发,像DINO和RT-DETR这样的方法利用编码器的密集输出中排名靠前的预测来精炼解码器查询。这些策略使查询初始化更加接近目标区域。然而,低质量匹配仍然是一个重大挑战。在RT-DETR中,变焦损失(Varifocal Loss, VFL)被用来减少分类置信度和框质量之间的不确定性,增强了实时性能。然而,VFL主要针对传统检测器,其中低质量匹配较少,并专注于高IoU优化,对于低IoU匹配由于其最小和平坦的损失值而未得到充分优化。
在此基础上,我们引入了匹配感知损失(Matchability-Aware Loss, MAL)以更好地优化不同质量级别的匹配,显著提高了Dense O2O匹配的有效性。
减少计算成本
标准的注意力机制涉及密集计算。为了提高效率并促进多尺度特征的交互,开发了几种先进的注意力机制,如可变形注意力、多尺度可变形注意力、动态注意力和级联窗口注意力。此外,最近的研究集中在创建更高效的编码器上。例如,Lite DETR引入了一种在高级和低级特征之间交错更新的编码器块,而RT-DETR在其编码器中结合了CNN和自注意力。这两种设计显著减少了资源消耗,尤其是RT-DETR。RT-DETR是DETR框架内的首个实时目标检测模型。基于这种混合编码器,D-FINE进一步优化了RT-DETR,通过添加模块并迭代更新概率分布而非预测固定坐标来改进回归过程。这种方法使D-FINE能够在延迟和性能之间取得更有利的权衡,略微超过了最新的YOLO模型。
利用这些实时DETRs的进展,我们的方法以较低的训练成本实现了令人印象深刻的性能,在实时目标检测方面大幅超越了YOLO模型。
3 方法
3.1 预备知识
O2M 对比 O2O 一对多(One-to-Many, O2M)分配策略在传统目标检测器中被广泛采用,其监督可以表述为:
Focal Loss
Focal Loss (FL) 被引入以防止大量的简单负样本在训练过程中压倒检测器,而是将注意力集中在少量困难样本上。它作为基于 DETR 的检测器中默认的分类损失,并定义如下:
3.2 提高匹配效率:密集一对一(Dense O2O)
在基于DETR的模型中,通常使用的一对一(O2O)匹配方案将每个目标仅与一个预测查询相匹配。该方法通过匈牙利算法实现,允许端到端训练,并消除了对非极大值抑制(NMS)的需求。然而,O2O的一个关键限制是相比于传统的多对一(O2M)方法,如SimOTA,它生成的正样本显著较少。这导致了监督稀疏,可能会减缓训练期间的收敛速度。
为了更好地理解这个问题,我们在MS COCO数据集上用ResNet50骨干训练了RTDETRv2。我们比较了由匈牙利(O2O)和SimOTA(O2M)策略生成的正匹配数量。如图3a所示,O2O在每张图像少于10个正匹配的情况下产生了尖峰,而O2M则生成了一个更宽泛的分布,拥有更多的正匹配,有时对于单个图像可以超过80个正样本。图3b进一步强调,在极端情况下,SimOTA生成的匹配数大约是O2O的十倍。这表明O2O具有较少的正匹配,可能会减慢优化过程。
3.3 提高匹配质量:可匹配性感知损失(Matchability-Aware Loss)
VFL的局限性。基于Focal Loss (FL) 构建的VariFocal Loss (VFL) 已被证明可以改善目标检测性能,特别是在DETR模型中。VFL损失表达式为:
其中q表示预测边界框与其目标框之间的IoU。对于前景样本( q > 0 ),目标标签被设置为q,而背景样本( q = 0 )的目标标签为0。VFL通过结合IoU来提升DETR中查询的质量。
然而,当优化低质量匹配时,VFL有两个关键局限性:
i). 低质量匹配。VFL主要关注高质量匹配(高IoU)。对于低质量匹配(低IoU),损失保持较小,阻止了模型对低质量边界框的预测进行细化。对于低质量匹配(例如,图2d中的低IoU),损失仍然很小(在图2e中标记为星号(*))。
ii) 负样本。VFL将没有重叠的匹配视为负样本,这减少了正样本的数量,并限制了有效的训练。
为了克服这些局限性,我们提出了可匹配性感知损失(Matchability-Aware Loss)。该损失函数旨在更有效地处理低质量匹配和负样本的问题,以提高模型的匹配质量和整体性能。通过引入可匹配性感知机制,可以使模型更好地学习到不同质量匹配样本之间的区别,从而增强其对低质量匹配的改进能力,并适当增加有效训练的样本数量。
这些问题对于传统检测器来说影响较小,因为它们依赖密集的锚点和多重分配策略。然而,在DETR框架中,查询是稀疏的且匹配更加严格,这些局限性变得更加明显。
可匹配性感知损失(Matchability-Aware Loss, MAL)。为了解决上述问题,我们提出了可匹配性感知损失(MAL),它在继承VFL优点的同时减轻了其不足。MAL将匹配质量直接融入到损失函数中,使其对低质量匹配更加敏感。MAL的公式为:
与VFL的比较。我们在处理低质量和高质量匹配方面比较了MAL和VFL。对于低质量匹配(IoU = 0.05,见图4a),随着预测置信度的增长,MAL显示出比VFL更急剧的损失增加,而VFL则几乎保持不变。而对于高质量匹配(IoU = 0.95,见图4b),MAL和VFL表现相似,这证实了MAL提高了训练效率,同时并没有影响到高质量匹配上的性能。
通过上述对比可以看出,MAL在不牺牲高质量匹配性能的前提下,改善了低质量匹配的学习效果,从而使得模型在训练过程中能够更加有效地学习不同质量级别的匹配。这种改进对于如DETR这样的框架尤为重要,因为它可以帮助缓解由于查询稀疏性和匹配刚性所带来的局限性。
4 实验
4.1 训练细节
对于Dense O2O,我们应用了马赛克增强和mixup增强来为每张图像生成额外的正样本。我们在MS-COCO数据集上使用AdamW优化器来训练我们的模型。如同RT-DETR和 D-FINE中的做法,我们也采用了标准的数据增强方法,如颜色抖动和缩放。
我们使用了一个平坦余弦学习率调度器,并提出了一种新的数据增强调度器。在最初的几个训练轮次(通常为四个)中,我们采用数据增强预热策略以简化注意力机制的学习。在训练轮次的50%之后禁用Dense O2O可以得到更好的结果。遵循RT-DETRv2的做法,我们在最后两个轮次中关闭数据增强。我们的学习率LR和数据增强DataAug调度器具体展示在图5中。我们的骨干网络是在ImageNet1k上预训练的。我们在640 × 640分辨率的MS-COCO验证集上评估我们的模型。关于超参数的更多详细信息可以在补充材料中找到。
4.2 与实时检测器的比较
我们将我们的方法集成到了D-FINE-L和 D-FINE-X 中,构建了DEIM-D-FINE-L和DEIM-D-FINE-X。然后,我们评估这些模型,并将其实时目标检测性能与最先进模型进行基准测试,包括YOLOv8、YOLOv9、YOLOv10、YOLOv。表1根据训练轮次、参数数量、GFLOPs(每秒十亿浮点运算)、延迟和检测准确度对这些模型进行了比较。补充材料中还包含了较小模型变体(S和M)的额外比较。
我们的方法在训练成本、推理延迟和检测准确度方面超越了当前的最先进模型,为实时目标检测设定了新的基准。值得注意的是,D-FINE是一项非常近期的工作,它通过引入蒸馏和边界框精化来提升RT-DETRv2的性能,确立了其作为领先实时检测器的地位。我们的DEIM进一步提升了D-FINE的性能,在不增加推理延迟的情况下实现了0.7 AP的增益,并将训练成本降低了30%。最大的改进是在小目标检测上,当使用我们的方法训练时,D-FINE-X作为DEIM-D-FINE-X实现了1.5 AP的增益。
与直接对比的YOLOv11-X相比,我们的方法超过了这一最先进YOLO模型的性能,达到了略高的性能(54.7 vs. 54.1 AP),并将推理时间减少了20%(8.07 ms vs. 10.74 ms)。尽管YOLOv10采用了混合O2M和O2O分配策略,但我们的模型始终优于YOLOv10,这证明了我们密集O2O策略的有效性。
尽管与其他基于DETR的模型相比,在小目标检测方面有显著的改进,但我们的方法在小目标AP上相较于YOLO模型略有下降。例如,YOLOv9-E在小目标检测上的表现比D-FINE-L高出约1.4 AP,尽管我们的模型实现了更高的整体AP(56.5 vs. 55.6)。这一差距突显了在DETR架构内小目标检测所面临的持续挑战,并指出了可能进一步改进的领域。
4.3 与基于ResNet的DETRs的比较
大多数DETR研究使用ResNet作为主干网络,为了能够对现有的DETR变体进行全面比较,我们也将我们的方法应用于RT-DETRv2,这是一种最先进的DETR变体。结果总结在表2中。不同于原始的DETR,后者需要500个epoch才能有效训练,最近的DETR变体,包括我们的方法,减少了训练时间同时提高了模型性能。我们的方法展示了最显著的改进,在仅仅36个epoch后就超过了所有变体。具体来说,DEIM将训练时间减少了一半,并且分别在带有ResNet-50和ResNet-101主干网络的RT-DETRv2上增加了0.5和0.9的AP。此外,它在使用ResNet-50主干网络时比DINO-Deformable-DETR高出2.7 AP。
DEIM还大大增强了小目标检测的能力。例如,在实现了与RT-DETRv2相当的整体AP的同时,我们的DEIM-RT-DETRv2-R50在小目标上的表现超越了RT-DETRv2达1.3 AP。这种改进在使用更大的ResNet-101主干网络时更为明显,其中我们的DEIM-RT-DETRv2-R101在小目标上的表现超越了RT-DETRv2-R101达2.1 AP。将训练扩展到72个epoch进一步提升了整体性能,特别是在使用ResNet-50主干网络时,这表明较小的模型从额外的训练中获益更多。
4.4 CrowdHuman 数据集上的比较
CrowdHuman是一个旨在评估目标检测器在密集人群场景中表现的基准数据集。我们按照官方仓库1提供的配置,将D-FINE和我们提出的方法应用到了CrowdHuman数据集上。如表3所示,我们的方法(增强版D-FINE-L,结合了DEIM)相较于D-FINE-L实现了显著的1.5 AP提升。特别是,我们的方法在小目标(APs)和高质量检测(AP75)方面提供了显著的性能提升(超过3%的改进),这表明它在具有挑战性的场景中能够更准确地检测目标。此外,这个实验强调了我们的方法在不同数据集上强大的泛化能力,进一步证实了其稳健性。
4.5. 分析
在接下来的研究中,除非另有说明,我们默认使用RT-DETRv2与ResNet50的组合进行实验,并报告其在MS-COCO val2017上的性能。
实现密集一对一(Dense O2O)的方法。我们探索了两种实现密集一对一的方法:马赛克(mosaic)和mixup。马赛克是一种数据增强技术,它将四张图像合并成一张;而mixup则是以随机比例叠加两张图像。这两种方法都能有效增加每张图像中的目标数量,在训练期间增强了监督信号。
如表4所示,与不使用目标增强的训练相比,马赛克和mixup在经过12个epoch后都带来了显著的改进,这突显了密集一对一的有效性。此外,结合使用马赛克和mixup可以加速模型收敛,进一步强调了增强监督的好处。我们还跟踪了一次训练epoch中每张图像的正样本数量,结果如图6所示。相比于传统的O2O匹配,密集一对一显著增加了每张图像的正样本数量。
总体而言,通过增加每张图像的目标数量,密集一对一加强了监督力度,从而加快了模型收敛速度。马赛克和mixup是简单且计算效率高的技术,能够实现这一目标,它们的效果表明在训练过程中探索其他增加目标数量的方法具有进一步的潜力。
γ在MAL(公式4)中的影响 表5的结果显示了不同γ值对经过24个epoch后的MAL的影响。根据这些实验,我们经验性地将γ设置为1.5,因为它能带来最佳性能。
密集一对一和MAL的有效性 表6展示了两个核心组件——密集一对一和MAL的有效性。密集一对一显著加速了模型收敛,在仅仅36个epoch内就达到了与基线相似的性能,而原始模型则需要72个epoch。当与MAL结合时,我们的方法进一步提高了性能。这种改进主要得益于更好的边界框质量,符合我们优化低质量匹配以改善高质量边界框预测的目标。总体而言,密集一对一和MAL在RT-DETRv2和DFINE上均一致地带来了性能提升,证明了它们的稳健性和泛化能力。
5 结论
在本文中,我们提出了DEIM,这是一种通过改进匹配来加速基于DETR的实时目标检测器收敛的方法。DEIM整合了密集一对一(Dense O2O)匹配,该方法增加了每张图像中的正样本数量,以及MAL,一种旨在优化不同质量匹配并特别增强低质量匹配的新颖损失函数。这种组合显著提高了训练效率,使DEIM能够在比YOLOv11等模型更少的epoch内实现优越的性能。与RT-DETR和D-FINE等最先进(SoTA)的DETR模型相比,DEIM展示了明显的优点,在不牺牲推理延迟的情况下,显示出了可测量的检测准确性和训练速度的提升。这些特性确立了DEIM作为实时应用的高度有效解决方案的地位,并具有进一步精炼和应用于其他高性能检测任务的潜力。
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!