哈尔滨工业大学提出MR-GDINO: 杜绝遗忘的高效的开放世界物体检测

文摘   2024-12-24 07:00   中国香港  

摘要

开放世界(OW)识别和检测模型展示了强大的零样本和少样本适应能力,这激发了将其作为持续学习方法初始化的应用,以提升性能。尽管在已见类别上取得了有希望的结果,但这些开放世界能力在未见类别上的表现大幅下降,主要由于灾难性遗忘。为了解决这一挑战,我们提出了一个开放世界持续物体检测任务,要求检测器在持续学习场景中,能够同时处理旧类别、新类别和未见类别的检测任务。

基于这一任务,我们提出了一个具有挑战性且实用的开放世界持续物体检测基准(OW-COD),用于评估检测能力。目标是促使开放世界检测器能够在少样本适应的情况下,同时保留已学类别、适应新类别并保持开放世界能力。为了缓解未见类别的遗忘问题,我们提出了MR-GDINO,这是一个通过内存和检索机制,在一个高度可扩展的内存池中运行的强大、高效且可扩展的基准模型。

实验结果表明,现有的持续检测器在已见和未见类别上都存在严重的遗忘问题。相比之下,MR-GDINO通过仅激活0.1%的额外参数,显著减轻了遗忘问题,并在旧类别、新类别和未见类别上都达到了最先进的性能。

代码地址:https://m1saka.moe/owcod/

 欢迎加入自动驾驶实战群


1. 引言

开放世界(OW)识别和检测模型在有效识别和定位广义物体方面取得了显著进展,并且具有不同的粒度。通过在大量语义丰富的数据上进行学习,即使没有来自未见类别的边界框监督,开放世界模型(例如物体检测网络)也能在开放世界场景中良好地进行零样本学习(如图1(a)中的零样本Grounding DINO)。得益于检测器高度通用的特征表示,这些检测器还可以通过多次或少次微调适应新类别,从而在目标类别上表现更好。

通过不断重复微调过程,可以将更新的开放世界检测器视为持续学习范式。与传统的开放世界学习或持续学习相比,这一公式具有更直观和更实用的优势。首先,预训练的开放世界(OW)检测器提供了一个强大的初始表示,支持零样本学习和快速适应。其次,开放世界检测器被设计成能够应对各种分布外的场景,但仍然会受到领域转移和之前未见类别的影响,导致性能下降。那些具有快速适应能力的模型可以有效解决这个问题,增强在真实世界部署条件下的性能。因此,我们预期,开放世界检测器将在保持开放世界学习的优势的同时,在已知类别和新类别上展示强大的泛化能力。

如图1(b)所示,先前关于开放世界检测器在持续学习中的研究,使得特征表示严格适应目标类别的领域,从而打破了原本对齐良好的视觉-语言表示。尽管在已见类别上取得了比零样本开放世界检测器更好的性能,传统的开放世界检测器持续学习框架仍然会受到灾难性遗忘的影响,尤其是在已见类别上。更重要的是,在对已见类别进行持续适应后,获得的检测器在未见类别的检测能力也会退化。这一限制制约了开放世界检测器在现实场景中的应用。为了解决这一挑战,我们的研究追求两个目标,包括:

  1. 评估开放世界检测器在各种学习框架中的灾难性遗忘现象;
  2. 为开放世界检测器开发专门的持续学习策略,以便在已见和未见类别上提供更好的检测能力。

3. 开放世界持续物体检测

3.1 任务定义

我们提出的任务目标是激励开放世界检测器同时保持已学类别的知识,适应新类别,并保持开放世界能力,这对于开放世界检测器在不断变化的新环境中适应并保持泛化能力至关重要。

3.2 基准构建

在定义任务之后,我们提出了相应的 OW-COD 数据集,作为持续学习和对旧类别、新类别及未见类别进行通用评估的数据源。通常,OW-COD 是从现有的物体检测数据集中收集的,并大致分为两组:已见类别数据和未见类别数据。对于已见类别数据,我们利用来自 ODinW-13的13个子集(从“Aerial”到“Vehicle”),并通过子集的字典顺序将其分配为 ( {D_1, \dots, D_T} )。这些子集之间的标签空间通常是非重叠的,符合我们任务的要求。在每个训练步骤 ( t ) 中,只有来自 ( D_t ) 的图像是可见的。值得注意的是,为了模拟实际的快速适应场景并增加基准的挑战性,OW-COD 采用了少样本训练设置。这个设置要求持续的开放世界检测器有效缓解过拟合和灾难性遗忘的影响,从而在旧类别、新类别和未见类别上实现强大的检测能力。

对于未见类别数据,为了更好地与实际部署场景对齐,使用了 LVIS的 minival 子集,该子集包含大约 5000 张验证图像和1203个类别,用于经验评估未见类别的检测性能。该子集仅用于评估。利用数据集的大规模和高度多样化的标签空间,有助于在持续适应下对未见类别的抗遗忘能力进行实证分析。MR-GDINO 训练和评估数据的统计信息见附录。

3.3 OW-COD的评估指标

平均精度(AP)
沿袭持续物体检测和开放世界物体检测的研究,报告了每个子集的平均精度(mAP),以定量评估在持续学习范式下学习到的开放世界(OW)检测器的性能。具体而言,提供每个子集的平均精度(AP)来评估经过少样本持续适应后的开放世界检测器的检测性能。此外,还报告了针对已学习类别、已见新类别和未见类别的平均AP,以总结整体性能。

平均排名
OW-COD 还引入了平均排名作为辅助指标,用于衡量现有持续开放世界检测器的相对性能。具体来说,OW-COD 首先在每个子集内对所有模型进行排名。对于已见类别的 ( K ) 个子集,令 ( R_{ij} ) 表示第 ( i ) 个子集在第 ( j ) 个检测器中的排名。该排名的优点在于,只有当检测器在已见类别和未见类别上都表现良好时,才能获得较高的排名,从而突出了检测器在缓解旧类别和新类别的灾难性遗忘方面的能力。

3.4 与现有方法的关系

与COD的比较
COD 通常通过将整个数据集(例如 COCO )的注释进行拆分,将标签集分成不同的组,这种方式在实践中不太可行,因为新类别往往出现在未见过的场景中,而已见图像通常在注释时是完全标注的MR-GDINO 避免了这种不规则的场景。此外,随着开放世界模型在持续学习中的广泛应用 [55, 59],OW-COD 强调了对于未见类别的抗遗忘能力。

与OWOD的比较
OWOD 可以看作是我们任务的零-shot特例。相比之下,OW-COD 同时强调了对旧类别、新类别和未见类别的抗遗忘能力,这在很大程度上需要开放世界检测器的泛化能力。

与Deng等人方法的比较
Deng等人 [8] 在开放世界持续学习方面进行了初步研究。然而,他们的方法有两个主要缺点。首先,任务增量评估在实际应用中不切实际,过于简化了开放世界(OW)检测器的持续挑战。其次,他们使用 COCO [32] 进行开放世界评估的限制性较大,因为COCO只包含80个常见类别,这些类别在持续学习步骤中经常重复出现,从而降低了任务的复杂性。


4. 提出的方法

4.1 MR-GDINO概述
为了实现OW-COD任务,我们的核心思路是首先利用参数高效的模块在每个步骤中构建“记忆”,然后自适应地检索最优记忆以获得强大的性能。因此,我们提出了MR-GDINO,一个基于OW-COD基准构建的强大基线。MR-GDINO 利用一个冻结的开放世界物体检测器,并结合显式的视觉-语言交互模块 例如,Grounding DINO [34]),并引入了用于检测的记忆和检索机制。MR-GDINO的训练和测试流程如图2所示。。

4.2 概念与交互记忆机制
受到少样本学习和持续学习中参数高效微调技术的启发,MR-GDINO 利用参数高效模块作为记忆单元(即概念记忆和视觉-语言(VL)交互记忆),在相应的学习步骤中为持续添加的类别构建最优记忆。

4.3 记忆检索机制
这两种记忆能够有效地整合每个步骤的知识。然而,这些记忆仍然面临着在未见和特定已学场景中的灾难性遗忘问题。为了缓解这个问题,一个直观的思路是显式地记住所有以前学到的记忆,并在推理过程中自适应地检索最匹配的模块。这种方法也与人类记忆相似[1, 6]。因此,我们提出了检索机制。具体来说,MR-GDINO 引入了一个记忆池 ( B ) 来存储所有以前学到的记忆。在第 ( t ) 步,给定 ( n ) 张训练图像,MR-GDINO 首先通过实例裁剪增强图像,并为 ( C_t ) 中的每个类别 ( k ) 获得总共 ( N ) 张图像。然后,MR-GDINO 使用 ( f(\cdot; \theta_I) ) 计算

4.4 MR-GDINO的训练

在训练过程中,预训练的开放世界(OW)检测器的参数被冻结,以保持稳定的特征表示 [9, 2],而仅优化概念记忆和视觉-语言(VL)交互记忆。具体而言,为了保持冻结的 ( f_T ) 模型一致的文本嵌入分布以保证稳定训练,记忆训练分为两个阶段。第一阶段,MR-GDINO 冻结 VL 交互记忆并优化概念记忆,以适应新类别。第二阶段,更新后的概念记忆被冻结,交互记忆被优化以细化视觉-语言关系。值得注意的是,如第5.4节所讨论的,两种记忆类型的联合训练也可以实现类似的性能。

训练目标
MR-GDINO 不使用专门为持续学习设计的额外损失函数。对于边界框回归,MR-GDINO 在每个训练步骤中最小化 L1 损失和 GIoU 损失 [43]。对于物体分类,使用焦点损失(focal loss)[33] 来增强识别性能。

4.5 与现有方法的关系与优点
如表1所示,MR-GDINO 在三个方面表现出色。

  • 灵活性
    :MR-GDINO 通过激活参数选择实现灵活的记忆检索,超越了 CoOp 和 CL-DETR。
  • 可扩展性
    :MR-GDINO 通过可扩展的记忆池超越了 L2P [55],该记忆池可以保持并整合知识。
  • 效率
    :MR-GDINO 利用参数高效的微调方法,超越了传统的全量微调方法 [4, 35, 64]。

这些优势确保了 MR-GDINO 在旧类别、新类别和未见类别上的强大表现。

5. 实验

我们将MR-GDINO与零-shot GDINO [34]、CoOp [66]、L2P [55]、Adapter [20] 和 ZiRa [8] 进行对比。所有方法都旨在进行持续或快速适应。

5.1 实现细节

我们采用Swin-T Grounding DINO作为预训练的开放世界(OW)检测器,适用于MR-GDINO和其他对比方法。在OW-COD上的持续训练中,我们根据子集的递增字典顺序优化OW检测器,并在没有任何测试时间增强的情况下评估训练好的检测器在旧类别、新类别和未见类别上的表现。对于MR-GDINO,我们默认设定提示长度为10,LoRA [21]瓶颈维度为8。我们使用AdamW [38]与余弦学习率调度器 来优化MR-GDINO,权重衰减为1e-2,每个GPU的批量大小为1。初始学习率候选值为{1e-1, 4e-2, 1e-2, 1e-3, 1e-4},训练周期范围为{1∼10}。我们进行网格搜索, 来为每个步骤寻找最优超参数。τ默认设定为0.89。基线方法采用其默认的超参数进行构建和优化。由于原始GDINO实现中缺少LVIS评估工具包,我们实现了相应的工具包以公正地评估所有方法在旧类别、新类别和未见类别上的表现。

5.2 与最先进方法的对比

表2展示了MR-GDINO与所有对比方法在不同shot数下的持续适应对比结果。在所有对比方法中,只有ZiRa 在10-shot持续适应后,APseen比ZS GDINO高出3.1,而其他方法未能超过GDINO。在未见类别上,只有基于Adapter [20] 的持续OW检测器取得了相对较低但可比的mAP,其他所有方法都遭遇了显著的灾难性遗忘。这些结果强烈支持我们的观点,并突出了OW-COD的重要性。相比之下,MR-GDINO在10-shot训练下达到了51.9的APseen和20.7的APunseen。而且即使在1-shot持续学习设置下,MR-GDINO仍然能实现46.7的seen mAP,并且未见类别的mAP仅下降0.1,且在这两个指标上都大大超越了所有其他方法。这些有希望的结果证明了MR-GDINO在提升旧类别和新类别的检测性能的同时,保持了对未见类别的鲁棒检测能力。我们还调查了每个训练步骤中的遗忘率,结果列在补充材料中。此外,尽管ZiRa和Adapter分别在seen类别和unseen类别上展现了改善的抗遗忘能力,它们的平均排名仍然受到seen类别和unseen类别之间不平衡表现的影响。相比之下,MR-GDINO在排行榜中以1.3的Ravg排名位居第一,突出显示了其在旧类别、新类别和未见类别上的平衡且卓越的表现。

定性结果
此外,我们展示了ZS GDINO 、ZiRa 和 MR-GDINO 之间的定性结果,如图4所示。值得注意的是,MR-GDINO为旧类别和新类别生成了高置信度且准确的边界框。此外,MR-GDINO在为未见类别生成准确边界框方面超越了ZiRa。这些结果进一步验证了MR-GDINO的有效性。更多的定性结果见补充材料。

5.3 MR-GDINO可以缓解遗忘类别

基于在seen和unseen类别中表现出的良好抗遗忘能力,可以利用MR-GDINO来缓解“遗忘”类别的问题。具体来说,我们在COCO [32] 数据集上完全微调了GDINO [34],并在表3中展示了相应的评估结果。尽管在COCO上的检测性能提高到了57.3 mAP,但在13个子集中的6个子集上检测性能下降,可以认为这些子集包含了遗忘的未见类别。通过将MR-GDINO应用到GDINO(COCO-ft)上,以上子集的检测性能有所提升,达到了54.5的APseen。同时,由于COCO [32] 和 LVIS [17] 在图像领域有较大重叠,GDINO(COCO-ft)上的APunseen也因完全微调而提升至23.6。与GDINO(COCO-ft)相比,采用MR-GDINO的版本保持了相同的APunseen。上述结果进一步验证了MR-GDINO在缓解遗忘方面的有效性。

5.4 实证分析

5.4.1 各个组件的消融研究

我们首先进行了每个组件的消融研究,使用10-shot持续学习。表4展示了每个方法的评估结果。在采用θcon后,APold和APunseen分别大幅下降至32.2和17.0,但APnew大幅上升至62.1。类似地,当进一步将θinc加入MR-GDINO时,相应的APnew增加到63.1。上述优化的记忆为每个子集提供了强大且稳健的学习参数,并将有助于检索机制。采用检索机制后,APold和APunseen显著增加至51.3和20.7,这表明该机制可以有效地检索到最佳的θcon和θinc,从而实现更好的检测能力。如果输入图像来自未见类别,MR-GDINO仍然能够执行正确的操作,并使用ZS GDINO进行推理。这些发现验证了记忆和检索机制在OW-COD中的有效性,并揭示了朝着更好的持续OW检测器发展的潜在方向。

5.4.2 θinc插入层数的影响

接下来,我们调查了θinc插入层数的影响,相关结果见表5。通过将θinc插入更多的层,APold从44.4逐渐提高到51.3,同时保持相同的APunseen。这些结果表明,将θinc插入更多的VL交互层可以带来更好的性能,同时仅增加少量的参数。

5.4.3 解耦训练或联合训练

我们还研究了MR-GDINO是否支持在每个训练步骤中对θcon和θinc进行联合训练。使用从解耦训练中确定的最优训练超参数,我们同时优化θcon和θinc。结果如表6所示,联合训练实现了相同的59.7 APnew和APunseen,APold略有提高。这些发现表明,一旦确定了最优超参数,联合优化可以将训练时间减少一半,从而提高效率。

5.4.4 与Oracle检索的性能差距

最后,我们分析了检索机制,以评估MR-GDINO与oracle对比的性能差距。对于oracle检索,我们使用真实标签分配θoptcon和θoptinc,并报告了表7中的检测结果。与oracle相比,MR-GDINO在APold和APnew上分别下降了0.5和0.1,而在APunseen上表现相似。这些结果确认了MR-GDINO检索机制的有效性。然而,探索更精确的检索机制仍然是未来大规模实际应用中值得关注的方向。进一步的分析请参见补充材料。

总结

我们的贡献如下:

  • 我们提出了OW-COD,一个具有挑战性且实用的基准,用于评估开放世界检测器在少样本持续适应下对已见和未见类别的检测能力。
  • 我们提出了MR-GDINO,一个强大、高效且可扩展的开放世界持续检测器,通过内存和检索机制,利用高度可扩展的内存池。
  • 通过仅激活0.1%的额外参数,MR-GDINO有效提升了在少样本适应下持续学习的已见类别的检测能力,同时确保了开放世界检测能力,不会发生遗忘。


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。



Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章