【速览】NeurIPS 2024 | 长尾目标检测预训练:具有对偶重构的动态重平衡对比学习

学术   2024-11-14 18:08   北京  
  


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~










◆ ◆ ◆ ◆


长尾目标检测预训练:具有对偶重构的动态重平衡对比学习

Chen-Long Duan  ,Yong Li ,Xiu-Shen Wei  ,Lin Zhao  
  南京理工大学,  东南大学计算机科学与工程学院,新一代人工智能技术与交叉应用重点实验室
NeurIPS 2024
撰稿人:段晨龙
通讯作者:魏秀参
推荐理事:林宙辰
原文标题:Long-Tailed Object Detection Pre-training: Dynamic Rebalancing Contrastive Learning with Dual Reconstruction
原文链接:http://www.weixiushen.com/publication/neurips24.pdf


欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!



摘要

在计算机视觉领域,预训练是物体识别和检测等任务的前置关键技术。然而,常用的预训练方法在应对长尾分布时往往表现不佳,特别是在目标检测任务中,这主要源于数据极度不平衡以及模型的简单性偏差问题。针对这一挑战,我们提出了一种创新的目标检测预训练框架,称为“具有对偶重构的动态重平衡对比学习”(Dynamic Rebalancing Contrastive Learning with Dual Reconstruction, 2DRCL)。该方法基于全局-局部对比学习机制,能够同时捕捉全局语义和局部细节,优化预训练与目标检测的匹配。为解决长尾数据中的不平衡问题,我们设计了动态重平衡策略,通过在预训练过程中动态调整欠代表类别的采样,确保长尾类别得到充分表示。同时,对偶重构机制通过像素和语义的多重自监督重构任务,有效缓解了简单性偏差问题,尤其在长尾类别上表现出显著优势。实验结果表明,2DRCL不仅在平衡数据集上表现优异,在长尾数据集上同样取得了显著提升,尤其在尾部类别的检测中展现了较大的提升效果。

背景

随着深度学习技术的快速发展,计算机视觉领域取得了显著进展,尤其是在大规模预训练和微调优化范式方面。大量预训练方法旨在捕捉领域特定或任务相关的概念,从而提升下游任务的性能。在目标检测领域,现有方法通常依赖大规模数据集进行预训练,使得部分模型组件(如骨干网络)能够获得良好的预训练效果。然而,这些预训练范式往往忽略了在预训练过程中,由于长尾分布导致的关键检测组件的随机初始化问题,从而带来了性能上的局限。

传统的监督预训练模式依赖于标注数据的分布,导致模型在长尾场景下表现不佳。虽然自监督学习展示了无需依赖标注数据的潜力,使得模型能够学习更丰富、有效的特征表示,但依然存在显著挑战。其中一个经常被忽视的重要问题是简单性偏差,即深度神经网络倾向于依赖简单的预测模式,而忽略了对于模型泛化至关重要的复杂特征。这一偏差在尾部类别中尤为突出,因为其样本数量稀少,容易被模型忽略。因此,如何在长尾数据中有效捕捉复杂特征,并平衡头部和尾部类别的检测效果,仍然是当前研究中的一个重要挑战。针对这些挑战,本研究不仅旨在开发与目标检测需求高度契合的预训练策略,还确保该策略能够在平衡和长尾数据分布中都取得优异效果。

方法

图 1 2DRCL的整体框架

我们的2DRCL框架由三个主要模块构成:全局-局部对比学习(Holistic-Local Contrastive Learning, HLCL)机制、动态重采样(Dynamic Rebalancing, DRB)策略和对偶重构(Dual Reconstruction, DRC)机制。在2DRCL中,HLCL范式通过协调全局与局部特征的学习,确保预训练过程能够与后续微调阶段紧密对齐。通过融合全局语义信息和局部细节特征,HLCL能够同时捕捉图像中不同尺度的特征,使模型更好地适应目标检测任务的需求。在此基础上,2DRCL引入了DRB策略,该策略在图像和实例(目标框)层面同时强调尾部类别,有效缓解了预训练过程中的数据不平衡问题。通过在不同层次上动态调整尾部类别样本的采样频率,确保这些类别在预训练过程中得到充分关注,从而提升模型在长尾数据场景中的泛化能力。最后,提出了DRC机制,旨在缓解模型的“简单性偏差”问题。通过执行像素和语义的多重自监督重构任务,DRC机制帮助模型捕捉复杂和细微的特征模式,确保在处理长尾目标检测任务时,不仅能够有效识别头部类别,还能在尾部类别上展现出色的表现。

(1)全局-局部对比学习

在2DRCL中,HLCL机制是目标检测模型预训练的核心基础。HLCL框架包含两个关键组成部分:全局对比学习(Holistic Contrastive Learning,HCL)和局部对比学习(Local Contrastive Learning,LCL)。HCL主要聚焦于学习通用的视觉表示,帮助骨干网络有效地捕捉图像中的整体模式和广泛的语义抽象信息。通过这种方式,模型能够学习到更具泛化能力的特征。而为了将物体级别的特征表示引入预训练过程,LCL进一步引导骨干网络和检测头专注于图像中的物体细节。LCL通过预训练目标检测模型的所有组件,确保模型能够更精确地对齐目标检测任务的需求,同时增强捕捉物体级别精细特征的能力。这种结合使得模型在下游检测任务中,不仅能够有效处理全局语义信息,还能更好地识别和定位物体的细节特征。

我们在图1中展示了HCL 机制。对于输入图像  ,我们生成不同视图  和   ,并将它们作为 HCL 中编码器和动量编码器的输入。每个视图均经过随机增强,同一目标提案的尺度和位置在不同视图中有所变化,使模型能在随后的 LCL 部分学习到平移与尺度不变的物体级表示。接着,  和  经过独立的投影器生成全局级表示  和   ,随后进行  归一化。我们使用InfoNCE损失来训练网络,其公式如下:
随后,我们引入了局部对比学习(Local Contrastive Learning,LCL)机制,旨在弥合预训练与目标检测微调阶段之间的差距,如图1所示。LCL机制通过最大化跨增强视图的物体提案相似性,使模型能够学习到多样物体提案的综合表示,从而提升其在目标检测任务中的鲁棒性。具体来说,我们使用一个类别无关的检测器来生成一系列提案  ,作为边界框  。物体级的表示通过目标检测头(例如RoI)来获得,记为。局部级表示的LCL损失可表示为:
最后,HLCL机制的损失函数被定义为:
(2)动态重采样
为了精确控制类别分布并确保尾部类别得到充分表示,我们提出了一种动态重采样方法,兼顾图像和物体实例层面。与传统的重采样策略主要关注类平衡采样不同,我们的方法通过在图像层面和物体提案层面同时进行重采样,更有效地优先考虑尾部类别。鉴于目标检测任务需要识别和定位特定物体,除了图像层面的不平衡外,解决实例层面的不平衡有望实现更加均衡的表示,特别是对尾部类别有显著的帮助。
该重采样方法结合了动态调整机制,使模型在预训练初期学习整个数据集的总体分布,并随着预训练的进行逐渐将重点转向尾部类别。具体而言,对于每个类别c,我们计算其图像层面和实例层面的分数,分别记为  和  。其中,  表示在整个数据集中属于第c类的图像比例,  表示与第c类相关的物体提案比例。这两个分数反映了类别c的不平衡比例,每个类别的综合得分  定义为:
随着预训练的进行,  的值逐渐增大,模型的重点逐步从图像级平衡转向实例级平衡,从而逐渐加大对尾部类别的关注。随后,我们根据分数  定义类别级重复因子  ,其公式为  。该重复因子确保分数较低的类别(通常是尾部类别)在训练过程中被更频繁地采样。通过这种动态重采样策略,数据不平衡问题在图像和实例层面上得到了有效缓解,同时增强了对尾部类别的关注,避免了由于过度重复尾部实例而导致的过拟合风险。
(3)对偶重构
在HLCL和动态重采样机制的基础上,我们的2DRCL框架引入了对偶重构(Dual Reconstruction,DRC)组件,以解决模型的简单性偏差问题。该组件能够让模型同时捕捉复杂和细微的特征模式,这对于提升长尾目标检测的效果至关重要。如图1所示,我们提出的DRC组件包括两个关键部分:外观重构(Appearance Reconstruction,AR)和语义重构(Semantic Reconstruction,SR)。AR组件通过像素级别的重构,促使模型尽可能多地捕捉输入图像中的细微细节。而SR组件则确保原始输入图像与随机遮挡图像的特征在语义上保持一致。这种策略不仅确保了精确的视觉表示,还促进了更深入的语义理解,帮助模型更好地处理长尾目标检测中的尾部类别,尤其是在训练样本有限的情况下,提高模型识别和区分尾部类别的能力。
1.外观重构:为了强化外观一致性,我们采用了一个专门设计的自编码结构,旨在高保真地重构输入图像。编码器  将输入  映射到稠密的特征空间,表示为  。随后,生成器  尝试逆转该映射,生成重构后的图像  。通过像素级图像重构,AR组件促使潜在特征  尽可能捕捉每个输入图像中的细微细节。AR不仅仅是简单地复制输入图像,而是作为一种辅助正则化机制,专注于提炼与目标检测任务相关的区分性视觉特征。通过强制图像重构,AR使模型能够有效捕捉输入数据中显著和细微的细节。AR的损失函数使用像素级均方误差进行定义,其公式为:
2.语义重构:虽然AR确保模型捕捉到细粒度的视觉细节,这对于精确表示和区分不同物体尤其是尾部类别至关重要,但保持重构图像的语义完整性同样重要。语义一致性使模型能够专注于图像的内在含义和上下文,而不仅仅是表面的细节,从而促进对每个输入的更加稳健和广泛的理解。为此,我们引入了SR去解决这一问题。SR的设计目的是在某些部分被修改或遮挡时,仍能保持原始图像的语义内容,使模型学会识别和重构有意义的特征。这种方法确保模型能够深入理解每个输入的结构和上下文,从而增强其泛化能力。具体来说,我们对重构后的图像  中的某个物体提案应用掩码操作,遮挡固定比例的图像,生成一个被遮挡的版本,记为  , 其中  表示图像掩码操作。然后将这个遮挡后的图像重新编码,生成相应的潜在特征  。SR的损失通过评估原始图像特征与遮挡后重构图像特征之间的一致性来计算,跨越网络的多个层次(P代表所考虑的特征层数)进行评估。通过这种方式,SR确保模型在保持语义一致性的同时,学习识别和重构有意义的特征。其损失定义为:
SR组件确保即使在存在视觉扰动的情况下,关键的语义特征仍然得以保留,使模型能够学习到更稳健、具有不变性的特征,而不仅仅是表层的视觉相似性。通过聚焦有意义的语义信息,而非仅限于外观细节,这一方法增强了模型的泛化能力。
综上所述,DRC通过同时利用外观和语义一致性来应对简单性偏差问题,鼓励模型学习到丰富且复杂的特征表示,这对于精确且稳健地检测尾部类别至关重要。AR和SR损失的相互作用提高了模型对基础视觉细节和高层次语义特征的敏感度,从而实现更灵活、更有效的检测范式。这种结合的方法不仅确保模型能够捕捉到详细的视觉信息,还能够把握抽象的语义关系,从而显著提升其在长尾目标检测任务中的整体性能。DRC的总损失最终被定义为:
整体而言,我们的方法通过以下最终损失函数进行优化:
其中,  表示与目标检测任务保持一致的检测损失。为了简化处理,损失函数  中所有部分的权重均设置为1。
实验

(1)平衡数据集目标检测(COCO数据集)

表 1 在COCO上与最先进的预训练方法比较(使用R50-FPN作为骨干网络的Mask R-CNN)

表1展示了在COCO训练集上预训练并在COCO验证集上评估的结果,我们使用Mask RCNN。我们将所有方法分为两类:骨干网络从头开始初始化和使用ImageNet预训练模型进行初始化。从头开始初始化的方法需要200到800个训练轮次以进行充分预训练。相比之下,使用ImageNet预训练进行初始化的方法,如AlignDet和我们提出的2DRCL,仅需12个训练轮次。根据表1中的结果,我们的2DRCL在目标检测任务中表现出色,取得了最高的  和  ,显著优于AlignDet和监督学习基线。
(2)长尾数据集目标检测(LVIS v1.0数据集)
表 2 在LVIS v1.0上与最先进的预训练方法比较(使用R50-FPN作为骨干网络的Mask R-CNN)
在表2中,我们将2DRCL与多种最先进的预训练方法在LVIS v1.0数据集上进行比较。结果清晰展示了现有预训练方法在应对长尾分布时的局限性,特别是在目标检测任务中对尾部类别的表现不佳。传统的预训练方法在尾部类别上的表现始终较差,这表明它们在准确检测长尾类别的目标对象方面存在明显不足。我们的2DRCL专为长尾目标检测预训练设计,通过动态重平衡数据分布和引入对偶重构机制,2DRCL能够有效捕捉头部和尾部类别的物体特征。2DRCL的卓越表现凸显了其在解决长尾目标检测挑战中的有效性,展现了其聚焦尾部类别并缓解数据集内在不平衡问题的强大能力。
表 3 在LVIS v1.0上与最先进的长尾目标检测方法的比较
为了评估我们方法在长尾目标检测中的有效性,我们在LVIS v1.0数据集上将2DRCL与现有的最先进技术进行了比较,覆盖不同的目标检测框架(Faster R-CNN和Mask R-CNN)以及骨干网络(ResNet-50和ResNet-101)。如表3所示,在Faster R-CNN框架中,我们的预训练技术在  和  上超越了所有竞争对手。这一优势在Mask R-CNN框架中也得到了持续验证。我们将这一性能提升,特别是对尾部类别的改善,归因于2DRCL的动态重平衡数据分布和对偶重构机制的引入。2DRCL的有效性源于其在预训练阶段显著缓解了尾部类别的极端不平衡和简单性偏差问题。
(3)简单性偏差分析
图 2 注意力图比较:Baseline、ECM、2DRCL(不含DRC)和2DRCL(我们的方法)在LVIS数据集上的表现。顶行显示了输入图像对应的类别名称。
为了明确展示我们的方法如何解决简单性偏差问题,我们在图2中呈现了LVIS v1.0数据集中测试图像对应的激活可视化结果。结果表明,2DRCL通过学习更全面的模式,涵盖了具有信息量的区域,尤其是针对尾部类别的图像,有效减轻了长尾目标检测中的简单性偏差。相比之下,2DRCL在识别关键区域方面始终优于ECM,进一步突显了我们方法在应对简单性偏差方面的优势。我们特别展示了提出的DRC机制的有效性,可以发现,引入DRC机制后,模型对尾部类别的特征关注显著增强,同时减少了对背景的干扰。这个发现进一步表明,DRC 在缓解简单性偏差中发挥了至关重要的作用,使模型能够保留复杂的视觉细节并捕捉更深层的语义关系,从而生成更丰富且连贯的特征表示。
总结

在本文中,我们提出了具有对偶重构的动态重平衡对比学习(2DRCL),以解决目标检测预训练中长尾分布带来的挑战。通过整合全局与局部对比学习、动态重平衡和对偶重构机制,2DRCL 使预训练策略与目标检测任务的特殊需求相匹配,确保其在平衡数据和长尾数据中都能有效。该方法成功缓解了尾部类别的简单性偏差,增强了它们的特征表示与整体性能。实验结果表明,2DRCL 在尾部类别的注意力分配和减少背景干扰方面取得了显著改进,得到了定量和定性分析的验证。然而,我们的方法存在一定的局限性,特别是在较高的计算成本方面。未来,我们的工作将侧重于优化计算效率以解决当前方法所存在的不足。



图像图形领域高质量科技期刊分级目录
中国图象图形学学会科普活动、素材征集通知
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果评价的通知
2024年CSIG图像图形中国行承办方征集中

中国图象图形学学会CSIG
发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息,促进该学科技术的发展和在国民经济各个领域的推广应用。
 最新文章