TIP | 无监督跨域目标检测新方法: 多粒度置信度对齐精炼伪标签

文摘   2025-01-19 08:19   荷兰  

 RS   DL 

论文介绍

题目:Refining Pseudo Labeling via Multi-Granularity Confidence Alignment for Unsupervised Cross Domain Object Detection

期刊:IEEE Transactions on Image Processing

论文:DOI: 10.1109/TIP.2024.3522807

年份:2025
单位:国防科技大学
作者:陈江明、刘丽、邓婉霞、刘振、刘煜、魏迎梅、刘永祥

注:本篇由论文原作者审阅


创新点

  • 一种新的通用无监督跨域目标检测框架:本文提出采用多粒度置信度对齐精炼伪标签以提升无监督跨域目标检测性能,以及一种通用的无监督跨域目标检测框架(Multi-Granularity Confidence Alignment Mean Teacher,MGCAMT)。无需目标域标注,显著提升检测器泛化能力,极大促进目标检测的现实应用。
  • 多粒度置信度对齐方法:本文提出类别级、实例级和图像级的多粒度置信度对齐方法,使分类置信度分别与类别准确性、实例定位质量和图像空间布局对齐,由分类置信度筛选出类别正确、位置精确和完备的伪标签,促进教师-学生相互学习。不同粒度的置信度对齐方法以协同学习的方式相互促进,共同提升检测器最终性能。
  • 优异的跨域表现:MGCAMT在4种广泛使用的跨域场景中(Cityscapes到Foggy Cityscapes、Cityscapes到BDD100K、KITTI到Cityscapes、Sim10K到Cityscapes)取得了优异的性能,超越了包括基础模型在内的其他现有方法。

背景

目标检测旨在图像中定位感兴趣类别的物体实例,深度神经网络的快速发展极大地推动了这一领域的进步。然而,这一令人瞩目的进展依赖于大量标注数据下的监督学习。由标签监督训练的模型在其他未见过的数据域上往往会遭遇严重退化,因为它们倾向于偏向已知领域的数据分布。这一缺陷显著阻碍了实际应用的推广,例如自动驾驶和视频分析等。与此同时,大规模数据标注需要大量的人工劳动和时间,使得通过监督学习提升模型在新数据域的表现变得困难。
无监督跨域目标检测从有标签的源域迁移知识,学习一个用于无标签目标域的检测器,以极小的代价快速提升检测器的泛化能力。近来,均值教师(Mean Teacher)方法取得了较好的效果,但伪标签标注这一关键组件仍然限制了性能的进一步提升。一种流行的做法是,筛选出高分类置信度的预测作为伪标签。这基于一种假设,即分类置信度不仅能与类别正确性对齐,同时与实例定位精确性和图像空间布局对齐。实际上,域偏移将导致置信度不对齐,这是因为模型将偏向于源域的分布。如图1、2、3所示,高置信度不能保证类别正确性,同时,可能定位不准或者丢失对某些目标(模糊的、小的目标)的关注。置信度不对齐将导致标签噪声,阻碍目标域图像上下文信息的挖掘,甚至出现伪标签负反馈的情况。 
因此,本文提出采用多粒度置信度对齐精炼伪标签以提升无监督跨域目标检测性能。

1 多粒度置信度对齐精炼伪标签

数据

  • Cityscapes:包含2,975张训练图片和500张验证图片,涉及城市街景中的8个类别。
  • Foggy Cityscapes:从Cityscapes生成,模拟不同雾浓度场景,用于测试天气条件下的域适应。
  • BDD100K:包含36,278张训练图片和5,258张验证图片,设置为白天场景,与Cityscapes共享7个类别。
  • KITTI:用于自动驾驶,包含7,481张标注图片,仅针对车辆类别的实验。
  • Sim10K:由Grand Theft Auto游戏引擎渲染的合成数据集,包含10,000张图片,仅标注了车辆类别。
说明:本文未使用遥感数据,但本文的方法可为遥感研究提供很多启发。

方法

本文提一种通用的无监督跨域目标检测框架(Multi-Granularity Confidence Alignment Mean Teacher,MGCAMT)。该框架使分类置信度分别与类别准确性、实例定位质量和图像空间布局对齐,由分类置信度筛选出类别正确、位置精确和完备的伪标签,促进教师-学生相互学习。不同粒度的置信度对齐方法以协同学习的方式相互促进,共同提升检测器性能。

图 4 多粒度置信度对齐均值教师(MGCAMT)

类别级分类置信度对齐(Classification Confidence AlignmentCCA)

引入证据深度学习(Evidential Deep Learning,EDL)同时建模分类和类别不确定性估计。EDL将网络的预测视为类别概率上施加Beta或Dirichlet先验的高阶分布,而不是点估计。仅通过执行一次前向传播,即可获得预测的不确定性,从而大大节省了计算成本。本文提出了针对单阶密集检测器RetinaNet(输出为二分类形式)的EDL建模方法,推导出损失函数如下所示:


其中,Ledl即为二分类交叉熵损失,进一步将其统一为焦点损失(Focal Loss);Lregu为正则化项。
本文设计了一种基于EDL不确定性感知的类别选择策略,即类别可靠的伪标签应该是满足分类置信度大于阈值τp,不确定性低于阈值τu条件的。标签选择策略如下所示:

其中不确定性u由以下公式计算:

实例级任务置信度对齐(Task Confidence Alignment,TCA)
为了对齐检测中的分类和回归分支,本文提出一种基于交互的特征重映射方法。通过卷积操作捕获分类和回归分支的信息,增强二者交互,并让分类分支特征自适应地定位最优的回归特征。形式化如下:
这里的特征映射考虑了多尺度间的关系,通过双线性插值和权重平均实现。以小的计算开销(< 1%)实现了较大的性能提升(Foggy Cityscapes上增加了6.1% mAP)。

图像级聚焦置信度对齐(Focusing Confidence AlignmentFCA

置信度误聚焦将导致不完备的伪标签,当采用基于anchor的单阶段检测器(RetinaNet)作为基础检测器时,出现伪标签负反馈现象。本文通过分析发现,标签分配(Label Assignment)加剧了置信度误聚焦的影响。因此,本文采用了一种不使用标签分配的伪标签学习方式,即直接使用Mean Teacher网络的输出进行监督学习,不需要进行标签分配。这样,不仅避免了前景-背景类别不平衡,同时保留了来自教师检测器的丰富上下文信息,使检测器能够实现对图像空间布局的均衡感知。

伪标签学习的损失函数如下:

整个模型的优化目标如下:

其中等式右侧第一项为源域检测损失函数,第二项为目标域伪标签学习损失函数,第三项为EDL学习的正则化损失。

结果与分析

与SOTA的比较。MGCAMT在4种广泛使用的跨域场景中(Cityscapes到Foggy Cityscapes、Cityscapes到BDD100K、KITTI到Cityscapes、Sim10K到Cityscapes)取得了优异的性能,超越了包括基础模型在内的其他现有方法。其中,在Cityscapes到BDD100K和KITTI到Cityscapes上,分别达到了62.2和67.5mAP。

表 1 Cityscapes迁移到Foggy Cityscapes,VGG 16作为骨干网

表 2 Cityscapes迁移到BDD100K,VGG 16作为骨干网

表 3 KITTI迁移到Cityscapes,VGG 16作为骨干网

表 4 Sim10K迁移到Cityscapes,VGG 16作为骨干网

消融实验
本文所提出的多粒度对齐方法CCA、TCA和FCA均有效果,当集成在一起时进一步提升了检测器的跨域性能。
表 5 消融实验

缓解置信度不对齐

本文可视化检测结果如图5所示,图上、中、下分别展示了类别级、实例级和图像级置信度对齐的效果。从图中可以看出,高分类得分对应着准确的类别和实例定位,同时对整张图像的空间布局有均衡的感知。

EDL超参数的影响。

当超参数  达到其上限时,它可以消除一些过于自信的伪标签,从而为学生检测器在目标域的学习提供更好的指导;在一定范围内,检测器将从伪监督信号中获益;随着  进一步减小,更多的伪标签被过滤掉,导致它们所包含的有益监督信息显著减少,检测器性能下降。经验上,一般取0.10 <=  <= 0.12

6 EDL超参数敏感性实验

计算复杂性

如表7所示,TCA方法增加了1.48 GFLOPS计算开销,提升了6.1mAP。另外,检测器的计算开销主要集中在骨干网VGG16上。
计算复杂性实验

检测结果可视化
检测结果如图5所示,本文所提方法有效地减少了错分、定位不精确和遗漏模糊或者小目标的情况,展示了良好的跨域目标检测性能。
热力图可视化
如图6所示,本文所提方法关注于图像中所有物体,而不是关注个别子集,同时减少了一些与任务无关的干扰。证明了我们的方法能够如预期成功地提取给定领域的兴趣特征。
误差分析可视化
如图7所示,与Mean Teacher方法相比,FCA方法在一定程度上减少了分类错误(Cls)、定位错误(Loc)和漏检 GT 错误(Miss),证明了在域自适应中的有效性。它还表明,良好的图像上下文感知有助于类别和实例轮廓的高质量预测。通过TCA 和 CCA 方法,主要错误如 Cls、Loc、Miss 以及假阴性(FN)明显减少,进一步增强了模型的域迁移能力。此外,可以看到TCA 和 CCA 对分类和回归错误均具有纠正作用,这表明准确的类别属性和完整的外观信息可以相互增强;Miss 和 FN 的改善表明类别和实例定位的有效预测有利于图像上下文感知。

5 检测结果可视化

 6 热力图可视化

图7 误差分析可视化

更多图表分析、理论推导可见原文


如需加群、投稿、合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。
我们目前有交流群、作者群(已发表成果的作者)、竞赛群和语义分割、变化检测等具体方向的交流群,详见:交流群说明

公众号欢迎优秀作者投稿!投稿说明请查看:投稿说明

往期推荐

TPAMI | STAR: 大幅面卫星影像场景图生成数据, 目标检测并理解目标间的关系

2024-12-29

TGRS | 哈工大提出同时处理遥感分类/分割/目标检测的多任务学习框架RSCoTr, 基于Transformer

2024-11-06

欢迎加入 | 遥感语义分割/目标检测/高光谱/大模型等方向交流群

2025-01-08


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章