中科院提出 DA-Ada | 用于域自适应目标检测的学习域感知适配器 !

科技   2024-10-28 09:01   上海  

点击下方卡片,关注「集智书童」公众号

点击加入👉「集智书童」交流群




想要了解更多:

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF

行业技术方案👉AI安防、AI医疗、AI自动驾驶
AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!

免责声明
凡本公众号注明“来源:XXX(非集智书童)”的作品,均转载自其它媒体,版权归原作者所有,如有侵权请联系我们删除,谢谢。

域自适应目标检测(DAOD)的目标是将在一个标注的源域上训练的检测器泛化到未标注的目标域。由于视觉语言模型(VLMs)可以提供未见图像的必要通用知识,冻结视觉编码器并插入域无关 Adapter 可以学习域不变知识,从而实现DAOD。

然而,域无关 Adapter 不可避免地倾向于源域。

它丢弃了一些对未标注域有利的知识,即目标域的域特定知识。为了解决这个问题,作者提出了一种针对DAOD任务的新颖域感知 Adapter (DA-Ada)。关键在于利用基本通用知识和域不变知识之间的域特定知识。

DA-Ada包括用于学习域不变知识的域无关 Adapter (DIA)以及从视觉编码器丢弃的信息中注入域特定知识的域特定 Adapter (DSA)。

在多个DAOD任务上的全面实验表明,DA-Ada可以有效地推理出提高域自适应目标检测的域感知视觉编码器。

作者的代码可在https://github.com/Therock90421/DA-Ada中找到。

1 Introduction

[50; 49; 39; 12] 目标检测取得了显著的性能,但由于域间差异,在处理未见数据时会出现严重的性能下降。为了解决这个问题,领域自适应目标检测(DAOD)[7]被探索出来,用于将在 Token 的源域训练的检测器迁移到 未标注 的目标域。传统的DAOD方法[7; 66; 79; 63; 75; 35; 69; 25]通过微调 Backbone 网络来生成域对齐特征,如图1(a)所示。然而,由于只需要源域的标注,因此它很容易偏向源域,因为需要更新大量的参数。

最近,在视觉语言模型(VLMs)上应用 Prompt 调优[78; 77; 71]得到了广泛应用,主要有两个原因:1) 学习参数较少;2) 在大规模图像文本对上进行训练的VLMs可以提取出高度泛化的特征。最近的研究[30; 55]探索了利用 Prompt 调优来生成DAOD的领域感知检测Head。然而,它们都从冻结的视觉编码器中提取图像的视觉特征,忽略了学习任务相关的知识,并限制了视觉特征判别能力的提高。

将任务相关的知识注入视觉编码器中,一些方法 [24; 8; 5] 将 Adapter 模块插入到冻结的 Backbone 中。形式上,跨域的共享 Adapter 可以直接引入,利用源域的标注和领域对齐约束来学习任务相关的知识,如图1(b)所示。然而,这种 Adapter 是域无关的,只能在学习两个领域之间的领域不变知识,在领域对齐约束下。此外,由于标注仅来自源域,因此从域无关 Adapter 学习的领域不变知识不可避免地偏袒源域。如图1(d)所示,与原始VLM相比,域无关 Adapter 对源域带来了显著的改进,而对目标域的改进则有限。总之,从域无关 Adapter 学习的领域不变知识的偏差限制了其对未见目标域的泛化能力。

在大规模数据上进行训练的VLM可以为未见过的图像提供重要的通用知识,而学习到的域不变知识对源域有偏,在目标域上的改进有限。因此,在将重要通用知识转移到域不变知识时,域无关 Adapter 会丢弃一些有益的目标域知识。基本上,它丢弃了区分目标域的域特定知识,但与域不变知识不同。总的来说,在丢弃的通用知识和域不变知识之间捕获目标特定知识,是提高VLM在DAOD任务性能的有效方法。

在本文中,作者提出了一种新颖的域感知 Adapter (DA-Ada),以促进视觉编码器学习域特定知识和域不变知识。具体而言,DA-Ada引入了域不变 Adapter (DIA)和域特定 Adapter (DSA),分别利用域不变和域特定知识,如图1(c)所示。域不变 Adapter (DIA)并行附加在视觉编码器模块上,通过将两个域的特征分布对齐来学习域不变知识。域特定 Adapter (DSA)接收模块输入和输出的差值,以恢复被DIA丢弃的域特定知识。由于差值表示模块丢弃的特征,丢弃的知识(从基本通用知识到域不变知识的差距)也隐藏在差值中。因此,域特定 Adapter (DSA)可以自适应地从差值中恢复域特定知识,从而提高目标域的泛化能力,如图1(d)所示。此外,作者还提出了视觉引导文本 Adapter (VTA),将DA-Ada学习到的跨域信息嵌入文本编码器,以增强检测Head的判别性。总体而言,所提出的DA-Ada可以为DAOD注入域不变和域特定知识。

2 相关研究

视觉语言模型(VLMs)将视觉和文本模态嵌入到共享空间中,实现跨模态对齐。通过预训练,它们展示了全面的理解能力。CLIP[48]同时训练了一个视觉编码器和一个文本编码器,使用了4亿图像文本对,在可见和未见类别上都表现出色。此外,将从CLIP的视觉编码器中提取知识,并将其应用于检测器背板,将文本编码器转换为检测Head。考虑到强大的泛化能力,作者应用RegionCLIP[76]作为检测器。

域自适应目标检测(DAOD)旨在将在 Token 源域上训练的目标检测器 [50] 调整到无 Token 目标域。以前的方法可以广泛分为两个正交类别:特征对齐和半监督学习。特征对齐 旨在使用域判别器 [7] 将两个域的特征分布对齐,以生成三个层次的域不变知识:图像级 [7; 66; 63; 38],实例级 和类别级 。为了防止每个域独有的知识干扰对齐,最近的工作提出多个提取器和判别器 [67] 来解耦域不变和域特定知识。同时,半监督学习努力通过风格迁移和伪标签 增强训练数据。然而,将现有的DAOD方法应用于VLM会使模型过拟合到训练数据,从而损害预训练模型的泛化能力。为了保留预训练知识,作者选择冻结VLM并设计一种新的域感知 Adapter 以促进跨域适应。与仅使用域不变特征进行检测的现有解耦方法相比,作者的方法采用解耦-消融策略。它适应性地修改域不变特征与域特定特征以增强目标域的判别能力。

针对VLMA的调优方法是通过全局微调将预训练的VLM适应到下游任务。这种方法代价高昂且容易过拟合到训练数据集。为解决这一问题, Prompt 调优[78]用可学习 Token 替换手工制作的 Prompt ,以便文本编码器在不同的任务上获得鲁棒性能。例如,类别[77],人类先验[71]和领域知识[30]被用来在新任务上获得强大的性能。然而,它们冻结了视觉编码器,阻止了它从DAOD跨域信息中学习。同时,源于自然语言处理(NLP)[24; 47; 62; 82; 21], Adapter 调优将可学习的较小层插入到视觉编码器中,这样 Backbone 可以学习来自新任务的知识。ViT-Adapter [8]和Conv-Adapter [5]被提出以高效地将预训练知识转移到零或少样本视觉任务。[17]将 Adapter 集成到CLIP模型中,[56]进一步分析了哪些组件应该冻结或可学习。[46]将自监督学习与增强提取低级特征的能力相结合。最近[68]探索将与分割模型SAM[28]相关的任务知识注入。然而,直接在两个域上调整 Adapter 将使其倾向于源域,无法区分域特定知识,导致在目标域上的歧视不足。在本文中,作者提出了一种新颖的领域感知 Adapter ,它明确地学习领域不变和领域特定的知识,以将跨域信息注入视觉编码器。

3 Methodology

在本节中,作者提出了一种针对DAOD的新颖领域感知 Adapter (DA-Ada),它采用 Adapter 调优,将领域特定和领域不变的知识引入VLM。值得注意的是,所提出的这种方法可以附加到任何基于CNN的检测器中,作为即插即用的模块。在不损失普遍性的情况下,作者以简单的Faster-RCNN [50]为例。

Overview

受到适应性调优的启发,作者可以自定义学习型 Adapter ,将跨域信息注入视觉编码器中。具体来说,为了丰富提取的特征具有高域泛化能力,理想的 Adapter 应满足以下两个方面的条件。首先,它可以模拟源域和目标域之间的共性,即域不变的知识。其次,它可以适应地提供每个域的独特属性,即域特定的知识。

在这个视角下,作者设计了一种有效的领域感知 Adapter (DA-Ada),它由领域不变 Adapter (DIA)和领域特定 Adapter (DSA)组成。如图2(a)所示,给定输入图像,作者将其视觉编码器划分为个块,其中 = 4在ResNet中。然后作者将具有DA-Ada模块个块连接起来:


表示分词层。对于第 个 DA-Ada 模块,作者首先将第 个模块的输入 输入到第 个 DIA 模块 中,以提取领域不变特征 。然后,作者通过 DSA 模块 相减,得到领域特定特征

然后,作者将 与空间注意力相融合,得到第 i 块的

其中表示元素乘法。具有个可学习 Adapter 时,作者得到视觉嵌入用于后续检测。由于视觉嵌入包含足够的跨域信息,作者提出了一种视觉引导的文本 Adapter (VTA),将视觉嵌入投影到文本编码器以增强检测Head的判别能力。如图2(c)所示,视觉引导的文本 Adapter 使用在源域和目标域上推理文本嵌入,用于预测。总体而言,作者提出的DA-Ada可以注入域不变和域特定的知识到VLM中,以提高跨域泛化能力。

Domain-Invariant Adapter (DIA)

DIA模块被提出,用于将领域不变知识注入视觉编码器。如图2(b)所示,它应用 Bottleneck 来学习多尺度域知识,并使域之间的输出分布对提取域不变知识对齐。具体而言,对于视觉编码器的第i个块,作者首先将输入特征前向传递到第i个DIA,并使用嵌入块过滤域无关信息:

此后,嵌入 对于域表示学习很有帮助。低通道维数的特征信息冗余较少,比高维数特征更适合域迁移。遵循这一精神,嵌入被鼓励被下投影到低通道维数的向量 中,以提取域不变知识并过滤冗余信息。正式地,应用下投影 将维度降为

考虑到不同领域中物体的尺度各异,作者引入了具有不同感受野的个下采样器,使其能够捕捉多个尺度上的各种空间特征。具体而言,嵌入首先在通道维度上平均分。然后,每个分区间被重新缩放到不同的分辨率并下采样。因此,多尺度版本的等式(5)可以表示为:


此外,低维知识 鼓励映射回原始维数特征空间并补充到预训练特征中。通常,作者在 上应用维度提升函数 来提取视觉编码器的域不变知识。


其中 是第 个 DIA 的输出,将与 相加以获得域不变特征 ,见式 (2)。为了确保 DIA 学习域不变知识,期望 在两个域之间能够良好对齐,因此,在每个 上附加 个域判别器 ,以计算对抗损失

通过结合降维-增加过程以及检测和对抗损失的约束,DIA可以提取域不变特征,同时减少冗余特征。

Domain-Specific Adapter (DSA)

经过DIA调整后,冻住的VLM的基本通用知识被转换为域不变知识。然而,仅通过DIA学习得到的知识对源域有偏差,而且在目标域上的判别力较弱。考虑到冻住的VLM基本通用知识的强泛化能力,作者将这个问题归因于DIA忽略了在 未标注 的目标域上具有高度泛化能力的特定域知识。由于块的输入和输出之间的差异表示被丢弃的特征,因此被丢弃的特定域知识也隐藏在差异中。为此,作者提出了DSA模块,用于从差异中恢复特定域知识。

经过DIA将域不变知识注入视觉编码器后,目标域特有的域特定知识被输出 所舍弃。因此,作者首先从输入 的差值中获取被视觉编码器块舍弃的特征

类似。由于领域特定知识隐藏在丢弃差异 中,因此采用了适应性知识提取的 Bottleneck 架构:

这段英文的意思是: 遵循与 相同的配置,以在 Bottleneck 方式感知多尺度域特定知识。

总的来说,域不变知识主导了VLM关键通用知识的传递过程,而域特定知识则根据每个域的特征来微调这个过程。因此,通过像素级注意力而不是直接相加的方式,适当地补充域特定知识是更合理的方法。因此,整个DA-Ada的注入被写成公式(3)。

Visual-guided Textual Adapter (VTA)

利用领域感知的 Adapter 向量注入领域不变和领域特定的知识,提取的视觉特征具有丰富的判别能力,这些特征也可以用于改进检测Head。因此,作者引入了VTA,以利用视觉特征中包含的跨域信息来增强文本编码器。

为了充分利用DA-Ada模块提取的领域不变和领域特定的知识,作者为VTA配备了两个可学习的组件:领域不变文本 Adapter   (DITA) 和领域特定文本 Adapter   (DSTA),如图2(c)所示。DITA在各个领域之间共享,用于将视觉领域不变知识编码到文本编码器的输入中,由领域判别器 进行优化。DSTA则针对源域 和目标域 进一步补充领域特定知识。

在实际应用中,DITA和DSTA的结构是一个3层MLP,隐层维度为512,将视觉嵌入映射到文本编码器的8个 Token 中。形式上,VTA将视觉信息嵌入到文本嵌入中。


在本文中, 分别表示源域和目标域, 分别表示源域和目标域的视觉嵌入、第 类及其文本描述。 表示文本编码器。 分别表示源域和目标域的第 类文本 Level 的分类器嵌入。

作者的提出的VTA将判别性视觉特征引入文本编码器,缓解了纯文本调优中适应性不足的问题。现有方法[30]仅针对检测Head调整可学习的文本描述,如图3(a)所示。然而,文本描述不足以描述某些跨域差异,例如视场差异,导致跨域信息学习能力有限。与它们不同,VTA从视觉特征中分析域不变和域特定的知识,推理出具有高判别能力的图像条件检测Head,如图3(b)所示。

Optimization Objective

作者旨在将DA-Ada插入视觉编码器中,以学习跨域信息,并进一步调整 Prompt 以获得具有图像条件的判别文本表示。一方面,作者将域对抗损失引入到DIA和DITA中,以指导域不变信息的学习。

具体来说,作者分别获取每个DIA中的源图像和目标图像的输出特征,并最小化对抗损失:


域共享的DITA预计将在各个域之间对齐:


源视觉嵌入()和目标视觉嵌入()分别表示源图像和目标图像的视觉嵌入。

另一方面,作者在半监督的方式下学习与任务相关的领域特定知识。对于源图像,作者计算每个视觉嵌入 与其实验标签 的交叉熵。

对于目标 , 首先通过手工 Prompt  "一个 [类] 的照片" 进行预测,并过滤掉高置信伪标签 ,然后最小化交叉熵:


表示矩阵乘法。

同时,为了分离领域不变和领域特定的知识,作者最大化DIA和DSA之间的分布差异。


是余弦距离的绝对值, 是一个阈值。

借助领域分类器,DIA和DITA被鼓励包含更多域不变知识。通过最小化,DIA和DSA之间的差距将被扩大,从而促进DSA提取更多域特定知识。

总体而言,优化目标为:


其中,是回归损失,是平衡比例。

4 Experiment

Datasets and Implementation

作者在四个基准测试上评估作者的方法:Cross-Weather(Cityscapes [9]Foggy Cityscapes [52]),Cross-Fov(KITTI [18]Cityscapes),Sim-to-Real(SIM10k [27]Cityscapes)和Cross-Style(Pascal VOC [13]Clipart [26])。

遵循[30]的方法,作者将RegionCLIP(ResNet-50 [22])与Faster-RCNN架构作为基准检测器。作者在附录的6.1和6.3节中详细介绍了数据集和实现方法。

Comparison to SOTA methods

作者提出了用于比较的代表当前最先进的DAOD方法,包括特征对齐和半监督学习方法。

跨领域适应性场景表1(C→F)显示,提出的DA-Ada在SOTA DA-Pro [30]的基础上取得了显著提高,差距达到2.6%,实现了八个类别中最高的mAP 58.5%。

与现有方法相比,DA-Ada在七个类别(即人、骑手、汽车、卡车、公共汽车、火车和自行车)上取得了0.4%到5.3%的显著提高。这种优越性能展示了DA-Ada在跨领域泛化能力方面的显著有效性。

跨视野自适应场景 表1(K→C)显示DA-Ada相对于SOTA DA-Pro [30]实现了5.3%的显著提升。由于K→C自适应面临比C→F更复杂的形状混淆,因此需要更高的模型判别性。因此,显著的增强验证了DA-Ada可以有效学习鲁棒的视觉编码器。

表格1(S→C):作者在SIM10k 城市景观基准测试中报告了实验结果。提出的DA-Ada在mAP方面取得了最佳结果,达到67.3%,比之前的最佳成绩HT(11)提高了1.8%。DA-Ada在困难的适应任务中的表现优越,这进一步证明了作者的策略在不仅外观而且在更复杂的语义适应任务中都是稳健的。

跨风格自适应场景 此外,作者在更具有挑战性的跨风格自适应(Cross-Style adaptation)上评估DA-Ada,其中语义层次结构具有更广泛的领域间隙。DA-Ada达到48.0%,超过了表2中所有最先进方法,表明将跨域信息注入视觉编码器可以带来自适应的优势。特别是,DA-Ada在六个类别(飞机、自行车、鸟类、船只、公共汽车和绵羊)上超过了所有比较方法,证实了该方法在困难的领域转变和多类问题场景下的有效性。

Ablation Studies

标准 Adapter 与领域感知 Adapter  首先,作者将领域感知 Adapter 的性能与现有 Adapter (包括源代码 Adapter 和领域无关 Adapter )进行比较。如表3所示,在四个基准测试中,领域无关 Adapter 相对于源代码 Adapter 提高了3.4%~5.7%,而应用领域感知 Adapter 进一步提高了2.4%~3.3% mAP。

作者进一步探讨了这种优势的原因,如图1(d)所示。与正则化器相比,领域无关 Adapter 在源域上的性能相似,但在目标域上遭受了3.7%的严重性能下降,表明它对源域有偏差。尽管在源域上提高了0.4%,但作者的方法在目标域上达到了正则化器。优越的性能表明,领域感知 Adapter 不仅更准确地将领域无关知识对齐,而且还利用领域特定知识提高检测器在目标域上的判别能力。

消融实验:针对域自适应 Adapter  作者在表格4中全面地进行了针对所提出方法各个组件的消融实验。仅将DIA引入到backbone中,mAP达到了53.8%。通过独立的判别器优化每个DIA,提高了1.0%。这表明学习域不变的 Adapter 可以将任务相关的源域知识转移到目标域。此外,DSA通过的帮助,将DIA提高了1.4%和2.3%,表明学习域特定的知识可以改善目标检测Head的分类。

插入位点 作者明确研究了DA-Ada的插入位点,如表5所示。当只应用一个 Adapter 时,将DA-Ada插入浅层块可以获得更好的性能,例如,块1的DA-Ada获得55.1%,超过了所有块2/3/4的插入位点。将DA-Ada的数量从1增加到4,分别导致了1.8%、0.8%、0.8%的稳定改进。

输入和注入操作 作者在表6中分析了DIA/DSA的不同输入特征和注入操作。直接将DIA注入视觉编码器并将其添加到每个块的输出上,可获得2.2%的性能提升,显示出学习域不变知识的有效性。然而,将输出直接发送到DSA的性能提升有限。这表明在视觉编码器的特征提取过程中,域特定知识被忽略了。为此,将注入到DSA中,可获得56.2%的性能提升,表明DSA可以从差异中恢复域特定知识。由于已更新为域不变, - () 去除了域不变部分,似乎呈现域特定。因此,作者将它发送到DSA,获得了0.5%的性能提升,证明了学习域特定知识的效果。此外,作者用交叉注意力替换了直接添加,获得了最高的mAP为57.0%和57.1%。这表明域特定知识描述了域内的属性,更适合用于优化提取的特征。为了效率,作者采用更简单的像素级注意力作为融合函数。

Bottleneck 维度 作者还在表7中进行了消融研究,以探索DA-Ada的合适 Bottleneck 维度。随着维度的增加,当 Bottleneck 维度为输入的1/2时,性能达到峰值57.1%,之后似乎出现下降。作者得出结论,适当的维度约简可以过滤冗余特征,同时提取任务知识。

文本调优与视觉引导文本适配 作者将视觉引导文本 Adapter 与现有方法进行比较,如表8所示。在两种场景中,VTA 分别比最先进的纯文本调优方法提高了0.7%和1.5%。值得注意的是,VTA在具有挑战性的跨视场适应方面表现出色,这表明视觉模式有效地补充了文本编码器在描述领域属性方面的局限性。

Ablation for Visual-guided Textual Adapter 如图9所示,学习DITA实现了57.6%的mAP,通过引入额外的对抗损失,它实现了57.9%。此外,通过DSTA为每个领域生成 Prompt ,它展现了58.5%的全适应性能。这表明将图像条件嵌入文本编码器可以促进跨域检测。

Detection Visualization

在图4中,作者对比了目标域的真实框(a)和SOTA DA-Pro [30](c)的检测框[30](c)以及作者的方法(b)(d)的检测框[30](b)和[30](d)。(a.1)(b.1)(c.1)(d.1)是从图像(a)(b)(c)(d)相同区域进行缩放以获得更好的查看效果。图4(a.1)显示了裁剪区域中的8个物体:6个重叠的汽车和一名骑自行车的人。 Baseline 模型在图4(b.1)中只检测到两个明显的汽车。如果没有描述域信息,如天气条件,它将错过雾中隐藏的其他物体。在图4(c),DA-Pro区分了骑车人和自行车,并使用域自适应 Prompt 提高了 mAP。然而,它忽视了图4(c.1)左边的另一辆汽车,由于视觉编码器中的域表示学习不足,导致泛化能力有限。作者提出的DA-Ada正确检测到了裁剪区域图4(d.1)中的缺失汽车(用绿色 Token )。通过向视觉编码器注入跨域信息,DA-Ada使模型在两辆自行车上检测更自信(),在一辆自行车上检测更自信。

Feature Visualization

在图5中,作者可视化了传统 Adapter 、域不变 Adapter (DIA)、域特定 Adapter (DSA)和域感知 Adapter (DA-Ada)的输出特征。作者选择了来自Foggy Cityscapes的图像(a)中的汽车和人雾中的图像。传统 Adapter (b)大致提取了汽车的轮廓。然而,受到目标域属性的影响,如雾,背景区域也在(b)中被突出显示,而人并不显眼。域不变 Adapter (C)主要关注目标区域并提取域共享任务信息。域特定 Adapter (DSA)主要关注除物体相关的因素外与域属性相关的因素,如雾区。通过将域不变 Adapter 与域特定 Adapter 相结合,域感知 Adapter (DA-Ada)(e)提取了汽车和人,同时减少了背景中雾的干扰。与(b)相比,物体在(e)中更加显眼,表明了DA-Ada的有效性。

5 Conclusion

在本文中,作者提出了一种名为域感知 Adapter (DA-Ada)的新的DAOD(域自适应目标检测)。作为一种可学习的附加组件,它将视觉语言模型提供的视觉知识传递到跨领域的信息以实现DAOD。

具体来说,它包括一个域不变 Adapter (DIA)用于学习域不变知识,以及一个域特定 Adapter (DSA)用于从视觉编码器丢弃的信息中恢复域特定知识。在多个DAOD任务上的广泛实验验证了DA-Ada在推理判别式检测器方面的有效性。

参考文献

[0]. DA-Ada: Learning Domain-Aware Adapter for Domain Adaptive Object Detection.

扫码加入👉「集智书童」交流群

(备注:方向+学校/公司+昵称



点击下方“阅读原文”,
了解更多AI学习路上的「武功秘籍」


集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
 最新文章