点击上方“小白学视觉”,选择加"星标"或“置顶” 重磅干货,第一时间送达
论文信息
Pseudo-Siamese Teacher for Semi-Supervised Oriented Object Detection
用于半监督旋转目标检测的伪孪生教师模型
作者:Wenhao Wu, Hau-San Wong, Si Wu
摘要
面向对象检测技术旨在检测具有方向属性的对象,在复杂场景下的视觉分析中展现出巨大潜力,例如航空图像。然而,强大的检测性能依赖于丰富和准确的标注,一旦标注不足,检测性能就会严重恶化。半监督学习利用未标注数据来改进目标模型,是解决标注不足问题的一种有前途的方法。在这项工作中,我们提出了一种新的半监督学习框架——伪暹罗教师(PST),用于面向对象检测。在这个架构中,两个教师模型,通过不同的优化从同一个学生模型更新,相互检查彼此的预测,并协作生成高质量的伪标注。为了减少伪标注在定位、尺度和方向上的不可靠性,我们提出将面向对象建模为高斯分布,并应用对称和有界的Jensen-Shannon散度(JSD)来评估不同教师模型预测之间的差异,这些结果作为去除不一致回归估计的教师模型的混淆伪标注的指标。尺度不变性也是面向对象检测中的一个重要挑战,我们通过提出尺度自适应知识蒸馏来解决这个问题,通过从学生模型的特征图对具有灵活尺度的图像进行对齐,以及从教师模型的相邻特征图进行插值,尺度最接近下采样图像的特征图。我们进行了广泛的实验,以证明我们提出的方法在利用未标注数据进行性能改进方面的有效性。
方法
A. 预备知识
在半监督设置中,提供有限的标注数据和众多的未标注数据以促进半监督学习,其中Na和Nu分别是标注图像和未标注图像的数量。ya_i是标注图像Ia_i的标注,其内容根据特定任务和参数化而变化,例如,用于描述面向对象的五参数、八参数和点集表示。基于均均教师结构,传统的半监督框架由学生模型和教师模型组成,学生模型通过标准梯度下降更新,教师模型通过学生模型的指数移动平均(EMA)更新,如下所示:
其中,和分别是教师模型和学生模型的参数,下标表示训练迭代次数。教师模型的更新由平滑因子控制,以防止教师模型过拟合到学生模型。不断改进的教师模型为未标注数据生成伪标注,这些伪标注将与标注数据结合,通过训练损失更新学生模型,如下所示:
其中,和分别是标注数据和伪标注数据上的监督损失,两者都包括分类损失、回归损失以及根据不同基础检测器可能包含的额外损失,例如FCOS中的中心损失。是平衡标注数据和伪标注数据贡献的权重因子。
B. 概述
由于缺乏监督,传统伪标签框架中由单一教师模型生成的伪标注在分类或回归上往往不可靠,从而导致确认偏差问题,其中一些异常值作为伪标注淹没了模型的训练。在这些不可靠的伪标注上训练的学生模型无法为单一教师模型提供矫正信号,甚至在EMA后进一步传播误导性知识给教师模型。为了解决这个问题,我们提出了一个半监督框架PST,如图1所示。在提出的框架中,有两个教师模型T1和T2,通过相同学生模型S的不同平滑因子和以及不同的更新频率和进行EMA更新,如下所示:
具有不同优化的教师模型对同一未标注数据做出相似但不相同的决定。具体来说,相似性和差异性分别对应于类别匹配和回归差异,可以作为估计伪标注质量的指标。为了减少不同参数化的限制,我们提出将面向对象建模为高斯分布,并应用JSD在教师模型的预测之间评估回归差异,详见第三节C。与传统的半监督学习用于对象检测一样,学生模型通过标注数据上的监督损失和伪标注数据上的伪监督损失进行优化。由于尺度变化问题在面向对象检测中是一个重大挑战,我们引入了尺度自适应知识蒸馏,以关注学生模型在具有灵活尺度的图像上,详见第三节D。学生模型要优化的目标如下:
其中,和用于平衡伪监督损失和尺度自适应知识蒸馏损失的贡献。
C. 通过高斯建模的表示一致性改进伪标注
由于不同参数化的定义范围有限,方向差异的程度在边界条件下可能显著增加,未能测量实际差异,详见第五节。因此,不能使用直接角度差异来评估教师模型之间的差异。基于高斯建模的表示[13],[14],[17],本质上不受边界不连续性问题的影响。因此,我们提出基于两个教师模型在预测的高斯建模上的一致性生成高质量伪标注。具体来说,我们将T1和T2的预测表示为和,其中,分别表示预测的边界框和类别。八参数和点集表示将首先转换为五参数表示,以便进一步进行差异估计。然后,我们将预测转换为高斯表示,如下所示:
其中和分别表示旋转矩阵和特征值的对角矩阵。我们采用JSD作为评估教师模型之间回归差异的度量,如下所示:
其中是Kullback–Leibler散度(KLD),。高斯建模将面向对象转换为2-D高斯分布,没有明确的方向定义限制。此外,高斯建模可以将定位、方向和尺度信息耦合成一个集成表示,因此对分布的差异估计可以同时估计回归的所有因素的可靠性。JSD作为差异估计度量有几个优点:1)对称性是避免在任何两个教师模型的预测之间的任何排序上进行差异估计时混淆的重要属性。2)当使用无界的高斯Wasserstein距离(GWD)[13]和KLD[14]作为差异度量时,很难定义不确定性边界。JSD的有界性可以避免对分布距离的非线性转换和相应的超参数调整的需求。高质量的伪标注需要教师模型之间在分类和回归信息上的高度一致性。伪标注生成过程如下:1)通过分类得分小于阈值的筛选,从T1和T2中筛选出低质量预测;2)在T1和T2之间进行分类匹配,并删除T1和T2之间没有一致分类信息的预测;3)计算两个教师模型之间分类匹配预测的倾斜交集比(SkewIoU),并匹配IoU大于阈值的预测;4)计算T1和T2之间剩余预测之间的JSD,并保留大于阈值的预测。请注意,通过SkewIoU可能存在多对一匹配,其中一个教师模型的不同预测与另一个教师模型的相同预测匹配。我们放宽匹配过程,以确保在不同匹配对之间具有较低差异的最有信心的预测可以被视为学生模型训练的高质量伪标注。高斯基础上的差异估计的可靠性建立在两个模型的预测质量之上。如果没有引入额外的可靠模型,如传统的伪标签框架,学生模型和单一教师模型之间的差异估计不准确,因为学生模型的预测偏差会导致即使教师模型的预测准确,也会估计出大的差异。因此,引入另一个可靠的教师模型,确保了高斯基础上的差异估计在更准确地指示生成的伪标注的质量方面的有效性。
D. 通过尺度自适应知识蒸馏实现尺度不变学习
识别不同尺度的对象是对象检测中的一个重大挑战。现有工作[18],[19],[20]通常在特征级别或标签级别上实现原始图像和尺度为原始图像的下采样图像之间的信息对齐,由于特征金字塔网络(FPN)中两个版本的图像的特征图或输出图在空间大小上的一致性,其中表示FPN中的层级。然而,2i的下采样无法完全覆盖尺度范围。介于原始和2i下采样尺度之间的对象没有得到充分覆盖,阻碍了模型对广泛尺度范围内对象的适应。我们提出通过尺度自适应知识蒸馏对灵活尺度的学生模型图像和教师模型的原始图像之间进行信息对齐,如图2所示。我们表示教师模型和学生模型的FPN第i层的原始特征图为和,尺度版本为和,其中是从教师模型的最近相邻层的特征图上下采样或上采样以匹配学生模型的下采样图像的特征图的尺度。我们首先将教师模型的最近相邻层的重采样特征图插值为一个集成特征图,如下所示:
其中是由下采样图像的特征图大小和相邻层的大小之间的尺度差异控制的自适应因子,如下所示:
其中表示下采样率,。我们默认设置和。由于我们采用了更灵活的缩放比例,在不同层之间的变化程度不同,因此不能直接确定。例如,在和之间的下采样图像的变化程度是不同的。因此,我们提出将非线性尺度差异投影到与尺度相关的线性自适应因子上,从而可以自适应地确定到不同层的相同程度。的插值可以促进从相邻层到插值特征图的空间和语义信号与方向信息的集成,受到从相邻层到插值特征图的尺度差异的控制。有了插值特征图,我们在原始图像和下采样图像之间,以及教师模型和学生模型之间实施知识蒸馏,如下所示:
其中是FPN层的最大层数,是最接近尺度的层,是如下的Huber损失:
教师模型到学生模型的知识蒸馏由不同教师模型在不同尺度图像上的余弦相似性加权调节。我们施加相似性作为权重因子,以集中学生模型在两个教师模型在灵活尺度图像上具有高度一致性的位置的学习。最终的尺度不变学习损失如下所示:
其中是在重采样图像上的监督损失或伪监督损失。
4 实验
讨论
我们提供了为什么我们提出的PST框架和基于JSD的差异度量优于常规伪标签框架和基于直接方向差异的差异度量的额外分析。
A. 常规伪标签框架的问题
常规伪标签框架中的教师模型在生成伪标注时缺乏严格的监督,导致一些噪声异常值被视为伪标注,从而误导了学生模型在未标注数据上的训练。在图5(b)中,来自任一教师模型的伪边界框无法很好地包含面向对象。随着更多异常值的引入,学生模型在与真实标注不同的分布上学习,将逐渐恶化,而聚合了来自较差学生模型的误导信息的教师模型,将进一步将更多异常值视为伪标注,导致学生和教师模型在未标注数据上的训练上持续性能下降。因此,常规伪标签框架中的教师模型在生成伪标注时需要外部监督。在我们提出的PST框架中,两个教师模型,通过相同学生模型的不同优化更新,可以相互检查预测,生成高质量的伪标注,并进一步减少噪声伪标注。
B. 直接方向差异作为差异度量的问题
由于不同参数化的定义范围有限,直接方向差异无法有效测量边界条件下的实际方向差异。如图5(a)所示,在长边定义下,两个教师模型预测的边界框之间的方向差异很大。然而,两个教师模型的预测之间以及预测和相应真实标注之间的实际方向差异实际上很小。如果采用直接方向差异作为评估度量,这种可靠的预测将被移除。不可靠的方向差异测量问题是边界条件下方向突变的结果。因此,直接方向差异不适合测量预测之间的差异。
C. 基于JSD的高斯表示一致性
我们采用高斯建模将面向对象表示为2-D高斯分布,避免了不同参数化在确定高质量伪标注时的问题。如图5(a)所示,基于长边定义的方向差异无法反映实际的方向差异,因此相应的高质量预测将被移除,当方向差异被用作评估有问题的表示时。然而,高斯建模可以将定位、方向和尺度信息耦合成一个统一的表示,并且对分布的差异估计可以不受不同表示的限制和问题,包括五参数、八参数和点集基表示。因此,图5(a)和(c)中的预测可以被识别为学生模型训练的可靠伪标注,而图5(b)中的预测可以被移除,以防止对学生模型的混淆监督。
结论和未来工作
在这项工作中,我们提出了一个半监督框架PST,用于面向对象检测,以解决数据不足的问题。在PST框架中,两个教师模型,通过相同学生模型的不同优化更新,相互检查并协作生成高质量的伪标注。为确保生成的伪标注的可靠性,我们采用JSD评估不同教师模型预测之间的回归差异,这些结果被视为去除没有参数化限制的噪声伪标注的指标。我们进一步引入了尺度自适应知识蒸馏,以对齐原始图像和具有灵活尺度的重采样图像之间的信息,以及教师模型和学生模型之间,以增强基础模型对尺度变化的识别。有了我们提出的PST框架,基础模型在具有挑战性的基准数据集上实现了显著的性能提升。
声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程 在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。 下载2:Python视觉实战项目52讲 在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。 下载3:OpenCV实战项目20讲 在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。 交流群
欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~