点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
在本文中,作者提出了一种名为YOLA的新的框架,用于在低光场景下的目标检测。与以往的工作不同,作者从特征学习的角度出发,提出了一种解决这个具有挑战性的问题的方法。
具体来说,作者通过Lambertian图像形成模型来学习光照不变的特征。
作者观察到,在Lambertian假设下,通过利用相邻颜色通道和空间相邻像素之间的关系,可以近似光照不变的特征图。
通过引入额外的约束,这些关系可以被表示为卷积核的形式,可以在网络中以检测驱动的方式进行训练。
为此,作者引入了一种新的模块,专门用于从低光图像中提取光照不变的特征,可以轻松地集成到现有的目标检测框架中。
作者的实验结果表明,在低光目标检测任务中取得了显著的改进,同时在照明良好和过亮的场景中也取得了有前途的结果。
代码: https://github.com/MingboHong/YOLA
1 Introduction
在计算机视觉领域,目标检测是基础,推动了从自动驾驶车辆到安全监控等众多应用的进步。数字图像中准确识别和定位物体的能力取得了显著进步,这主要归功于深度学习技术的出现。然而,尽管取得了这些进步,低光条件下的目标检测仍是一个重大的挑战。低光环境会导致图像质量较差,视距缩短,夜间监控和黄昏驾驶中的误检率增加。
传统在处理低光目标检测的方法主要倾向于图像增强技术。虽然这些方法在提高视觉美感和感知质量方面取得了有效性,但它们通常并不能直接转化为改进目标检测性能。这种差异的原因在于这些增强技术通常是为了优化人类的视觉感知而优化的,而人类的视觉感知并不总是与机器学习模型有效、准确地检测物体这一需求完全相关。
除了图像增强策略外,另一个研究方向是针对低光条件微调预训练模型。通常,检测器最初在良好的照明图像数据集上进行训练,如Pascal VOC [11]和Microsoft COCO [28]中的图像,然后在小型的低光数据集[48, 32]上进行微调。为了提高跨域信息的利用率,MAET框架 [7] 开发了一种通过分离目标特征和图像质量降级引起的影响来学习内在视觉结构特征的方法。类似地,方法 旨在在检测器训练期间恢复损坏图像的正常外观。然而,这些技术通常严重依赖合成数据集,这可能限制了它们的实际应用。
近年来,低光目标检测方法,如文献[36, 49]中的方法,使用拉普拉斯金字塔[2]进行多尺度边缘提取和图像增强。FeatEnHancer[18]进一步利用层次特征以提高低光视觉。然而,这些特定任务的、以损失驱动的方法通常由于光照效果的变异而面临较大的解空间。
在这项研究中,作者提出了一种新颖的方法,该方法明确地利用了照明不变特征,并利用了拉曼图像形成模型的原则[42]。在拉曼假设下,作者可以将每个通道的像素值表示为三个关键组成部分的离散组合:表面法线、光方向(两者都与像素的位置有关),光谱功率分布以及像素本身的固有属性。照明不变特征可以通过消除位置相关项和光谱功率相关项[14]来学习。作者将提取照明不变特征的概念引入低光检测任务,并证明将此特征结合到低光检测任务中可以显著提高性能。作者进一步使用任务驱动 Kernel 改进这种照明不变特征。作者的关键观察是,通过将这些 Kernel 施加零均值约束,特征可以同时发现更丰富的下游任务特定模式并保持照明不变性,从而提高性能。
为此,作者提出了一种名为照明不变模块(IIM)的通用和自适应组件,旨在将来自这些专业核的信息与标准RGB图像相结合。IIM可以无缝集成到各种现有的目标检测框架中,通过简单的边缘特征或多种照明不变特性,如图1所示。作者进一步在ExDark和DARK FACE数据集上进行实验以评估作者的方法。作者的实验结果表明,将IIM集成到现有方法中显著提高了检测精度,从而在低光环境下的目标检测中取得了显著改进。
总之,作者的贡献如下:
作者提出了YOLA,这是一个利用照明不变特征进行低光条件目标检测的新颖框架。
作者设计了一种新颖的照明不变模块,可以在不依赖额外配对数据集的情况下提取照明不变特征,并可无缝集成到现有目标检测方法中。
作者对提取出的照明不变范式进行了深入分析,并提出了一个学习照明不变范式的方法。
作者的实验表明,YOLO在处理低光图像时,可以显著提高现有方法的目标检测精度。
2 Related work
General object detection
当前的现代目标检测方法可以分为基于 Anchor 点的和基于 Anchor 点的。基于 Anchor 点的检测器源于滑动窗口范式,其中密集的 Anchor 点可以看作是空间中的滑动窗口。然后,根据匹配策略(例如,交并集(IoU)[16],Top-K[52, 50])将 Anchor 点分配为阳性或阴性样本。常见的基于 Anchor 点的算法包括 R-CNN,SSD [30],YOLOv2 [38],以及 RetinaNet [27] 等。
相比之下, Anchor 点检测器解除了手工 Anchor 点超参数设置,从而提高了其泛化能力。 Anchor 点检测器中的突出方法包括 YOLOv1 [37],FCOS [44],和 DETR [3]。尽管基于 Anchor 点和 Anchor 点检测器在整体目标检测中取得了显著的成就,但在低光条件下它们的表现令人不满意。
Low-light object detection
低光条件下的目标检测仍是一个重大的挑战。一条常见的研发线路是利用图像增强技术,如KIND[53],SMG[46],NeRCo[47],以及其他[17, 24, 22, 23]等,直接提高低光图像的质量。增强后的图像将用于后续的检测训练和测试阶段。然而,图像增强的目标与目标检测的目标本质上不同,这使得这种策略不是最优的。为了解决这个问题,一些研究行人[21, 6]探索在训练过程中将图像增强与目标检测相结合。然而,平衡超参数以实现视觉质量和检测性能的均衡仍然具有复杂性。
最近,Sun等人[43]提出了一种针对降级图像的定向对抗攻击范式,旨在将降级图像恢复为对目标检测更有利的图像。MAET[7]在低光合成数据集上进行训练,获得了预训练模型,具有内在的结构分解能力,用于下游低光目标检测。
此外,IA-YOLO[31]和GDIP[25]详细设计可分化的图像处理模块,以自适应地增强图像,用于恶劣天气目标检测。值得注意的是,上述方法要么需要专门的低光增强数据集,要么在训练中依赖大量的合成数据集。
为了减轻这些限制,一组方法[36; 49; 18]利用多尺度层次特征,并仅由特定任务损失驱动,以提高低光视觉。与这些方法不同,作者引入了照明不变的特征,以减轻照明对低光目标检测的影响,而无需额外的低光增强数据集或合成数据集。
Illumination invariant representation
不良光照通常会降低下游任务的性能,促使研究行人探索光照不变的技术以减轻这种影响。对于高级任务,Wang等人[45]提出了一种光照归一化方法用于人脸识别。Alshammari等人[1]使用光照不变的图像表示来提高汽车场景的理解和分割。
Lu等人[33]将RGB图像转换为光照不变的色度空间,为接下来的特征提取做准备,以实现各种光照条件下的交通目标检测。
对于低级任务,几种基于物理不变性的不变量,如色度比例(CR)[13](Cross Colour Ratios,CCR)[14](用于内在图像分解[10; 9; 8])等,被用来分解光照。
然而,这些方法依赖于从固定公式推导出的光照不变表示,可能无法充分捕捉下游应用特有的多样化和复杂的光照场景。相反,作者的方法能够以端到端的方式自适应学习光照不变特征,从而增强与下游任务的兼容性。
3 Method
在本节中,作者正式介绍了一种名为YOLA的新型低光目标检测方法。如图2所示,YOLA的关键组件是专注于特征学习的照明不变模块(IIM),以提取下游任务特定的照明不变特征。这些特征可以与现有的检测模块相结合,提高它们在低光条件下的能力。接下来,作者将介绍照明不变特征的推导以及IIM的详细实现描述。
Illumination invariant feature
注解:令表示标准RGB域中的图像,表示红、绿、蓝通道中的图像。像素的通道的值为,其中是像素索引。
拉普拉斯假设:根据双色反射模型的体反射项, 的值可以表示为以下离散形式:
在这里, 分别表示像素 的表面法向量和光方向, 表示它们之间的相互作用函数。术语 表示在颜色通道 中,像素 的照明光源的频谱功率分布, 表示在颜色通道 中,像素 的物体固有属性(反射率)。
显然,术语仅由位置分量决定,与颜色通道无关。这一观察结果导致了以下策略:在相同的空间位置计算不同颜色通道的值差异,以有效地消除的影响。为了消除,作者可以利用光照在相邻像素之间近似均匀的假设。因此,通过计算相邻像素值的差异,作者可以进一步消除的影响。
跨颜色比率:考虑到两个相邻像素,分别表示为和,以及红通道(R)和蓝通道(B),作者可以通过以下计算过程确定红通道和蓝通道之间的比率:
对取对数并代入等式1中的像素值,作者得到:
在照明假设下,上述方程可以进一步简化为照明不变的形式:
通过观察方程4中的消除现象,作者可以发现,在同一通道内的减法消除了照度项(由零均值约束实现),而跨通道减法消除了表面法向量和光线方向项,这促使作者设计学习光照不变的范式。
在这种情况下,作者可以使用卷积操作来提取特征,如图2所示。提取到的特征由IIM进行处理和融合,然后发送到检测器。当使用相邻像素的固定权重(减法值1或-1)时,作者称之为IIM-Edge。接下来,作者将详细介绍IIM。
Illumination invariant module
虽然公式4提供了一种简单有效的方法来计算照明不变特征,但其刚性存在一定的局限性。具体来说,这个方程的固定性质可能无法充分捕捉到不同场景下下游任务特定的照明复杂变化。为了解决这个问题,作者使用卷积操作将方程演变为一更具适应性的形式。作者不再依赖单个核,而是学习一组卷积核。这种策略不仅增强了照明不变特征提取的鲁棒性,还提高了其效率。为此,作者提出了包含可学习核和零均值约束的照明不变模块。需要注意的是,照明不变模块生成的特征在初始化时具有照明不变性。后续的核学习旨在为下游任务生成特定任务的照明不变特征。
可学习的核。目标是将固定光照不变的特征转换为可学习的形式。具体来说,作者旨在学习一组卷积核 , 其中 表示核的数量, 表示核的大小。在这里,作者将固定特征扩展为更通用和泛化的形式。令 和 表示一组像素位置及其在 Kernel 中的对应权重,其中 。这些参数使作者能够将交叉颜色比率(CCR)演变为其可调整的形式,增强其处理不同光照条件的能力。请注意, 是可训练的,使得正负极性无关紧要。
为了使扩展形式仍然满足光照不变性,的对数应满足以下约束:
如果上述方程成立,e项和m项将被消除。最终的特征可以用泛化形式表示:这个约束通过用核函数的均值替换核函数得到:。
Implementation details
作者使用流行的基于 Anchor 点检测器YOLOv3 [39] 和 Anchor-Free 点检测器TOOD [12]来评估所提出的算法。这两个检测器最初都在COCO数据集上进行预训练,然后使用SGD [41]优化器在目标数据集上进行微调,初始学习率为-。
具体来说,作者将ExDark数据集图像缩放到,并训练两个检测器24个周期,在周期18和23时将学习率降低一个因子。对于DARK FACE数据集,作者将图像缩放到TOOD的,保持YOLOv3的分辨率与MAET一致。
YOLOv3训练20个周期,学习率在周期14和18时降低一个因子。TOOD训练12个周期,学习率在周期8和11时降低一个因子。此外,作者实现了一个直接的照度不变模型,称为YOLA-Naive,通过删除IIM并确保各种照度特征由MSE损失一致施加。
Dataset
作者在两个真实世界场景数据集上评估作者提出的算法:仅包含暗光[32](ExDark)和 DARK FACE [48]。ExDark数据集包含7363张图像,从低光环境到黎明,包括12个类别,3000张用于训练,1800张用于验证,2563张用于测试。作者以0.5的IoU阈值为基准,计算总体平均精确率(mAP)和平均召回率作为评估指标。
DARK FACE数据集包含6000张带标签的人脸边界框图像,其中5400张用于训练,600张用于测试,并计算相应的召回率和mAP作为评估指标。此外,作者还评估了作者的方法在COCO 2017 [28]数据集上的泛化能力。
Low-light object detection
表1分别呈现了YOLOv3和TOOD检测器在ExDark数据集上的定量结果。作者报告了包括KIND、SMG和NeRCo在内的低光图像增强(LLIE)方法,以及最新的低光目标检测方法,DENet和MAET。与低光目标检测方法相比,LLIE方法由于人眼视觉和机器感知的不一致,无法实现令人满意的表现。增强方法优先考虑人类偏好。
然而,需要注意的是,优化视觉吸引力不一定与优化目标检测性能相符。尽管在图像增强技术方面是当前最先进的技术,但SMG和NeRCo在目标检测任务中的表现比KIND更差。相比之下,端到端方法如DENet和MAET,考虑到机器感知,在目标检测方面通常比LLIE方法获得更好的结果。
然而,与同一类别中的类似方法相比,作者的方法仍然简单而有效。此外,与YOLA-Naive相比,YOLO在提取的特征中固有地具有照度不变性,这意味着与YOLA-Naive相比,其解空间更小,因此其性能优越。
具体而言,作者的方法在基于 Anchor 点的YOLOv3和 Anchor-Free 检测器TOOD上都取得了最佳性能,相较于 Baseline 分别取得了1.7和2.5 mAP的巨大提升,这表明其优越性和有效性。
与此同时,与大多数LLIE和低光目标检测技术相比,作者的YOLA(0.008M)参数数量显著较低,如表5所示。这突显了作者的方法在轻量级实际应用中的潜力。有关更详细的定量比较,请参阅作者的附录。
Low-light face detection
作者在ExDark数据集上展示了结果。接下来,作者在一个包含小型物体的数据集上展示结果。值得注意的是,大多数集成到YOLOv3检测器中的LLIE方法都无法达到令人满意的结果。
这意味着基于增强的方法可能会损害小型人脸的细节,从而阻碍在这种图像中学习有用的表示。另一方面,考虑目标检测任务的方法表现出更好的性能,其中YOLA将1.5 mAP提高到了,展示了其优越的性能和泛化能力。对于最近先进的目标检测器TOOD,作者的方法仍然在这些LLIE和低光目标检测方法之上,实现了67.4的显著mAP。这强调了YOLA在改进基于 Anchor 点的和基于 Anchor 点的方法的性能方面的优越泛化能力。
Quantitative results
图3的顶部两行展示了使用TOOD检测器的ExDark数据集的定性结果,其中现有方法表现出漏检,用红色虚线框突出显示。相比之下,YOLA在这些具有挑战性的案例上表现出色,证明了其在复杂场景中的优越性能。底部两行展示了使用TOOD检测器的DARK FACE数据集的定性结果。在低光条件下,这些人脸通常很小,使得大多数方法难以实现全面结果。
尽管作者的方法并未明确限制图像亮度,但增强后的图像在最终结果中通常呈现出增加的亮度。
图中的视觉结果可能会因为增强图像上没有值域约束而显得略微灰暗。在进行图像显示时,作者进行了通道方向上的归一化。
Ablation studies
4.6.1 Illumination invariant module
作者评估了在检测器TOOD中IIM(引入光照不变特征的检测器)的有效性,如表3所示。表3的第1行和第5行分别显示在ExDark和DARK FACE数据集上评估的基准检测器。通过将IIM引入,以引入照明不变特征,检测器获得了显著的性能提升(ExDark上的mAP为2.3,DARK FACE上的mAP为4.8)。
4.6.2 Zero mean constraint
通过在卷积核上施加零均值约束,形成的减法可以提取出光照项目。为了评估这个约束的影响,作者从IIM中排除它,结果如表3所示。显然,移除这个约束会导致性能下降,对于TOOD,mAP减少了0.3和0.5。这些结果表明,利用零均值约束来减轻光照的影响是有利于低光目标检测的。
4.6.3 Learnable kernel
IIM由可学习核组成,鼓励在端到端方式下自适应学习的照明不变特征。在本实验中,作者评估了固定核(如公式4中指定,也称为IIM-Edge),其结果见表3。它在ExDark上的性能比 Baseline 提高了1.3 mAP,在DARK FACE上的性能比 Baseline 提高了2.4 mAP,这表明照明不变特征的引入对低光目标检测有益。随后,作者将固定核替换为可学习核,在ExDark上获得了1.4 mAP的进一步改进,在DARK FACE上获得了2.9 mAP的进一步改进。这些结果清楚地证明了可学习核的有效性。此外,作者还为IIM的输出特征施加了一致性损失,以稳定核学习的收敛,防止核内的平凡解,从而减轻不均匀照明的影响。(请参阅附录A以获取详细信息)。
可视化: 固定核函数捕获的可见光不变特征具有相当大的多样性,但固定核函数捕获的多样性有限。如图4所示,固定核函数产生的特征相对均匀,主要包含简单的边缘特征。相比之下,可学习核函数提取出更多多样化的模式,导致视觉上更丰富和更有信息量的表示。
Generalization
在本节中,作者将YOLO的应用范围扩展到通用目标检测数据集COCO 2017,研究YOLO在低光目标检测之外的一般化能力。采用mAP(IoU [0.5:0.05:0.95]的平均值)、AP50和AP75作为评估在COCO 2017val(也称为minival)上的性能的指标,如表4所示。具体而言,作者在两个场景(亮度和过亮)下,使用8个GPU,每个GPU的mini-batch为1,通过SGD优化器在初始学习率-下训练12个epoch。通过观察表4,作者可以看到在两种场景下,与YOLO集成的检测器在性能上都有显著的改善。
5 Conclusion
在这项工作中,作者重新审视了在低光条件下进行目标检测的复杂挑战,并证明了在这样环境中使用照明不变特征的有效性。
作者的关键创新,照明不变模块(IIM),利用这些特征取得了显著效果。
通过在框架内集成零均值约束,作者有效地学习了一组核。这些核擅长提取照明不变特征,显著提高了检测精度。
作者认为,作者开发的IIM模块可以在未来应用中推进低光目标检测任务。
参考文献
[0]. You Only Look Around: Learning Illumination Invariant Feature for Low-light Object Detection.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)