PE-YOLO：解决黑夜中的目标检测难点

科技科技 2024-11-14 10:16 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

目前的目标检测模型在许多基准数据集上都取得了良好的效果，在夜晚或者黑暗条件下检测目标仍然是一个巨大的挑战。

简介

为了解决这个问题，有研究者提出了一个金字塔增强网络（pyramid enhanced network，PENet），并将其与YOLOv3结合起来，构建了一个名为PE-YOLO的暗目标检测框架。首先，PENet使用拉普拉斯金字塔将图像分解为不同分辨率的四个分量。

具体来说，提出了一个细节处理模块（ detail processing module，DPM）来增强图像的细节，该模块由上下文分支和边缘分支组成。此外，还提出了一种低频增强滤波器（LEF）来捕获低频语义并防止高频噪声。PE-YOLO采用端到端联合训练方法，仅使用正常检测损失来简化训练过程。在弱光物体检测数据集ExDark上进行了实验，以证明新框架的有效性。结果表明，与其他暗探测器和弱光增强模型相比，PE-YOLO的mAP和FPS分别达到78.0%和53.6%，能够适应不同弱光条件下的物体检测。

背景

近年来，卷积神经网络的出现促进了目标检测的发展。已经提出了大量的检测器，并且基准数据集的性能得到了较好的结果。然而，大多数现有的探测器都是在正常条件下在高质量图像中进行研究的。在真实环境中，经常存在许多恶劣的照明条件，如夜间、暗光和曝光，因此图像质量的降低影响了检测器的性能。视觉感知模型使自动系统能够理解环境，并为后续任务（如轨迹规划）奠定基础，这需要稳健的目标检测或语义分割模型。下图是暗物体检测的示例。可以发现，如果对图像进行适当的增强，并根据环境条件恢复更多原始模糊目标的潜在信息，则目标检测模型能够适应不同的弱光条件，这在模型的实际应用中也是一个巨大的挑战。

目前，已经提出了许多方法来解决暗场景中的鲁棒性问题。已经提出了许多微光增强模型来恢复图像细节并减少不良照明条件的影响。然而，微光增强模型结构复杂，不利于检测器在图像增强后的实时性能。这些方法中的大多数不能用检测器进行端到端训练，并且需要对成对的微光图像和正常图像进行监督学习。弱光条件下的物体检测也可以被视为一个领域自适应问题。

一些研究人员使用对抗性学习将模型从正常光转换为暗光。但他们专注于匹配数据分布，忽略了低光图像中包含的潜在信息。在过去的几年里，一些研究人员提出了使用可微分图像处理（DIP）模块来增强图像并以端到端的方式训练检测器的方法。然而，DIP是传统的方法，如白平衡，对图像的增强效果有限。

弱光增强

微光增强任务的目标是通过恢复图像细节和校正颜色失真来改善人类视觉感知，并为诸如物体检测之类的高级视觉任务提供高质量的图像。[Kindling the darkness: A practical low-light image enhancer]提出了Kind，它可以通过具有不同照明水平的成对图像进行训练，而不需要地面实况。[Zero-reference deep curve estimation for low-light image enhancement]提出了Zero DCE，它将微光增强任务转化为图像特定的曲线估计问题。[Low-light image/video enhancement using cnns]提出了一种多分支微光增强网络（MBLLEN），该网络提取不同层次的特征，并通过多分支融合生成输出图像。[You only need 90k parameters to adapt light: a light weight transformer for image enhancement and exposure correction]提出了一种照明自适应变换器（IAT），通过动态查询学习构建端到端变换器。在弱光增强模型恢复图像细节后，检测器的效果得到了改善。然而，大多数微光增强模型都很复杂，对探测器的实时性能有很大影响。

不利条件下的目标检测

不利条件下的目标检测对于机器人的鲁棒感知至关重要，针对一些不利条件出现了鲁棒目标检测模型。有些人通过无监督的域自适应将检测器从源域转移到目标域，使模型适应恶劣的环境。[Image-adaptive yolo for object detection in adverse weather conditions]提出了IA-YOLO，它自适应地增强每个图像以提高检测性能。他们提出了一种适用于恶劣天气的可微分图像处理（DIP）模块，并使用小型卷积神经网络（CNN-P）来调整DIP的参数。在IA-YOLO的基础上，[Gdip: Gated differentiable image processing for object-detection in adverse conditions]提出了GDIP-YOLO。GDIP提出了一种门控机制，允许多个DIP并行操作。[Denet: Detection-driven enhancement network for object detection under adverse weather conditions]提出将检测驱动增强网络（DENet）用于恶劣天气条件下的目标检测。[Multitask aet with orthogonal tangent regularity for dark object detection]提出了一种用于暗物体检测的多任务自动编码变换（MAET），探索了光照转换背后的潜在空间。

新框架详解

由于低光干扰，暗图像的可见性较差，这影响了检测器的性能。为了解决这个问题，提出了一种金字塔增强网络（PENet）和联合YOLOv3来构建暗对象检测框架PE-YOLO。PE-YOLO的框架概述如下图所示。

通过拉普拉斯金字塔获得了四个不同尺度的分量，如下图所示。

发现拉普拉斯金字塔自下而上更关注全局信息，而相反，它更关注局部细节。它们都是在图像下采样过程中丢失的信息，这也是PENet增强的对象。通过细节处理模块（DPM）和低频增强滤波器（LEF）来增强组件，并且DPM和LEF的操作是并行的。通过对拉普拉斯金字塔进行分解和重构，可以使PENet变得轻便有效，这有助于提高PE-YOLO的性能。

细节增强

提出了一个细节处理模块（DPM）来增强拉普拉斯金字塔中的组件，该模块分为上下文分支和边缘分支。DPM的详细信息如下图所示。上下文分支通过捕获远程依赖关系来获取上下文信息，并对组件进行全局增强。边缘分支使用两个不同方向的Sobel算子来计算图像梯度，以获得边缘并增强组件的纹理。

低频增强滤波器

在每个尺度分量中，低频分量具有图像中的大部分语义信息，它们是检测器预测的关键信息。为了丰富重构图像的语义，提出了低频增强滤波器（LEF）来捕获分量中的低频信息。LEF的细节如下图所示。

假设分量f∈Rh×w×3，首先通过卷积层将其变换为f ∈ Rh×w×32。使用动态低通滤波器来捕获低频信息，并使用平均池进行特征滤波，这只允许低于截止频率的信息通过。不同语义的低频阈值是不同的。考虑到Inception的多尺度结构，使用了大小为1×1、2×2、3×3、6×6的自适应平均池化，并在每个尺度的末尾使用上采样来恢复特征的原始大小。在不同内核大小的平均池化下形成低通滤波器。通过通道分离将fin分为四个部分，即{f1，f2，f3，f4}。

实验及可视化

PE-YOLO和微光增强型之间的性能比较。它显示了每个类别中的mAP和AP。粗体数字在每列中得分最高。

可视化了不同弱光增强模型的检测结果，如上图所示。我们发现，尽管MBLLEN和Zero DCE可以显著提高图像的亮度，但它们也会放大图像中的噪声。PE-YOLO主要捕捉低光图像中物体的潜在信息，同时抑制高频成分中的噪声，因此PE-YOLO具有更好的检测性能。

将PE-YOLO的性能与其他暗探测器进行了比较。此外，可视化了暗探测器和PE-YOLO的检测结果，如上图所示。这清楚地表明PE-YOLO在物体检测中更准确。与使用LOL数据集预训练的DENet和IAT-YOLO相比，PE-YOLO在mAP中分别高0.7%和0.2%，并且PE-YOLO在FPS上几乎也是最高的。上述数据表明，PE-YOLO更适合在黑暗条件下检测物体。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539679&idx=2&sn=263e6aa193482d372e6282ad5e1bea09

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉