利用知识蒸馏算法优化 YOLOv5 目标检测！

科技 2024-10-31 09:03 上海

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「集智书童-知识星球」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

这篇论文探讨了知识蒸馏技术在目标检测任务中的应用，尤其是不同蒸馏温度对学生模型性能的影响。
通过将YOLOv5s作为教师网络和较小的YOLOv5s作为学生网络，作者发现，随着蒸馏温度的增加，学生的检测准确性逐渐提高，最终在特定温度下实现了mAP50和mAP50-95指标，这些指标优于原始的YOLOv5s模型。
实验结果表明，适当的知识蒸馏策略不仅可以提高模型的准确性，还可以帮助提高模型在实际应用中的可靠性和稳定性。
本文还详细记录了模型训练过程中准确性曲线和损失函数下降曲线，并显示模型在经过150个训练周期后收敛到稳定状态。
这些发现为优化目标检测算法提供了理论基础和技术参考。

I Introduction

深度学习、大数据和硬件技术的迅速发展使得计算机逐渐替代传统的手动流程，成为信息获取的必备工具。人工智能（AI）被广泛认为是工业创新的驱动器，在AI领域中，计算机视觉已经成为一个受到研究行人高度重视的领域，因为其有可能改变机器如何解释视觉数据的方式。

计算机视觉领域的一个基本任务是目标检测，这推动了相关技术的进步。历史上，目标检测经历了两个关键阶段：基于传统算法的经典技术和现代基于深度学习的技术[2]。这些发展不仅推动了科学研究，而且在各个领域具有实际价值。例如，目标检测在医学影像[3]、文本提取[4-6]和命名实体识别[7]等方面发挥着关键作用，表明其在专业领域的应用。

YOLOv5s所取得的进步体现了目标检测技术在许多领域的更广泛进步，强调了其在众多行业中的重要性。与YOLOv5s等检测算法的持续发展相辅相成的是创建了全面、标注的数据集，这对于训练AI模型至关重要。这些数据集与YOLOv5s在处理大规模检测任务方面的效率相结合，使得可以实现更准确、可靠的目标检测系统。这不仅提高了实时应用中的性能，还在自动驾驶、工业自动化和医疗等领域增强了安全性和运营效率。本文研究深度学习网络，并构建了一个结合提取待检测物体位置信息的定位技术和目标检测算法，以满足不同场景的应用要求。

本文的主要工作包括：

提出了一种结合位置信息和知识提取的检测算法，用于解决图像任务中物体的定位模糊问题。
边界框被转换为概率分布，以便教师模型向学生模型提供更丰富的局部定位知识。
提出了一种基于区域的 selective distillation 策略，根据位置信息在特征图上选择 distillation 区域。

提取特征图中的分类知识与本地化知识，分别独立出来，并将特征图解耦为分类头与本地化头，以进一步改进目标检测的性能。

II related work

深度学习技术的 recent 进步显著影响了目标检测算法，尤其是在优化策略和知识传递机制的开发方面。知识蒸馏 [10-12] 作为一种从大型、经过良好训练的模型向较小模型转移信息的方法，已经出现作为一种改善模型性能同时保持计算效率的有前途的技术 [13]。优化策略的研究已经解决了深度学习模型中常见的降低训练偏差和增强收敛速度等挑战，这两者对于在目标检测中有效应用知识蒸馏至关重要。

深度学习优化的一个关键贡献是关注降低训练过程中的偏差[14]。这些进展使得模型更加可靠和鲁棒，这在应用知识蒸馏到像YOLOv5s这样的小型网络中至关重要。显著增强基于梯度的优化技术显著提高了学生模型的稳定性和性能，确保了从教师模型更有效地传递知识。这直接影响了蒸馏过程的效率，该过程对优化参数（如学习率和动量）非常敏感。

此外，深度学习特征提取方法取得了进展，特别是在卷积神经网络（CNNs）领域，这对于目标检测任务至关重要[15]。有效的特征提取机制使得学生模型能够从教师模型中捕获更多的详细定位和分类知识。近年来，特征提取技术的发展，特别是那些专注于提高空间分辨率的技术，增强了边界框和物体定位的准确性，这是目标检测的一个核心挑战。Yan等人[16]探讨了基于卷积神经网络（CNNs）的图像超分辨率技术，这进一步强调了为增强特征提取而微调深度学习模型的必要性，类似于目标检测模型中定位知识的提取。

将特征提取任务分离为分类和定位任务，这在目标检测模型中得到了探索，与结构化知识蒸馏的创新相吻合[17]。通过隔离这两个方面，学生模型可以获得关于物体放置的更精细的理解，这在实时检测任务中尤为有益。引入选择性蒸馏策略进一步优化了这一过程，通过关注特征图中最有信息量的区域，降低了计算开销，同时最大限度地提高了性能提升。

深度学习领域最近的一项重要工作涉及对比学习（contrastive learning）和混合模型（hybrid models）的应用 [18]，这可以增强小型模型的特征表示，并提高其泛化能力 [19]。这些进步有助于更强大的训练过程，使得学生模型可以在更少的资源下实现更高的准确性 [20]。将这些方法应用到知识蒸馏框架中，确保学生模型保留了教师模型中的关键特征，同时保持计算效率。

III Method

在本节中，作者将介绍结合位置信息蒸馏的提出的目标检测算法。这种方法首先在YOLOv5l和YOLOv5s的多层特征图上选择关键的蒸馏区域和可扩展的位置区域，然后将两个模型的多层特征图分别分离为分类检测Head和定位检测Head，并分别提取分类知识和定位知识。对于分类知识，在分类头[21]上进行知识蒸馏；对于定位知识，重新描述特征图定位头的知识传递过程，并将边界框切换为概率分布。这两种知识提取基于单个头的逻辑，而不是深度特征。网络的整体框架如图1所示。

该模型通过 Backbone 网络处理输入图像，提取多尺度特征。特征金字塔网络（FPN）处理来自YOLOv5l和YOLOv5s模型的多层特征图。在此过程中，通道数增加而特征图尺寸减小。确定了关键蒸馏区域（KDR）和可扩展位置区域（ELR）。接下来，特征图被分为分类和定位检测Head，并在输出处进行自顶向下和自底向上的融合。

在处理特征层时，不同大小的 Anchor 框被配置以预测不同尺寸的目标。接着，输出阶段生成边界框、类别概率和中点，以确定图像内目标的位置和类别。教师和学生模型都应用了非极大值抑制，以消除冗余或重叠的边界框，只保留最可靠的目标预测。教师模型经过知识蒸馏训练以获得最优训练权重。然后，反向传播被用来优化学生网络模型，通过反馈环进行优化。这个过程最终导致了整体蒸馏损失函数的计算，该函数包含了学生模型通过教师模型提供的指导进行优化。

边界框的表示经历了从简单的狄拉克-delta分布到更为精细的高斯分布，再到更为复杂的概率分布的演变过程。这一演变反映了作者对物体形状和位置的变异性的更深入的理解。采用概率分布方法，系统现在可以预测一系列可能性，包括单峰分布、双峰分布，甚至多峰分布。这种高级表示允许同时编码物体的模糊不清的边界和明确的边界。分布的平坦度或尖锐度可以有效地传达物体边缘的不确定性或确定性。因此，位置信息提炼从这种概率方法中受益，因为它现在可以表示模糊的边缘和清晰的边缘，从而为图像中的物体位置提供更丰富、更精确的描述。

对于给定的边界框B，有两种传统的表示方法，分别是{x, y, h, w}和{t, b, l, r}。然而，这两种形式仅关注真实值的位置，无法模拟边界框的歧义。

其中，回归坐标的范围为，为相应的概率。在上面的公式中，当时，=1，否则=0。通过将连续的回归范围量化为均匀离散变量，公式有n个子区间，其中，，每个给定的边使用softmax函数表示为概率分布。因此，边界框的概率分布可以用于衡量预测的不稳定性。整体概要图如图所示：

本文针对COCO数据集进行了标注。这种结构化的方法不仅便于数据处理，而且确保了关键的目标检测特性得到了很好的组织和获取，以便进行全面分析。特别是，链接数据方法支持了将6000张图像有效地分为各自集合，为评估YOLOv5模型的改进提供了强大的框架。这种系统的方法简化了数据集管理，并增强了精确度（P）、mAP和召回率（R）指标的应用，从而使模型的性能验证更加准确和可扩展。图3展示了数据集的一个示例。

Experimental Results

为了研究不同蒸馏温度对学生模型检测性能的影响，本章采用YOLOv5l作为教师网络，YOLOv5s作为学生网络。首先，教师模型进行训练，以达到较高的熟练程度。随后，利用知识蒸馏技术将教师模型学习到的知识传递给学生模型。在蒸馏过程中，软标签和注意力图是主要的知识传递工具。相较于硬标签，软标签提供比硬标签更详细的定位和类别信息，帮助学生模型捕捉更广泛的数据细微差别。注意力图帮助学生网络关注目标的最相关特征，从而提高其学习能力和复制教师熟练程度的能力。

为了评估不同蒸馏温度下的有效性，作者通过调整温度参数进行了实验。这些实验将学生模型在不同温度下训练的性能与原始 Baseline 模型（YOLOv5s网络）进行了比较。实验结果详细说明了不同蒸馏温度对检测准确率和总体性能的影响，这些结果汇总在表2中。这种系统方法允许作者深入分析温度调优如何影响学生模型从教师模型中吸收和应用知识的能力。

根据实验结果，可以看出，在不同蒸馏温度下，作者的模型（Ours-1至Ours-5）与YOLOV5s模型相比，性能得到了显著提升。具体而言，随着蒸馏温度的增加，mAP50从93.21%逐渐提高到96.75%，mAP50-95也从70.21%提高到74.56%，这说明调整蒸馏温度可以有效提高模型识别精度。

在高阈值mAP50-95指数上，作者的模型显示出更强的泛化能力和更稳定的检测效果，比YOLOV5s高出约6.7个百分点，达到67.86%。这一趋势不仅验证了蒸馏策略的有效性，还证明了温度作为超参数的重要性。

总体而言，实验结果表明，通过精确调整蒸馏温度，可以在保持高mAP50的同时，进一步增强模型在不同IoU阈值下的平均准确性，使模型更适合实际应用中的复杂场景，并提供更可靠的检测解决方案。

此外，作者在此提供了训练实验中的相关曲线。

从图4和图5可以看出，作者的模型在大约第150个周期时收敛，这意味着在经过这个训练周期后，模型的性能指标（如损失函数值、准确率等）不再显著改变或改善，表明模型已经学习到了训练数据集中大部分可用的信息。从这个点作者可以推理，在最初的150个周期内：

经过多次迭代（epochs），模型进入了快速学习阶段，其权重不断调整以最小化损失函数并提高训练样本的预测准确性；在第150次迭代左右，学习率显著降低，即使继续增加训练轮数，模型的性能提升也不会太多。这通常是因为模型开始过度拟合训练数据，或者在当前架构下已经达到最优解。

因此，在第150次迭代时停止训练不仅可以避免过拟合的风险，还可以节省计算资源并提高模型训练的效率。

此外，这也提醒作者在未来的工作中可以考虑使用早期停止策略（Early Stopping），即在验证集上的性能停止提升后过早地终止训练，以进一步优化模型训练过程并确保模型具有良好的泛化能力。

通过分析图4和图5，作者不仅确定了模型收敛的具体迭代次数，还为后续模型优化提供了有价值的指导方向。

V Conclusion

本研究通过引入知识蒸馏方法，成功提高了YOLOv5s在目标检测任务中的性能。

特别是在不同的蒸馏温度条件下，观察到了显著的效果差异。实验显示，随着蒸馏温度的升高，学生模型的mAP50和mAP50-95指标均有所提升，最高分别达到96.75%和74.56%，比没有蒸馏的YOLOv5s模型分别高出5.42%和6.7%。

此外，模型的训练曲线表明，在大约150个周期后，学习速率显著放缓，表明模型已达到最佳状态。因此，合理设置蒸馏温度并及时采用早停策略对于避免过拟合、节省计算资源以及提高模型训练效率至关重要。

作者通过整合定位和分类知识，以及创新的基于区域的选择性蒸馏策略，进一步增强了模型在多样化检测场景中的鲁棒性和适应性。

最终，本研究为推进目标检测技术提供了有力的框架，既提供了理论见解，也提出了部署更准确、高效深度学习模型的实际策略，同时为未来通过知识蒸馏技术优化目标检测奠定了坚实的基础。

参考文献

[0]. Optimizing YOLOv5s Object Detection through Knowledge Distillation algorithm.

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

点击下方“阅读原文”，

了解更多AI学习路上的「武功秘籍」

http://mp.weixin.qq.com/s?__biz=MzU5OTA2Mjk5Mw==&mid=2247524689&idx=1&sn=f4e34cc63e22cbf794487ac4a147d2d0

集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

上海AI Lab/北大/港中文提出 AdaptivelSP 学习用于目标检测的自适应图像信号处理器！

快速学会AI核心架构，Transformer！

电子科大提出注意力机制创新，改进 MobileViT变体在早期降采样阶段的注意力 QKV 操作研究！

台湾大学 & 英伟达提出 SAM4MLLM 用于指代表达式分割的增强多模态大语言模型！

清华大学提出 TANet 用于综合恶劣天气图像复原的三重注意网络！

YOLA: 利用 Lambertian 图像形成模型提升低光目标检测性能！

TransformerRanker 高效地为下游分类任务找到最适合的语言模型的工具！

通过重叠头自注意力增强视觉 Transformer 的学习能力！

OWOD：深度神经网络在开放式世界目标检测中的新探索 !

清华大学最新成果 3D 语义占用预测框架 GaussianFormer ！

被导师放养，后果可能很严重。。。

使用 YOLO 加速实时应用程序中的对象检测 !

无需额外训练，基于 Llama-2模型，通过 Model-GLUE 实现大规模语言模型的聚合与集成！

YOLOv8架构的改进：POLO 模型在多类目标检测中的突破 !

DuoDiff: 提升浅层 Transformer 性能的扩散模型，双 Backbone 件扩散模型在图像处理中的应用！

211本二战字节视觉算法岗，拿下70k offer!!!

复旦提出 CTA-Net | 卷积与Transformer的协同，通过轻量级多尺度特征融合提升视觉识别！

YOLO人脸识别与多领域目标检测开源项目练习合集：涵盖人体、交通、医疗、工业等！

优化之路 N-ReliefF 算法指导下的 CNN 超参数调整！

融合 Mamba 与 Transformer | MaskMamba 引领非自回归图像合成,推理速度提升 54.44% !

无需额外标注，SG-MIM 实现高效结构知识引导的 Mask图像建模！

UniMatch V2 推进半监督语义分割极限，以更低训练成本实现更优的语义分割结果！

利用知识蒸馏算法优化 YOLOv5 目标检测！

【集智书童】交流群成立了！

一文读懂 LLM 大模型的可解释性,附代码!

量化挑战下的创新，LayerNorm 计算方法提升 LLMs推理性能！

中科院提出 DA-Ada | 用于域自适应目标检测的学习域感知适配器！

清华再放大招 Stuffed Mamba | 基于RNN的长上下文建模中的状态崩溃与状态容量,实现近完美的 Key 检索 !

中科大提出 D-FINE | 通过 FDR 和 GO-LSD 实现最先进的实时目标检测！

优化 YOLO 架构以实现最佳检测和分类:YOLOv7与YOLOv10 的比较研究！

降低标注成本，ESA 策略利用实体-超像素标注提高语义分割的主动学习效率！

目标检测开源项目合集！包含基于YOLOv5/v7/v8的人脸识别到车牌检测、交通标识检测、驾驶行为检测等！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

课程升级、资源加码！万人共学的书生大模型实战营第4期正式起航！

物体状态识别数据集 Changelt-Frames，评估了九个开源 VLM 对物体状态变化的识别能力！

2080Ti 也能跑起来，Transtreaming 用于实时流感知的自适应延迟感知Transformer !

上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究！

CAMOT 摄像机角度感知多目标跟踪 !

超越SOTA ！ YOLOv8-ResCBAM 集成注意力机制以提高检测性能！

快速学会登上nature的热门算法，LSTM！

0.26M 参数，0.483 GFLOPs，EfficientCrackNet 轻量级检测模型！

Grad-CAM 可视化下的 LADD 精确捕捉图像中物体的位置 !

北京大学 | 基于多模态大语言模型的可解释图像篡改检测定位！

COCO-0cc 闭合全景分割和图像理解的基准，遮挡感知全图分割！

UDA框架下的模型合并策略，分割任务中无监督域适应的分层模型合并！

一种轻量级深度学习模型，在IoT设备上的实时行人检测！

汇总82个即插即用模块｜随便一个即可完成涨点任务！

FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

用于时态动作检测的预测反馈 DETR !

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

利用知识蒸馏算法优化 YOLOv5 目标检测 ！

I Introduction

II related work

III Method

Experimental Results

V Conclusion

参考文献

利用知识蒸馏算法优化 YOLOv5 目标检测！