【魔改YOLO系列】无源域自适应YOLO目标检测

科技 2024-11-13 10:06 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息

题目：Source-Free Domain Adaptation for YOLO Object Detection

无源域自适应YOLO目标检测

作者：Simon Varailhon, Masih Aminbeidokhti, Marco Pedersoli, Eric Granger

源码：https://github.com/vs-cv/sf-yolo

论文创新点

无源YOLO (SF-YOLO) 方法：作者提出了第一个专门针对单阶段YOLO检测器的SFDA方法，为实际实时应用的未来研究建立了基线。这种方法利用了一个教师-学生框架以及一个学习到的、特定于靶域的数据增强模块，允许模型仅使用未标记的靶域数据进行训练，而不需要特征对齐。
学生稳定模块 (SSM)：为了减轻在没有标记数据的情况下使用均值教师范式进行训练时的不稳定性及相关的准确度下降，作者提出了一个新颖的学生稳定模块（SSM）。这个模块提供了从教师到学生的新通信渠道，增强了训练稳定性，减少了对标记靶域数据进行模型选择的依赖。
与现有知识保持技术的兼容性：作者通过广泛的实验展示了SSM与现有知识保持技术的兼容性。SSM特别适用于无源（无监督）学习场景，其中无法访问源数据或靶域的标记数据，以确保模型的稳定性并防止训练过程中的显著漂移。
跨不同模型大小的有效性：作者不仅在YOLOv5l上进行了实验，还在较小版本的YOLOv5s上验证了他们的方法，证明了SSM在提高模型性能和稳定性方面的有效性是跨不同模型大小的。

摘要

无源域自适应（SFDA）是目标检测中的一个挑战性问题，其中预先训练的源模型被适配到新的靶域，而出于隐私和效率原因不使用任何源域数据。大多数最先进的SFDA方法都是针对Faster-RCNN提出的，这是一个已知计算复杂度高的检测器。本文关注于实际视觉系统中的域自适应技术，特别是针对以快速基线和实际应用而闻名的YOLO家族的单次检测器。我们提出的SFDA方法——无源YOLO（SF-YOLO）——依赖于教师-学生框架，其中学生接收带有学习到的、特定于靶域的增强的图像，允许模型仅使用未标记的靶域数据进行训练，而不需要特征对齐。在没有标签的情况下使用均值教师架构进行自训练的挑战是，由于噪声或漂移的伪标签，准确度会迅速下降。为了解决这个问题，引入了一种教师到学生的通信机制，以帮助稳定训练并减少对标记靶域数据进行模型选择的依赖。尽管方法简单，但作者的方法在几个具有挑战性的基准数据集上与最先进的检测器具有竞争力，有时甚至超过了使用源数据进行适配的方法。

关键词

无源域自适应 · 目标检测 · YOLO

3 提出的方法

设表示源域中的标记数据，其中表示源域的图像集合，是相应的标签集，包含每个图像中对象的位置和类别分配。表示源图像的总数。靶域是未标记的，表示该域的图像。在SFDA中，最初可用的源预训练模型表示为，以在未标记的靶域上执行适配。然而，由于源和靶域之间的域偏移，当直接将应用于靶域时，映射性能会下降。因此，SFDA的主要目标是学习一个新的映射，通过仅使用未标记的靶数据来适配预训练的源模型。使用均值教师范式，教师定义为，学生定义为模型，从源模型即预训练的YOLOv5架构实例化。因此，训练损失可以表示为：

其中和分别表示分类和边界框回归损失，而对应于与对象存在信心相关的客观性损失。项是控制整体检测损失中每个损失组件相对重要性的超参数。我们的框架分为两个步骤。首先，训练一个目标增强模块来学习特定于靶域的数据增强。然后，我们使用增强的图像来训练具有均值教师范式的学生模型。学生模型逐渐将其获得的知识蒸馏到通过指数移动平均（EMA）学习的老师模型。我们还引入了学生稳定模块（SSM），它有效地稳定了训练过程，从而提高了整体性能。该框架在推理期间不会增加基本检测器的复杂性。对于许多实时应用来说，这是一个重要因素。SF-YOLO的整体训练架构如图1所示，详细说明在算法1中。本节的其余部分描述了我们方法的主要组件。

(a) 目标增强模块。在典型的自训练中，使用教师-学生框架，教师和学生模型采用不同的图像视图作为输入，以非平凡地最大化互信息。具体来说，教师模型接收弱增强图像作为输入，而学生模型被馈送强增强图像。在这里，我们不是生成随机的强-弱增强对，而是使用一个名为“目标增强模块”（TAM）的网络来学习适当的增强。这种增强模块让人想起LODS方法[37]中的风格增强模块，主要区别在于动机。在我们的情况下，我们使用增强模块来丰富靶域，而在LODS中，他们使用风格增强模块来学习忽略靶域风格。这里我们简要概述了TAM的主要架构。假设我们有一个来自靶域的图像，表示为，和一个风格图像，它代表如果背景相似，所有靶域图像的平均值，或者一个随机靶域图像。TAM根据风格图像统计信息转换输入图像，遵循风格迁移公式[22]：

其中和分别是和的VGG-16编码特征。和(\sigma(e_x)e_xe_yF_1F_2xy$的均值和方差的神经网络。我们遵循Li等人[37]的F1和F2架构。TAM通过最小化风格一致性和重建损失进行训练。

(b) 与教师知识一致性学习。对于来自靶域的每个数据点，我们从教师模型获得分类分数、边界框回归和置信度，并将其用作伪标签通过反向传播训练学生模型。然而，直接从学习可能导致过拟合到教师模型。为了解决这个问题，我们引入了一个一致性损失，包括三个步骤。首先，我们通过设置分类置信度阈值来过滤教师模型的低置信度预测。这可以防止后续过程受到噪声标签的干扰。接下来，我们使用TAM增强，并训练学生模型与增强样本的硬标签保持一致。第三，学生逐渐将其获得的知识蒸馏到通过指数移动平均（EMA）学习的教师模型：

其中是EMA动量参数。

(c) 学生稳定模块。注意，教师从未直接观察增强图像，这些图像可能常常是不切实际的。相反，它只处理真实的目标图像。因此，我们的方法与均值教师和噪声学生范式[52]相似。然而，由于学生模型学习更快，它更容易犯错。在更新教师之后，这些错误反映在伪标签生成中，导致噪声更大的伪标签，这可能会降低其余训练的性能。为了减轻这些错误的影响，我们引入了学生稳定模块（SSM）。正如我们使用目标增强均值教师框架的初始实验所示（见图2），尽管EMA和学习增强有助于提高学生模型的性能，但结果会迅速恶化到学生模型的性能几乎像随机检测器一样的程度。我们假设，由于学生模型在使用SGD后每个批次更新得更快，因此更有可能犯错。尽管EMA更新的教师最初可以防止学生过拟合，但可能不足以稳定训练。作为一种补救措施，我们在每个时代结束时，也使用教师模型的EMA更新学生权重：

其中是SSM动量参数。这种方法将学生模型限制在教师模型附近，保持了伪标签的质量，并防止了过大的偏差。

(d) 训练和推理。SF-YOLO的整体学习过程总结在图1和算法1中。用于推理的适应教师模型，比未看到任何未经修改的靶域图像的学生模型学到了更鲁棒的靶域表示。最终模型保持了原始YOLO架构的速度和兼容性优势。

4 结果和讨论

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570586&idx=2&sn=51a73feb16c7f2bfc9a58249031be5db

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

【魔改YOLO系列】无源域自适应YOLO目标检测

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”论文信息

论文信息

题目：Source-Free Domain Adaptation for YOLO Object Detection

无源域自适应YOLO目标检测

作者：Simon Varailhon, Masih Aminbeidokhti, Marco Pedersoli, Eric Granger

源码：https://github.com/vs-cv/sf-yolo

论文创新点

摘要

关键词

3 提出的方法

4 结果和讨论

声明

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”
论文信息