LCCL网络：相互指导博弈来提升目标检测精度（附源代码）

科技科技 2024-09-02 11:44 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://openaccess.thecvf.com/content/ACCV2020/papers/Zhang_Localize_to_Classify_and_Classify_to_Localize_Mutual_Guidance_in_ACCV_2020_paper.pdf

源代码地址：https://github.com/ZHANGHeng19931123/MutualGuide

计算机视觉研究院专栏

Column of Computer Vision Institute

目标检测一般包括分类和回归两个子任务。在模型训练的过程中，我们依据回归任务的预测结果动态分配分类任务的标签，同时利用分类任务的预测结果来分配回归任务的标签，以此达到相互指导、左右互搏的效果。

一、背景

有监督的目标检测是计算机视觉中的一项流行任务，旨在通过边界框定位目标并将它们中的每一个分配给预定义的类。基于深度学习的方法在很大程度上主导了这个研究领域，最近的方法都是基于Anchor机制的。Anchors是在整个图像上均匀堆叠的不同大小和纵横比的预定义参考框。它们通过将目标检测问题转换为基于Anchor的边界框回归和分类问题，帮助网络处理目标尺寸和形状变化。大多数最先进的基于Anchor的目标检测器采用预定义的Anchor boxes和GT框（以下称为 IoU-anchor）之间的交集（IoU）来将样本Anchor分配给目标（正样本Anchor）或背景（负样本Anchor）类别。然后使用这些分配的Anchors来最小化训练期间的边界框回归和分类损失。

Anchor A和Anchor B与框GT具有相同的IoU，但具有不同的视觉语义信息。每个图像中的真实情况标记为虚线框。

基于深度学习的目标检测涉及两个子任务：实例定位和分类。这两个任务的预测分别告诉我们图像上的“位置”和“什么”目标。在训练阶段，两个任务都通过梯度下降联合优化，但是静态Anchor匹配策略并没有明确受益于两个任务的联合解决方案，这可能会导致任务错位问题，即在评估阶段，该模型可能会生成具有正确分类但不精确定位的边界框的预测，以及具有精确定位但错误分类的预测。这两种预测都显着降低了整体检测质量。

二、前言

为了解决现有基于IoU-anchor策略的这两个局限性，研究者提出了一种新的自适应Anchor匹配准则，由定位和分类任务相互指导，动态分配训练Anchor样本为优化分类，反之亦然。特别是，将定位良好的Anchor限制为也很好分类（定位到分类），以及那些分类良好的Anchor也很好定位（分类到定位）。这些策略导致内容/上下文敏感的Anchor匹配并避免任务错位问题。尽管所提出的策略很简单，但在PASCAL VOC和MS COCO数据集上，尤其是在严格的指标（如AP75）上，Mutual Guidance与具有不同深度学习架构的传统静态策略相比，带来了一致的平均精度 (AP) 增益。

新提出的方法有望在需要精确实例定位的应用程序上更有效，例如自动驾驶、机器人、户外视频监控等。

三、新框架

传统的Anchor通常是预先定义了一组Anchor的aspect ratio，在实际的滑窗训练过程中先用二分类模型判断这些Anchor的框内有没有物体，并根据设定的阈值将sample标注为positive或者negative或者ignored，然后进行bonding box回归进行refine，最后做多分类再回归调整位置。

这里作者将预定义的Anchor和GT的IoU叫做IoU-anchor，IoU-anchor大于50%的作为positive，小于40%作为negative，其他作为ignored samples。如果没有Anchor的大于50%，那就选最大的IoU的那个作为positive。如下图所示：

定位到分类（Localize to Classify）

动态设置述分类方法中正负样本的阈值。因为随着训练进行，正样本变多（因为二分类模型能力逐渐增强，但是阈值没变），作者认为这样会导致训练不稳定。

于是作者将拟将分类模型的分类能力纳入阈值设置考量范围以动态设置阈值：在根据IoU-regressed标注确定正负样本的时候不再直接采用固定阈值，而是根据IoU-anchor中的正样本数量n来选取IoU-regressed的前n个样本标注为positive，其他negative和ignored同理。

这种策略能够随着定位能力提高而提高，同时也保持了训练过程中正负样本分配的一致性！

分类到定位（Classify to localize）

在分类早期，模型处于初始状态，大多数分类的结果都接近于0，存在类似于推荐系统的冷启动问题同时也可能使得训练不稳定，所以研究者定义了一个Classify to localize的策略来避免这种问题。

首先作者定义了一个IoU-amplified用于替换传统的IoU-regressed，其表达式如下:

其中σ是超参用于调整的增强系数，p是分类得分。此外，这一部分也采用了类似于前面定位到分类部分动态阈值设置的策略来设置这里的正样本阈值。

显然开始时与GT的iou较大的anchor box置信度一般更高，被选中的概率也更高；当iou相同时，置信度p较高的anchor得到的IOUamplified也更大。上图的第四列是直接预测的置信度，第五列是amplified之后的score。可以发现amplified后的结果与iou和p都有关。

IoU-amplifed总是高于IoU-anchor，并且amplification与预测的Classif分数成正比。特别是σ越小amplification越强（注意σ要大于1），σ变大时就消失。

通过这种交互作用，训练过程能够让回归好分类差的Anchor尽可能地提升分类精度，同样让分类好但回归差的Anchor尽可能地提升回归精度，从而一定程度解决 task-misalignment问题。

四、实验及可视化

训练阶段标签分配差异的可视化（图像大小设置为320×320像素）。红色、黄色和绿色Anchor框分别是由基于IoU-anchor、Localize to Classify和Classify to Localize分配的正样本Anchor。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247537724&idx=1&sn=0fe2305a7368171c87f0b2fdc7f33d4a

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

Drone-YOLO：一种有效的无人机图像目标检测

26申博时间规划！别再按老套路来了，没用

“计算机视觉研究院”商务合作

一文读懂模型的可解释性（附代码）

首个快速知识蒸馏的视觉框架：ResNet50 80.1%精度，训练加速30%

劲爆！YOLOv6又快又准的目标检测框架开源啦（附源代码下载）

今天面试了一个字节女生，当场想给她offer

三区idea最后发了顶会！

特别小的目标检测识别（附论文下载）

基于Transformer的跨模态3D点云目标检测SOTA！易复现！

NeurIPS 2024 | 消除多对多问题，清华提出大规模细粒度视频片段标注新范式VERIFIED

“计算机视觉研究院”商务合作

机场项目：解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题

不需要标注了？看自监督学习框架如何助力目标检测

RestoreDet：低分辨率图像中目标检测

目标检测创新：一种基于区域的半监督方法，部分标签即可（附原论文下载）

又快又准，即插即用！清华8比特量化Attention，两倍加速于FlashAttention2，各端到端任务均不掉点！

MIT韩松团队长上下文LLM推理高效框架DuoAttention：单GPU实现330万Token上下文推理

50K*16薪，进字节了！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

“计算机视觉研究院”商务合作

RestoreDet：低分辨率图像中目标检测

CVPR’24｜PanoOcc基于相机的3D全景分割最强SOTA！

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

245个目标检测开源项目合集，建议收藏！

“计算机视觉研究院”商务合作

完爆YOLO家族？新一代目标检测器又有新突破！

NeurIPS 2024 Oral | 小参数，大作为！揭秘非对称 LoRA 架构的高效性能

YOLO-SLD：一种改进的注意机制YOLO车牌检测

“计算机视觉研究院”商务合作

欢迎加入“计算机视觉研究院”学习群

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

Kaggle金牌和CCF A一作哪个更有用？

“计算机视觉研究院”商务合作

发论文别太老实，用对方法一年三篇SCI！

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世了

大规模参数的更强、更鲁棒的视觉基础模型

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

VB-LoRA高效登顶！仅需0.4%参数量，极限超越LoRA！

这篇论文非常火！差分Transformer竟能消除注意力噪声，犹如降噪耳机

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

LCCL网络：相互指导博弈来提升目标检测精度（附源代码）

定位到分类（Localize to Classify）

分类到定位（Classify to localize）