收藏 | 目标检测回归损失函数总结

科技 2024-11-11 10:05 中国香港

点击下方“深度学习爱好者”，选择加p"星标"或“置顶”

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：作者丨何杰文@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/422104433

编辑丨极市平台

演进路线：Smooth L1->IoU->GIoU->DIoU->CIoU->EIOU Loss

Smooth L1 Loss

【动机】 Smooth L1 Loss完美的避开了L1和L2 Loss的缺点

L1 Loss的问题：损失函数对x的导数为常数，在训练后期，x很小时，如果learning rate 不变，损失函数会在稳定值附近波动，很难收敛到更高的精度。
L2 Loss的问题：损失函数对x的导数在x值很大时，其导数也非常大，在训练初期不稳定。

【分析】

SmoothL1对x的导数为：

实际使用时：

其中表示真实框坐标，表示预测的框坐标，即分别求4个点的loss，然后相加作为Bounding Box Regression Loss。

三种loss的曲线图如图所示，可以看到Smooth L1相比L1的曲线更加的Smooth

【不足】 Smooth L1 Loss在计算目标检测的 bbox loss时，都是独立的求出4个点的 loss，然后相加得到最终的 bbox loss。这种做法的默认4个点是相互独立的，与实际不符。举个例子，当(x, y)为右下角时，w h其实只能取0。

IoU Loss（2016）

论文地址：https://arxiv.org/pdf/1608.01471.pdf

【动机】 针对smooth L1没有考虑box四个坐标之间相关性的缺点，

【分析】 通过4个坐标点独立回归Building boxes的缺点：

检测评价的方式是使用IoU,而实际回归坐标框的时候是使用4个坐标点，如下图所示，是不等价的；L1或者L2 Loss相同的框，其IoU 不是唯一的；
通过4个点回归坐标框的方式是假设4个坐标点是相互独立的，没有考虑其相关性，实际4个坐标点具有一定的相关性；
基于L1和L2的距离的loss对于尺度不具有不变性；

图(a)中的三组框具有相同的L2 Loss，但其IoU差异很大；图（b）中的三组框具有相同的L1 Loss,但IoU 同样差异很大，说明L1,L2这些Loss用于回归任务时，不能等价于最后用于评测检测的IoU.

Ious Loss公式

IoU Loss定义如下：

实际使用中简化为：

【不足】

当预测框和目标框不相交，即 IoU(bbox1, bbox2)=0 时，不能反映两个框距离的远近，此时损失函数不可导，IoU Loss 无法优化两个框不相交的情况。
假设预测框和目标框的大小都确定，只要两个框的相交值是确定的，其 IoU 值是相同时，IoU 值不能反映两个框是如何相交的。

GIOU Loss（2019）

论文地址：https://arxiv.org/abs/1902.09630

代码地址：https://github.com/generalized-iou/g-darknet

【动机】 解决IoU Loss没有考虑两个框是如何相交

【分析】

GIoU定义如下：

实际使用时：

GIoU 取值范围为 [-1, 1]，在两框重合时取最大值1，在两框无限远的时候取最小值-1；
与 IoU 只关注重叠区域不同，GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。

【实验】 GIoU Loss，在单阶段检测器YOLO v1涨了2个点，两阶段检测器涨点相对较少（原因分析：RPN的box比较多，两个框未相交的数量相对较少）

【不足】 当真实框完全包裹预测框的时候，IoU 和 GIoU 的值都一样，此时 GIoU 退化为 IoU, 无法区分其相对位置关系。

DIoU Loss（2019）

论文地址：https://arxiv.org/pdf/1911.08287.pdf

代码链接：https://github.com/Zzh-tju/DIoU

【动机】 解决GIoU Loss缺点当真实框完全包裹预测框的时候，IoU 和 GIoU 的值都一样，引入距离

【分析】

基于IoU和GIoU存在的问题，作者提出了两个问题：

第一：直接最小化预测框与目标框之间的归一化距离是否可行，以达到更快的收敛速度。
第二：如何使回归在与目标框有重叠甚至包含时更准确、更快。

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。

针对问题一，作者提出了DIoU Loss,相对于GIoU Loss收敛速度更快，该Loss考虑了重叠面积和中心点距离，但没有考虑到长宽比；
针对问题二，作者提出了CIoU Loss，其收敛的精度更高，以上三个因素都考虑到了。

DIoU Loss 的定义如下：

其中表示预测框和真实框中心点欧氏距离，c表示预测框和真实框最小外界矩形的对角线距离，如下图所示：

绿色框为真实框，黑色框为预测框，灰色框为两者的最小外界矩形框，d表示真实框和预测框的中心点距离，c表示最小外界矩形框的距离。

当2个框完全重合时，

当2个框不相交时：

【不足】 边框回归的三个重要几何因素：重叠面积、中心点距离和长宽比，DIoU 没有包含长宽比因素。

CIoU Loss（2019）

论文地址：https://arxiv.org/pdf/1911.08287.pdf

代码地址：https://github.com/Zzh-tju/DIoU-darknet

【动机】 解决DIoU loss没有包含长宽比因素的不足

【分析】

CIoU的惩罚项是在DIoU的惩罚项基础上加了一个影响因子。

CIoU Loss定义为：

其中，

用于做trade-off的参数

【实验】

上表中左边是用5种不同Boudning Box Regression Loss Function的对比，右边是以IoU和GIoU来计算的2种Evaluation的结果；GIoU相对IoU会有2.49点提升，DIoU相对IoU会有3.29点提升，CIoU会有大概5.67点提升，CIoU结合DIoU-NMS使用效果最好，大概会有5.91点提升。

【不足】 在CIoU的定义中，衡量长宽比过于复杂，从两个方面减缓了收敛速度

长宽比不能取代单独的长宽，比如都会导致v=0；
从v的导数可以得到，这说明和在优化中意义相反。

EIoU Loss（2021）

论文地址：https://arxiv.org/pdf/2101.08158.pdf

【动机】 解决CIoU的定义中不足

【亮点】 引入了解决样本不平衡问题的Focal Loss思想

【分析】

将CIoU的取代为

EIoU Loss的定义为：

Focal-EIoU Loss的定义为：

focal loss可以理解为对损失加权，常见的分类focal loss为：

最后得到：

【实验】 论文首先尝试直接将EIoU带入，但是效果不好，仅供思路参考，

总结：

好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比， 对边框间的物理描述愈发准确。
注意，使用时各种Loss算法的各个模块之间的配合，例如IoU Loss与NMS算法的组合。

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247570547&idx=2&sn=ab52953abb1f6dd7ede4693717adee28

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉