IoU、GIoU、DIoU、CIoU损失函数的那点事儿

科技 2024-11-06 10:06 辽宁

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

一、IOU(Intersection over Union)

1. 特性(优点)

IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchor-based的方法，https://zhuanlan.zhihu.com/p/62372897中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和ground-truth的距离。

可以说它可以反映预测检测框与真实检测框的检测效果。
还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。(满足非负性；同一性；对称性；三角不等性)


import numpy as npdef Iou(box1, box2, wh=False):    if wh == False:  xmin1, ymin1, xmax1, ymax1 = box1  xmin2, ymin2, xmax2, ymax2 = box2    else:  xmin1, ymin1 = int(box1[0]-box1[2]/2.0), int(box1[1]-box1[3]/2.0)  xmax1, ymax1 = int(box1[0]+box1[2]/2.0), int(box1[1]+box1[3]/2.0)  xmin2, ymin2 = int(box2[0]-box2[2]/2.0), int(box2[1]-box2[3]/2.0)  xmax2, ymax2 = int(box2[0]+box2[2]/2.0), int(box2[1]+box2[3]/2.0)    # 获取矩形框交集对应的左上角和右下角的坐标（intersection）    xx1 = np.max([xmin1, xmin2])    yy1 = np.max([ymin1, ymin2])    xx2 = np.min([xmax1, xmax2])    yy2 = np.min([ymax1, ymax2])    # 计算两个矩形框面积    area1 = (xmax1-xmin1) * (ymax1-ymin1)    area2 = (xmax2-xmin2) * (ymax2-ymin2)    inter_area = (np.max([0, xx2-xx1])) * (np.max([0, yy2-yy1]))　#计算交集面积    iou = inter_area / (area1+area2-inter_area+1e-6) 　#计算交并比
    return iou

2. 作为损失函数会出现的问题(缺点)

如果两个框没有相交，根据定义，IoU=0，不能反映两者的距离大小（重合度）。同时因为loss=0，没有梯度回传，无法进行学习训练。
IoU无法精确的反映两者的重合度大小。如下图所示，三种情况IoU都相等，但看得出来他们的重合度是不一样的，左边的图回归的效果最好，右边的最差。

二、GIOU(Generalized Intersection over Union)

1、来源

在CVPR2019中，论文

《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》
https:arxiv.org/abs/1902.09630

的提出了GIoU的思想。由于IoU是比值的概念，对目标物体的scale是不敏感的。然而检测任务中的BBox的回归损失(MSE loss, l1-smooth loss等）优化和IoU优化不是完全等价的，而且 Ln 范数对物体的scale也比较敏感，IoU无法直接优化没有重叠的部分。

这篇论文提出可以直接把IoU设为回归的loss。

上面公式的意思是：先计算两个框的最小闭包区域面积_ _(通俗理解：同时包含了预测框和真实框的最小框的面积)，再计算出IoU，再计算闭包区域中不属于两个框的区域占闭包区域的比重，最后用IoU减去这个比重得到GIoU。

附：

https://github.com/generalized-iou/g-darknet

2、特性[1]

与IoU相似，GIoU也是一种距离度量，作为损失函数的话， ,满足损失函数的基本要求
GIoU对scale不敏感
GIoU是IoU的下界，在两个框无线重合的情况下，IoU=GIoU
IoU取值[0,1]，但GIoU有对称区间，取值范围[-1,1]。在两者重合的时候取最大值1，在两者无交集且无限远的时候取最小值-1，因此GIoU是一个非常好的距离度量指标。
与IoU只关注重叠区域不同，GIoU不仅关注重叠区域，还关注其他的非重合区域，能更好的反映两者的重合度。


def Giou(rec1,rec2):    #分别是第一个矩形左右上下的坐标    x1,x2,y1,y2 = rec1    x3,x4,y3,y4 = rec2    iou = Iou(rec1,rec2)    area_C = (max(x1,x2,x3,x4)-min(x1,x2,x3,x4))*(max(y1,y2,y3,y4)-min(y1,y2,y3,y4))    area_1 = (x2-x1)*(y1-y2)    area_2 = (x4-x3)*(y3-y4)    sum_area = area_1 + area_2
    w1 = x2 - x1   #第一个矩形的宽    w2 = x4 - x3   #第二个矩形的宽    h1 = y1 - y2    h2 = y3 - y4    W = min(x1,x2,x3,x4)+w1+w2-max(x1,x2,x3,x4)    #交叉部分的宽    H = min(y1,y2,y3,y4)+h1+h2-max(y1,y2,y3,y4)    #交叉部分的高    Area = W*H    #交叉的面积    add_area = sum_area - Area    #两矩形并集的面积
    end_area = (area_C - add_area)/area_C    #闭包区域中不属于两个框的区域占闭包区域的比重    giou = iou - end_area    return giou

三、DIoU(Distance-IoU)[2]

1、来源

DIoU要比GIou更加符合目标框回归的机制，将目标与anchor之间的距离，重叠率以及尺度都考虑进去，使得目标框回归变得更加稳定，不会像IoU和GIoU一样出现训练过程中发散等问题。论文中

Distance-IoU
https://arxiv.org/pdf/1911.08287.pdf

基于IoU和GIoU存在的问题，作者提出了两个问题：
1. 直接最小化anchor框与目标框之间的归一化距离是否可行，以达到更快的收敛速度？
2. 如何使回归在与目标框有重叠甚至包含时更准确、更快？

其中，，分别代表了预测框和真实框的中心点，且代表的是计算两个中心点间的欧式距离。代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。

DIoU中对anchor框和目标框之间的归一化距离进行了建模

附：

YOLOV3 DIoU GitHub项目地址
https//github.com/Zzh-tju/DIoU-darknet

2、优点

与GIoU loss类似，DIoU loss（）在与目标框不重叠时，仍然可以为边界框提供移动方向。
DIoU loss可以直接最小化两个目标框的距离，因此比GIoU loss收敛快得多。
对于包含两个框在水平方向和垂直方向上这种情况，DIoU损失可以使回归非常快，而GIoU损失几乎退化为IoU损失。
DIoU还可以替换普通的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效。

实现代码：[3]


def Diou(bboxes1, bboxes2):    rows = bboxes1.shape[0]    cols = bboxes2.shape[0]    dious = torch.zeros((rows, cols))    if rows * cols == 0:#        return dious    exchange = False    if bboxes1.shape[0] > bboxes2.shape[0]:        bboxes1, bboxes2 = bboxes2, bboxes1        dious = torch.zeros((cols, rows))        exchange = True    # #xmin,ymin,xmax,ymax->[:,0],[:,1],[:,2],[:,3]    w1 = bboxes1[:, 2] - bboxes1[:, 0]    h1 = bboxes1[:, 3] - bboxes1[:, 1]    w2 = bboxes2[:, 2] - bboxes2[:, 0]    h2 = bboxes2[:, 3] - bboxes2[:, 1]        area1 = w1 * h1    area2 = w2 * h2
    center_x1 = (bboxes1[:, 2] + bboxes1[:, 0]) / 2     center_y1 = (bboxes1[:, 3] + bboxes1[:, 1]) / 2     center_x2 = (bboxes2[:, 2] + bboxes2[:, 0]) / 2    center_y2 = (bboxes2[:, 3] + bboxes2[:, 1]) / 2
    inter_max_xy = torch.min(bboxes1[:, 2:],bboxes2[:, 2:])    inter_min_xy = torch.max(bboxes1[:, :2],bboxes2[:, :2])    out_max_xy = torch.max(bboxes1[:, 2:],bboxes2[:, 2:])    out_min_xy = torch.min(bboxes1[:, :2],bboxes2[:, :2])
    inter = torch.clamp((inter_max_xy - inter_min_xy), min=0)    inter_area = inter[:, 0] * inter[:, 1]    inter_diag = (center_x2 - center_x1)**2 + (center_y2 - center_y1)**2    outer = torch.clamp((out_max_xy - out_min_xy), min=0)    outer_diag = (outer[:, 0] ** 2) + (outer[:, 1] ** 2)    union = area1+area2-inter_area    dious = inter_area / union - (inter_diag) / outer_diag    dious = torch.clamp(dious,min=-1.0,max = 1.0)    if exchange:        dious = dious.T    return dious

四、CIoU(Complete-IoU)

论文考虑到bbox回归三要素中的长宽比还没被考虑到计算中，因此，进一步在DIoU的基础上提出了CIoU。其惩罚项如下面公式：

其中是权重函数，

而用来度量长宽比的相似性，定义为

完整的 CIoU 损失函数定义：

最后，CIoU loss的梯度类似于DIoU loss，但还要考虑的梯度。在长宽在的情况下，的值通常很小，会导致梯度爆炸，因此在实现时将替换成1。[4]

实现代码：[5]


def bbox_overlaps_ciou(bboxes1, bboxes2):    rows = bboxes1.shape[0]    cols = bboxes2.shape[0]    cious = torch.zeros((rows, cols))    if rows * cols == 0:        return cious    exchange = False    if bboxes1.shape[0] > bboxes2.shape[0]:        bboxes1, bboxes2 = bboxes2, bboxes1        cious = torch.zeros((cols, rows))        exchange = True
    w1 = bboxes1[:, 2] - bboxes1[:, 0]    h1 = bboxes1[:, 3] - bboxes1[:, 1]    w2 = bboxes2[:, 2] - bboxes2[:, 0]    h2 = bboxes2[:, 3] - bboxes2[:, 1]
    area1 = w1 * h1    area2 = w2 * h2
    center_x1 = (bboxes1[:, 2] + bboxes1[:, 0]) / 2    center_y1 = (bboxes1[:, 3] + bboxes1[:, 1]) / 2    center_x2 = (bboxes2[:, 2] + bboxes2[:, 0]) / 2    center_y2 = (bboxes2[:, 3] + bboxes2[:, 1]) / 2
    inter_max_xy = torch.min(bboxes1[:, 2:],bboxes2[:, 2:])    inter_min_xy = torch.max(bboxes1[:, :2],bboxes2[:, :2])    out_max_xy = torch.max(bboxes1[:, 2:],bboxes2[:, 2:])    out_min_xy = torch.min(bboxes1[:, :2],bboxes2[:, :2])
    inter = torch.clamp((inter_max_xy - inter_min_xy), min=0)    inter_area = inter[:, 0] * inter[:, 1]    inter_diag = (center_x2 - center_x1)**2 + (center_y2 - center_y1)**2    outer = torch.clamp((out_max_xy - out_min_xy), min=0)    outer_diag = (outer[:, 0] ** 2) + (outer[:, 1] ** 2)    union = area1+area2-inter_area    u = (inter_diag) / outer_diag    iou = inter_area / union    with torch.no_grad():        arctan = torch.atan(w2 / h2) - torch.atan(w1 / h1)        v = (4 / (math.pi ** 2)) * torch.pow((torch.atan(w2 / h2) - torch.atan(w1 / h1)), 2)        S = 1 - iou        alpha = v / (S + v)        w_temp = 2 * w1    ar = (8 / (math.pi ** 2)) * arctan * ((w1 - w_temp) * h1)    cious = iou - (u + alpha * ar)    cious = torch.clamp(cious,min=-1.0,max = 1.0)    if exchange:        cious = cious.T    return cious

五、损失函数在YOLOv3上的性能(论文效果)

目标检测算法之AAAI 2020 DIoU Loss 已开源(YOLOV3涨近3个点)
https://cloud.tencent.com/developer/article/1558533

参考

https://zhuanlan.zhihu.com/p/57863810
DIoU参考 https://mp.weixin.qq.com/s/7E2xG1LUQZGWvUee1llmsA
DIOU代码实现 https://blog.csdn.net/TJMtaotao/article/details/103317267
AAAI 2020 | DIoU 和 CIoU：IoU 在目标检测中的正确打开方式 https://bbs.cvmart.net/articles/1396
https://blog.csdn.net/TJMtaotao/article/details/103317267

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。
下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569725&idx=3&sn=bfc274ff90a3e2bf0873194f7c84f323

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

独自一人，怒发顶会！！

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

【魔改Mamba系列】CAMS: 基于Mamba的无卷积和无注意力的图像分割

特征选择的通俗讲解！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

【魔改Mamba系列】RemoteDet-Mamba：用于遥感图像中多模态目标检测的混合Mamba-CNN网络

kaggle图像分割实战要点与技巧总结

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

一篇文章梳理清楚 Python 多线程与多进程

【魔改Mamba系列】混合Mamba算法在少样本分割中的应用

知识蒸馏综述：蒸馏机制

招生信息 | 墨尔本大学计算与信息系统学院 Dr. Ting Dang 诚招博士生

【魔改Mamba系列】DSDFormer: 一种创新的Transformer-Mamba框架，用于鲁棒高精度驾驶员分心识别

图像处理——过程全解析，配图超详细！

博士招生 | 埃默里大学计算机科学系Dr. Guo Zhichun实验室博士生招生

【魔改YOLO系列】无源域自适应YOLO目标检测

一博士狂编200多篇SCI发表，被揭发后畏罪自杀...网友：堪称史诗级学术骗局！

大模型经典著作《大语言模型基础与前沿》

博士招生 | UIUC 计算机科学系实验室博士生、博士后招募

收藏 | 半监督目标检测相关方法总结

【魔改Mamba系列】MambaSOD：双Mamba驱动的跨模态融合网络用于RGB-D显著目标检测

收藏 | 目标检测回归损失函数总结

深度学习模型参数量/计算量和推理速度计算

去他的顶会顶刊！我就想发个论文毕个业！

【魔改Mamba系列】Sigma: 用于多模态语义分割的孪生Mamba网络

有哪些深度学习效果不如传统方法的经典案例？

【Mamba前沿网络】SUM: 通过Mamba实现显著性统一以建模视觉注意力

小样本学习只是一场学术界自嗨吗？

一篇适合新手的深度学习综述！

【Mamba网络前沿】混合Transformer-Mamba网络用于单图像去雨

为什么 Batch Normalization 那么有用？

薛定谔的准确率：PyTorch随机数引发的可复现性陷阱

【魔改YOLO系列】Infra-YOLO：实时红外小目标检测的高效神经网络结构

招生信息 | 香港大学杜泓阳教授团队博士招生

图像去噪的原理及实现

【魔改YOLO系列】Mamba YOLO: 基于SSMs的YOLO用于目标检测

YOLOv9 - 在自定义数据集上进行目标检测

IoU、GIoU、DIoU、CIoU损失函数的那点事儿

【魔改YOLO系列】CST-YOLO：YOLO与CNN-Swin Transformer结合，实现精准小目标检测

招生信息 | 香港大学计算机视觉与机器智能实验室（CVMI Lab）博士招生

使用YOLO检测眼睛闭合 | 设定警报

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

硬肝！超详细matplotlib基础介绍！！！

医图顶会 MICCAI'24 | 条件Diffusion结合空间注意力，实现医学图像精准区分割

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉