针对不平衡问题建模的有趣Loss

科技 2024-10-19 11:49 中国香港

点击下方“深度学习爱好者”，选择加"星标"或“置顶”

编者荐语

文章综述了康奈尔大学、康奈尔科技、谷歌Brain和Alphabet公司的基于有效样本数的类平衡损失(CB损失)。在文章中，设计了一种重新加权的方案，利用每个类的有效样本数来重新平衡损失，称为类别平衡损失。使用每个类的有效样本数量来重新为每个类的Loss分配权重。

转载自丨炼丹笔记

1. 类别平衡问题

两个类，分别来自长尾数据集的头部和尾部(iNaturalist 2017 dataset)假设有像上面那样的不平衡的类。head：对于索引小的类，这些类有较多的样本。Tail：对于大索引的类，这些类的样本数量较少。黑色实线：直接在这些样本上训练的模型偏向于优势类。红色虚线：通过反向类频率来重新加权损失可能会在具有高类不平衡的真实数据上产生较差的性能。蓝虚线：设计了一个类平衡项，通过反向有效样本数来重新加权损失。

2. 有效样本数量

2.1. 定义

数据间信息重叠，左:特征空间S，中:1个样本数据的单位体积，右:数据间信息重叠

直觉上，数据越多越好。但是，由于数据之间存在信息重叠，随着样本数量的增加，模型从数据中提取的边际效益会减少

左：给定一个类，将该类的特征空间中所有可能数据的集合表示为S。假设S的体积为N且N≥1。中：S子集中的每个样本的单位体积为1，可能与其他样本重叠。Right：从S中随机抽取每个子集，覆盖整个S集合。采样的数据越多，S的覆盖率就越好。期望的采样数据总量随着样本数量的增加而增加，以N为界。

因此，将有效样本数定义为样本的期望体积。

这个想法是通过使用一个类的更多数据点来捕捉边际效益的递减。由于现实世界数据之间的内在相似性，随着样本数量的增加，新添加的样本极有可能是现有样本的近重复。另外，cnn是用大量的数据增广来训练的，所有的增广实例也被认为与原始实例相同。对于一个类，N可以看作是唯一原型的数量。

2.2. 数学公式

新的采样数据与以前的采样数据重叠或不重叠

En表示样本的有效数量(期望体积)。为了简化问题，不考虑部分重叠的情况。也就是说，一个新采样的数据点只能以两种方式与之前的采样数据交互：完全在之前的采样数据集中，概率为p，或完全在原来的数据集之外，的概率为1- p。

有效数字：En = (1−β^n)/(1−β)，其中，β = (N− 1)/N，这个命题可以用数学归纳法证明。当E1 = 1时，不存在重叠，E1 =(1−β^1)/(1−β) = 1成立。假设已经有n−1个样本，并且即将对第n个样本进行采样，现在先前采样数据的期望体积为En −1，而新采样的数据点与先前采样点重叠的概率为 p = E(n−1)/N。因此，第n个实例采样后的期望体积为：

此时：

我们有：

上述命题表明有效样本数是n的指数函数。超参数β∈[0,1)控制En随着n的增长有多快。

3. 类别平衡 Loss (CB Loss)

类别平衡（CB）loss可以写成：

其中，ny是类别y的ground-truth的数量。β = 0对应没有重新加权， β → 1对应于用反向频率进行加权。

提出的有效样本数的新概念使我们能够使用一个超参数β来平滑地调整无重权和反向类频率重权之间的类平衡项。

所提出的类平衡项是模型不可知的和损失不可知的，因为它独立于损失函数L和预测类概率p的选择。

3.1. 类别平衡的 Softmax 交叉熵损失

给定一个标号为y的样本，该样本的softmax交叉熵(CE)损失记为：

假设类y有ny个训练样本，类平衡(CB)softmax交叉熵损失为：

3.2. 类别平衡的 Sigmoid 交叉熵损失

当对多类问题使用sigmoid函数时，网络的每个输出都执行一个one-vs-all分类，以预测目标类在其他类中的概率。在这种情况下，Sigmoid不假定类之间的互斥性。由于每个类都被认为是独立的，并且有自己的预测器，所以sigmoid将单标签分类和多标签预测统一起来。这是一个很好的属性，因为现实世界的数据通常有多个语义标签。sigmoid交叉熵(CE)损失可以写成：

类平衡(CB) sigmoid交叉熵损失为：

3.3. 类别平衡 Focal Loss

Focal loss (FL)是在RetinaNet中提出的，可以减少分类很好的样本的损失，聚焦于困难的样本。

类别平衡的 (CB) Focal Loss为：

4. 实验结果

4.1. 数据集

用于评估类平衡损失有效性的数据集

试验了CIFAR-10和CIFAR-100的5个不平衡系数分别为10、20、50、100和200的长尾版本。iNaturalist 和ILSVRC是天然的类别不平衡数据集。

在人工创建的具有不同不平衡因子的长尾CIFAR-100数据集中，每类训练样本的个数

上面显示了每个类具有不同不平衡因素的图像数量。

4.2. CIFAR 数据集

ResNet-32在长尾CIFAR-10和CIFAR-100测试集上用不同的损失函数训练的分类错误率

loss类型的超参数搜索空间为{softmax, sigmoid, focal}， [focal loss]的超参数搜索空间为β∈{0.9,0.99,0.999,0.9999}，γ∈{0.5,1.0,2.0}。在CIFAR-10上，最佳的β一致为0.9999。但在CIFAR-100上，不同不平衡因子的数据集往往有不同且较小的最优β。

有和没有类平衡项时的分类错误率

在CIFAR-10上，根据β = 0.9999重新加权后，有效样本数与样本数接近。这意味着CIFAR-10的最佳重权策略与逆类频率重权类似。在CIFAR-100上，使用较大的β的性能较差，这表明用逆类频率重新加权不是一个明智的选择，需要一个更小的β，具有更平滑的跨类权重。例如，一个特定鸟类物种的独特原型数量应该小于一个一般鸟类类的独特原型数量。由于CIFAR-100中的类比CIFAR-10更细粒度，因此CIFAR-100的N比CIFAR-10小。

4.3. 大规模数据集

在所有数据集验证集上，使用不同损失函数训练的大规模数据集上的Top-1和Top-5分类错误率

使用了类平衡的Focal Loss，因为它具有更大的灵活性，并且发现β = 0.999和γ = 0.5在所有数据集上都获得了合理的良好的性能。值得注意的是，使用了类别平衡的Focal Loss来代替Softmax交叉熵，ResNet-50能够达到和ResNet-152相应的性能。

ILSVRC 2012(左)和iNaturalist 2018(右)的ResNet-50训练曲线

以上数字显示类平衡的Focal Loss损失经过60个epochs的训练后，开始显示其优势。

参考资料

英文原文：https://medium.com/nerd-for-tech/review-cb-loss-class-balanced-loss-based-on-effective-number-of-samples-image-classification-3056a1a1a001

下载1：Pytoch常用函数手册
在「深度学习爱好者」公众号后台回复：Pytorch常用函数手册，即可下载全网第一份Pytorch常用函数手册，涵盖Tensors介绍、基础函数介绍、数据处理函数、优化函数、CUDA编程、多线程处理等十四章章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU1OTYzNjg5OQ==&mid=2247569015&idx=2&sn=563b4f965239be61316077197a46ce74

深度学习爱好者

分享机器学习、深度学习和Python等知识与原理，每天分享深度学习与计算机视觉领域的经典和最新的论文总结，带读者一起跟踪前言科技！

最新文章

EMF-former：一种用于图像分割的高效且内存友好的Transformer

使用PyTorch从头开始构建CLIP | 对比语言图像预训练

详细记录u版YOLOv5目标检测NCNN实现

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

像堆乐高一样：从零开始解释神经网络的数学过程

特征选择：11 种特征选择策略总结！

YOLO 系列目标检测大合集

Swin-UMamba：基于ImageNet的预训练的基于Mamba的UNet网络

项目案例：基于 YOLO 的铝型材表面缺陷识别

Batch Normalization原理与实战

Jupyter Notebook 五大效率插件

卷积核的基本概况

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

padding 在深度学习模型中重要吗？

超越YOLOv10/11、RT-DETRv2/3！中科大D-FINE重新定义边界框回归任务

如何评价Ultralytics出的YOLOv11？

有哪些东西是你读博士以后才懂的？

Jupyter Lab 十大高生产力插件

AODet: 基于 Transformers 的前景区域航空目标检测

黄仁勋预言成真了！！

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

使用姿态估计轻松辅助健身房训练

传统图像处理还有前景么？

使用YOLO检测眼睛闭合 | 设定警报

一个神经元顶5到8层神经网络，深度学习的计算复杂度被生物碾压了

稚晖君玩了个大的：开源人形机器人全套图纸+代码

最全的损失函数汇总

pytorch优化器与学习率设置详解

PyCharm vs VSCode，是时候改变你的 IDE 了！

特征提取：传统算法 vs 深度学习

注意力机制是如何学习到模型所应注意的区域的？

深度学习常用损失函数总览：基本形式、原理、特点

一份微调YOLOv11的小指南

顶会 MICCAI'24 | LB-UNet：一种用于皮肤病变分割的轻量级边界辅助UNet

EI会议精选盘点：高校联办，IEEE Fellow助阵，可推优发表SCI

顶刊MIA'24 | 用于OCT图像分割的双坐标交叉注意力Transformer

如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文?

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

使用YOLOv8和ByteTracker进行实时人员跟踪和计数

用python写一个图像文字识别OCR工具

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

如何系统得对目标检测模型的误差分析？

【魔改YOLO系列】YOLO-SLD: 一种用于车牌检测的改进型YOLO注意力机制

一个博士生接受怎样的训练，才是完整而全面的科研训练？

一文让你通俗理解奇异值分解

YOLO-CCS：将坐标注意力机制引入YOLO用于车辆检测

针对不平衡问题建模的有趣Loss

使用YOLO World进行高性能目标检测

顶刊 TRGS'24 | 针对小型目标检测的增强层间特征相关性的轻量级融合策略

顶刊 MIA'24 | MA-SAM: 用于医学图像分割的模态无关SAM适应框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉