三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

创业科技 2022-11-01 19:19 新加坡

长尾视觉识别任务对神经网络如何处理头部（常见）和尾部（罕见）类之间的不平衡预测提出了巨大挑战。模型倾向于将尾部类分类为头部类。虽然现有的研究侧重于数据重采样和损失函数工程，但在本文中，我们采用了不同的视角：分类间隔。我们研究了间隔（margin）和预测分数（logit）之间的关系，并凭经验观察到「未校准的边距和预测分数呈正相关」。我们提出了一种「简单而有效的边距校准方法 (Margin Calibration，MARC) 来校准边距以获得更平衡的预测分数」，从而提升分类性能。我们通过对常见长尾基准（包括 CIFAR-LT、ImageNet-LT、Places-LT 和 iNaturalist-LT）的广泛实验来验证MARC。实验结果表明，我们的MARC方法在这些基准上取得了良好的结果。此外，「只需三行代码」 就能实现MARC。我们希望这种简单的方法能够激发人们重新思考长尾视觉识别中未校准的边距与预测分数之间的关系。

文章已被机器学习会议ACML 2022录用, 由东京工业大学、微软STCA、南京大学、及微软亚洲研究院共同完成，第一作者为东京工业大学王一栋同学。论文链接：https://arxiv.org/pdf/2112.07225.pdf （点击“阅读原文”跳转文章）

间隔与预测分数的关系

在本文中，我们研究了 「间隔(Margin)」 和 「预测分数 (logits)」 之间的关系，这是主导长尾绩效的关键因素。

如下图所示，我们凭经验发现边距和预测分数与每个类的基数相关（一个类的基数即该类别拥有数据的数量）。具体来说，在校准之前，头类往往比尾类具有更大的边距和预测分数。因此，需要校准这种不平衡的边距以获得平衡的预测分数去避免未校准的边距对分类性能产生负面影响。

间隔校准方法MARC: Margin Calibration

我们提出一个简单的间隔校准方法 「MARC (margin calibration)」 来解决长尾问题。

具体而言，我们训练了一个简单的特定于类别的边距校准模型，其中原始边距固定，和是可学习参数：

的推理公式如下，最终是由预测分数（logit=）除以线性分类器（Linear Classifier Head）的权重（Weight）的模（）取得,其中为线性分类器的偏差（bias）：

因此，校准后的预测分数为

其中是固定的原始预测分数。

此外，我们还对不同类进行加权操作，最终通过训练和来获得更平衡的预测分数。

核心算法：仅需三行代码

MARC可以被分类为决策边界（间隔）调整算法，其与之前的一些同类算法如Decouple (ICLR'20, 评论区提到的)和DisAlign等的区别如下：

MARC的核心算法如下图所示，核心部分如红框所示。「仅需三行代码」 即可实现MARC：

实验

分类结果

实验表格如下。我们在众多被广泛使用的长尾分类图像数据集中进行了对比。从实验结果可以看出MARC相比于其他方法取得了良好的性能，并且MARC十分容易实现。

复杂度

下图是MARC和另一个决策边界调整算法Dis-Align的对比试验，可以发现MARC取得了更平衡的边距和预测分数。

总结

本文研究了长尾视觉识别问题。具体来说，我们发现头类往往比尾类具有更大的边距和预测分数。受此发现的启发，我们提出了一个只有 2K（K是类别数）可学习参数的边距校准函数，以获得长尾视觉识别中的平衡预测分数。尽管我们的方法实现起来非常简单，但大量实验表明，与以前的方法相比，MARC在不改变模型表示的情况下取得了有利的结果。我们希望我们对预测分数和边距的研究能够为模型表示和边距校准的联合优化提供经验。未来，我们的目标是发展一个统一的理论来更好地支持我们的算法设计，并将该算法应用于更多的长尾应用。

Reference

[1] 本文所介绍的论文：Wang et al. Margin calibration for long-tailed visual recognition. Asian Conference on Machine Learning (ACML) 2022.

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247485347&idx=1&sn=b4d8c3746c9b3cec4840fc8539adfb1f

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉