ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

创业 2023-02-13 18:56 日本

在大模型被广泛应用的今天，研究半监督学习还有意义吗？

我们的答案是：有的。即使大模型大行其道，在下游任务微调时，仍然不可避免要遇到标签数据稀少的问题，而半监督学习旨在只有少量标注数据的时候利用大量无标注数据提升模型的泛化性。我们的NeurIPS 2022的工作 USB中已验证了预训练模型在半监督场景下的局限性。现在，我们将从算法创新层面再对半监督进行提升。

近年来，基于阈值的伪标签方法的半监督方法取得了巨大的成功。然而，我们认为现有的方法可能无法有效地利用未标记的数据，因为它们要么 「使用预定义 / 固定阈值」，要么 「使用专门的启发式阈值调整方案」。这将导致模型性能低下和收敛速度慢。在本文中，我们首先 「理论」 分析一个简单的二分类模型，以获得关于理想阈值和模型学习状态之间关系的直觉。基于分析，我们因此提出 「FreeMatch」 来根据模型的学习状态以 「自适应方式」 调整置信度阈值。我们进一步引入自适应类公平正则化惩罚，以鼓励模型在早期训练阶段进行多样化预测。广泛的实验表明FreeMatch的优越性，尤其是当标记数据极其稀少时。

文章已被机器学习顶级会议 「ICLR」 2023录用，其在录用之前就收到了多方关注、有多人索要代码。文章第一作者为微软亚洲研究院实习生、东京工业大学硕士生王一栋，共同第一作者为卡耐基梅隆大学的陈皓。通讯作者为微软亚洲研究院的王晋东。

论文标题：FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning
论文链接： https://arxiv.org/abs/2205.07246
代码链接： https://github.com/microsoft/Semi-supervised-learning

对半监督学习而言，什么是好的阈值？

我们从一个简单的二分类问题出发来分析：好的半监督学习的阈值是怎么样的。

假设真实的数据分布来自两个高斯分布的混合：

再考虑输出概率如下的分类器：

如果我们采用一个固定的阈值, 那么不难证明伪标签有如下的概率分布；

详细证明过程可以参考论文。

观察上面的公式，我们可以获得一些明显的推论：

首先，不难看出未标注数据的采样率是直接由决定的：越大，伪标签的数量越少。更有趣的是，当时，。这可能导致伪标签分布不均匀从而损害模型表现。
同时，伪标签采用率随着变小而下降。换言之，两个类越接近，模型的置信度越低，因此也应相应降低以保证伪标签的分布均匀。

这些推论为我们设计一个自适应阈值提供了如下的启发:

在训练的早期，应该相对较小，以促使伪标签多元化，提升未标注数据的利用率，提升模型收敛速度。
随着训练的进行（变大）,较低的阈值会导致确认误差。在理想的情况下，应该随着变大以维持一个稳定的伪标签采用比例。
同时由于类内多样性（）以及类邻接（相对较小），某些类的分类难度要大于其余类，我们应该对每个类设置一个局部阈值。

FreeMatch：自适应阈值方法

我们提出的FreeMatch包含两部分：「自适应阈值」 和 「自适应公平正则化惩罚」。下面分别进行介绍。

自适应阈值 (SAT)

如下图所示，自适应阈值具体可以分为自适应全局阈值、自适应局部阈值。局部阈值旨在以类特定的方式调整全局阈值，以考虑类内多样性和可能的类邻接。

自适应全局阈值

我们根据以下两个原则设计全局阈值。首先，全局阈值应该与模型对未标记数据的置信度相关，反映整体学习状态。此外，全局阈值应在训练期间稳定增加，以确保在训练后期丢弃噪声伪标签。我们将全局阈值设置为模型对未标记数据的 「平均置信度」，其中表示第个时间步（迭代）。

然而，由于未标注数据数量庞大，在每个时间步甚至每个训练时期计算所有未标记数据的置信度将非常耗时。因此，我们将全局置信度估计为每个训练时间步长置信度的指数移动平均值 (EMA)。具体来说，我们将初始化为，其中表示类数。

具体而言，全局阈值定义和调整为：

其中是 EMA 的动量衰减。

自适应局部阈值

我们计算模型对每个类别的预测的期望，以估计特定于类别的学习状态：

其中是包含所有的列表。

最终的阈值自适应调整

整合全局和局部阈值，我们得到最终的自适应阈值为：

其中是最大归一化（即）。

最后，第次迭代的无监督训练目标是：

自适应公平正则化惩罚 (SAF)

我们没有使用之前常被使用的类平均先验来惩罚模型（因为真实场景往往不满足类平衡条件），而是使用来自模型预测的滑动平均EMA 作为期望的估计未标记数据的预测分布。

我们优化和的交叉熵批处理作为的估计。

考虑到潜在的伪标签分布可能不均匀，我们建议以自适应的方式调节公平性目标，即通过伪标签的直方图分布对概率的期望进行归一化，以抵消不平衡的负面影响：

与相似, 我们这样计算:

第步的自适应公平正则化惩罚(SAF) 表示如下:

最终模型的训练目标由对标注数据的交叉熵，无监督训练目标和自适应公平正则化惩罚组成。

具体细节可以参考文章内容。

实验

我们进行了详尽的实验，包括在经典benchmark与之前的算法进行对比(Table 1)和ImageNet结果对比(Table2)。为了证明FreeMatch不需要预定义阀值，我们在表十中提供了FixMatch和FlexMatch不同阀值的实验。

从表一,表二和表十可以看出，「FreeMatch有助于减少超参数调整计算或整体训练时间（在别的算法使用最佳选择的阈值情况下，FreeMatch无需预定义阈值即可获得更优异的性能）并且FreeMatch的性能优于任何固定阈值的方法」。

为了更好的理解FreeMatch，我们在图3中分析了FreeMatch在STL-10 40标签的实验中阈值，无标签数据的利用率，和准确率随训练的变化。可以看出，FreeMatch在训练初始阶段自适应的采取了较低的阈值，所以更多的无标签数据参与到学习中。随着模型从无标签数据中学习，阈值快速上升(与dash手动定义相比)，使得不准确的无标签数据被筛出，从而达到更准确的利用无标签数据的目的。

我们还在论文中提供了详细的消融实验，感兴趣的读者可以自行查看。

总结

我们提出了FreeMatch方法，该方法提出了自适应阈值和自适应公平性正则化。FreeMatch在各种SSL基准测试中优于其他SOTA算法，尤其是在标注数据极其稀少的情况下。我们认为置信度阈值在SSL中具有很大的潜力。我们希望我们的方法能够激发更多关于最优阈值的研究。

其他半监督学习文章

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

NeurIPS 2021 | 助力半监督学习：一种课程伪标签方法FlexMatch和统一开源库TorchSSL

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247485441&idx=1&sn=c08e8638273a98c558d00667ec9eb3c5

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉