从真实世界中采集的数据通常呈现长尾分布,其中少数类别(头部类)拥有丰富的样本,而大量类别(尾类)则仅占据极少的样本。这种不平衡的分布对深度学习模型的训练构成了严重障碍。因此近年来,长尾视觉识别问题引起了广泛关注,并促使研究者提出了许多有效的解决方案。大多数现有方法集中于从头开始训练模型,主要从数据处理、表征能力提升和模型输出修正等角度着手,试图缓解长尾问题。近期,一些研究开始探索在微调预训练模型的基础上进行长尾视觉识别的改进[1]这些方法借助参数有效微调 (PEFT) 技术和更具鲁棒性的预训练模型,取得了良好的性能。然而,即使引入了大规模预训练知识,使用视觉提示词微调 (VPT) [2]等PEFT技术时,模型在尾类上的泛化能力依然远逊于头类。Sharpness-Aware Minimization (SAM) [3]优化器能够使模型在训练过程中收敛到平坦的损失极小值点,从而提高其泛化能力。然而,在长尾数据上应用SAM时,模型优化通常由头类主导,忽略了尾类的贡献。此外,SAM需要计算两次梯度,带来了额外的计算代价。因此,迫切需要一种能够提升模型在长尾数据上泛化能力且计算高效的方法。
本论文提出了一种针对长尾数据分布提升VPT泛化能力的新方法 — Gaussian Neighborhood Minimization Prompt Tuning (GNM-PT)。该方法的核心原理基于Sharpness-Aware Minimization (SAM),通过使损失平面更加平坦来增强模型的泛化能力。SAM优化器在训练模型时,通过最小化当前参数邻域内的最大损失值,使得模型极小值点附近的损失平面更平坦。然而,由于长尾数据中大量头类样本的主导,SAM优化策略使得修正后的梯度方向更偏向于优化头类。为了解决这一问题,GNM-PT提出了一种新的优化策略 — Gaussian neighborhood minimization (GNM)。与SAM不同,GNM在优化过程中仅需要计算一次梯度,避免了额外的计算开销。通过最小化损失平面中高斯邻域内采样点的损失,GNM能够使模型收敛到一个平坦且不受头类主导的损失极小值点,从而平衡地提升模型对所有类别的泛化能力。此外,GNM-PT还进一步利用提示词中的信息,增强了分类器的鲁棒性。图1展示了损失平面[4]的可视化结果。图1 (a) 表明,GNM与SAM在效果上相似,能够使损失极小值点附近的损失平面更平坦。图1 (b) 表明,在长尾分布数据上,GNM凸性更好,进一步提高了模型的泛化能力。
本工作主要贡献如下:
研究了预训练模型在长尾问题上的潜力,并且提出了对预训练模型的迫切需求:增强对所有类泛化能力的同时减少计算代价;
提出了一个高效的基于VPT的长尾视觉识别算法:GNM-PT,可以在提升模型泛化能力的同时节省计算开销。
为了证明GNM在长尾分布上的优势,我们分别使用SAM和GNM两种优化器,在长尾分布数据上利用GCL[6]损失函数训练模型,并可视化两者的损失平面,结果如图3所示。可以看出,GNM能使模型得到更小的损失值,且损失平面几乎没有波动,有助于提高模型泛化能力。
-- End --
[1] Bowen Dong, Pan Zhou, Shuicheng Yan, and Wangmeng Zuo. LPT: long-tailed prompt tuning for image classification. International Conference on Learning Representations (ICLR). 2023.
[2] Menglin Jia, Luming Tang, Bor-Chun Chen, Claire Cardie, Serge Belongie, Bharath Hariharan, and Ser-Nam Lim. Visual prompt tuning. European Conference on Computer Vision (ECCV). 709-727, 2022.
[3] Pierre Foret, Ariel Kleiner, Hossein Mobahi, and Behnam Neyshabur. Sharpness-aware minimization for efficiently improving generalization. International Conference on Learning Representations (ICLR). 2021.
[4] Hao Li, Zheng Xu, Gavin Taylor, Christoph Studer, and Tom Goldstein. Visualizing the loss landscape of neural nets. Conference and Workshop on Neural Information Processing Systems (NeurIPS). 6391-6401, 2018.
[5] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly. An image is worth 16x16 words: Transformers for image recognition at scale. International Conference on Learning Representations (ICLR). 2021.
[6] Mengke Li, Yiu-ming Cheung, and Yang Lu. Long-tailed visual recognition via gaussian clouded logit adjustment. Conference on Computer Vision and Pattern Recognition (CVPR). 6929-6938, 2022.