在跨域少样本分类任务(cross-domain few-shot classification, CFC)中,一种主流的架构是预训练一个骨干网络作为特征提取器,在测试阶段在骨干网络的末端快速微调一个简单的轻量化特征变换模块。该特征变换模块能够将提取到的嵌入特征映射到一个任务特定的度量空间,在该空间中,通过比较数据样本 (图片) 特征与类别原型 (prototype) 特征之间的距离/相似度来对样本进行分类。 在当前的URL (Universal Representation Learning) 框架中,一个隐性的假设是对数据样本与类别原型的嵌入特征使用同一个特征变换模块。然而,在本文中,我们发现数据样本与类别原型中存在信息差异,而使用共同的特征变换模块会缩小样本与类别原型中间的信息差异从而导致学习到的特征聚类效果不佳,进而影响算法的泛化性能。 基于此发现,我们在本文中对信息差异的性质进行了详细的研究,并针对这一现象提出了简单有效的方法Contrastive Prototype-image Adaptation(CoPA)。通过对数据样本与类别原型的嵌入特征分别使用不同的特征变换模块以及使用对称交叉熵(symmetric cross-entropy) 作为损失函数,我们能够将数据样本与类别原型之间的信息差异保留并扩大,并且在扩大的信息差异处获得更好的泛化性能。
基于此发现,我们在本文中对信息差异的性质进行了详细的研究,并针对这一现象提出了简单有效的方法Contrastive Prototype-image Adaptation(CoPA)。通过对数据样本与类别原型的嵌入特征分别使用不同的特征变换模块以及使用对称交叉熵(symmetric cross-entropy) 作为损失函数,我们能够将数据样本与类别原型之间的信息差异保留并扩大,并且在扩大的信息差异处获得更好的泛化性能。
论文标题:
Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
论文链接:
https://arxiv.org/abs/2410.12474
一、背景与动机
图1: URL框架示意图
具体而言,在预训练阶段,一个(或若干个)骨干网络会通过传统的监督学习被预训练出来;而在测试阶段,骨干网络的参数会被“冻结”以作为特征提取器,并在末端快速微调一个特征变换模块将提取出来的嵌入特征映射到任务特定空间进行分类。具体而言,在任务特定空间,类别原型通过对类内所有的样本做平均获得。通过比较样本与所有类别原型的相似度/距离,数据样本会被分配到最相似/距离最近的类别中。
图2: 隐性假设示意图
二、理论与实验分析
图3: 类别原型和数据样本之间信息差异的可视化分析结果。
图4: 分布差异与泛化性能的分析以及使用共享特征变换前后特征的聚类可视化结果
进一步的,通过对类别原型和数据样本嵌入特征之间的分布差异进行手动的“调整”,例如增大、减小、互换位置,我们可以观测到上述信息差异倾向于在较大的差异下获得更好的泛化性能(如最小验证损失,如图4 (a)所示)。
我们猜测出现这一现象的主要原因包括两方面:
信息差异的增大有利于缓解潜在的过拟合问题
信息差异的增大有利于对齐特征,从而获得更好的表现
图5: URL框架中损失函数的分析
倘若以该下界作为替代损失,最小化该损失等价于最大化样本与其对应的类别原型之间的相似度同时最小化样本与样本之间的相似度。在该损失框架下,文中分别对类别原型和数据样本的特征变换的梯度进行了进一步分析。分析表明,类别原型和数据样本变换的梯度信息其实是不同的(如图6所示)。但是在使用同一个特征变换的条件下,这一梯度差异会被抹除。
图6: 针对类别原型和数据样本特征变换的梯度分析
另一方面,我们对信息差异也进行了理论分析(图7)。
图7: 关于信息差异的理论分析结果
我们发现该信息差异的上下边界的系数与(1)特征变换矩阵的列向量和嵌入特征信息差异相似度的最大/小值;(2)特征变换矩阵的Frobenius范数紧密相关。通过设计实验追踪上界系数的变化,我们发现该系数始终小于1.0(如图8所示)。
图8: 信息差异上界系数分析实验
三、方法
图9: CoPA框架示意图
这一框架主要包括两方面 :
一方面,我们分别对类别原型和数据样本采用不同的特征变换模块。通过使用不同的变换模块,梯度信息可以被分别存放在不同的参数集合中,从而保留各自的梯度信息。
另一方面,CoPA框架采用了CLIP中使用的对称交叉熵损失。为了匹配该损失,类别原型需要借助已有标签扩展至和数据样本一致的维度。这一操作隐性地表达了该任务下数据样本聚类的结构信息。
四、主要实验结果
表1: CoPA、CoPA+TSA在 “train on all datasets” 任务下在Meta-Dataset上的表现
表2: CoPA、CoPA+TSA在“train on ImageNet only”任务下在Meta-Dataset上的表现
图10: CoPA框架下针对信息差异、特征聚类的定性分析
五、总结与展望
作者:周展科 来源:公众号【HKBU计算机系】
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。