NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

创业 2024-11-29 08:22 北京

在跨域少样本分类任务（cross-domain few-shot classification, CFC）中，一种主流的架构是预训练一个骨干网络作为特征提取器，在测试阶段在骨干网络的末端快速微调一个简单的轻量化特征变换模块。该特征变换模块能够将提取到的嵌入特征映射到一个任务特定的度量空间，在该空间中，通过比较数据样本 (图片) 特征与类别原型 (prototype) 特征之间的距离/相似度来对样本进行分类。
在当前的URL (Universal Representation Learning) 框架中，一个隐性的假设是对数据样本与类别原型的嵌入特征使用同一个特征变换模块。然而，在本文中，我们发现数据样本与类别原型中存在信息差异，而使用共同的特征变换模块会缩小样本与类别原型中间的信息差异从而导致学习到的特征聚类效果不佳，进而影响算法的泛化性能。
基于此发现，我们在本文中对信息差异的性质进行了详细的研究，并针对这一现象提出了简单有效的方法Contrastive Prototype-image Adaptation(CoPA)。通过对数据样本与类别原型的嵌入特征分别使用不同的特征变换模块以及使用对称交叉熵(symmetric cross-entropy) 作为损失函数，我们能够将数据样本与类别原型之间的信息差异保留并扩大，并且在扩大的信息差异处获得更好的泛化性能。

论文标题：
Mind the Gap Between Prototypes and Images in Cross-domain Finetuning
论文链接：
https://arxiv.org/abs/2410.12474

一、背景与动机

跨域少样本分类任务的主要目的是通过对少量带标签的样本进行快速学习从而能够在从未见过的数据样本上实现分类。作为传统少样本学习的一个分支，跨域小样本学习以其不规则的任务结构以及复杂的数据分布成为该领域更具挑战性的任务之一。目前主流的框架是一种基于“预训练+末端微调”的策略（典型代表为URL，如图1所示）。

图1: URL框架示意图

具体而言，在预训练阶段，一个（或若干个）骨干网络会通过传统的监督学习被预训练出来；而在测试阶段，骨干网络的参数会被“冻结”以作为特征提取器，并在末端快速微调一个特征变换模块将提取出来的嵌入特征映射到任务特定空间进行分类。具体而言，在任务特定空间，类别原型通过对类内所有的样本做平均获得。通过比较样本与所有类别原型的相似度/距离，数据样本会被分配到最相似/距离最近的类别中。

然而，该框架中包含了一个隐性的假设（如图2所示）：

图2: 隐性假设示意图

样本级别的嵌入特征和类别原型级别的嵌入特征共享了同一个特征变换。具体而言，当特征变换为线性变换时，类别原型特征（representation）的计算过程（类内所有样本的平均）等价于对类别原型的嵌入特征（embedding）做线性变换。因此，该过程中数据样本的嵌入特征和类别原型的嵌入特征共享了同一个特征变换。直觉上而言，样本级别的嵌入特征（如图片样本）描述了单个图片中的特征信息，而类别原型级别的嵌入特征则包含了某一类中所有样本的共性特征信息（类别原型一般由类别内所有样本的平均得到，见图2）。因此，两者之前存在某种信息差异。基于这一观测，我们猜测对于两类数据使用同一个特征变换函数可能会潜在地对信息差异造成负面影响。

二、理论与实验分析

基于上述观测，我们首先对提到的信息差异进行了实验验证（如图3所示）。我们对类别原型和数据样本之间的分布做了可视化分析。通过图3 (a)，我们可以观测到类别原型和数据样本在空间分布上确实存在差异，该差异可以通过欧式距离被量化为0.22。而当共享了同一个特征变换后，该差异被“破坏”。数值上，该差异缩小为0.12（图3 (b)）。

图3: 类别原型和数据样本之间信息差异的可视化分析结果。

论文中额外的实验表明，这一现象广泛得存在于所有数据集中。与此同时，我们发现，对类别原型和数据样本使用同一个特征变换并不能学习到令人满意的特征聚类结果（如图4 (b-c)所示）。

图4: 分布差异与泛化性能的分析以及使用共享特征变换前后特征的聚类可视化结果

进一步的，通过对类别原型和数据样本嵌入特征之间的分布差异进行手动的“调整”，例如增大、减小、互换位置，我们可以观测到上述信息差异倾向于在较大的差异下获得更好的泛化性能（如最小验证损失，如图4 (a)所示）。

我们猜测出现这一现象的主要原因包括两方面：

信息差异的增大有利于缓解潜在的过拟合问题
信息差异的增大有利于对齐特征，从而获得更好的表现

此外，我们也对URL框架和以及其对信息差异的影响进行了理论分析。一方面，现有框架中所采用的损失函数存在一个下界（图5）。

图5: URL框架中损失函数的分析

倘若以该下界作为替代损失，最小化该损失等价于最大化样本与其对应的类别原型之间的相似度同时最小化样本与样本之间的相似度。在该损失框架下，文中分别对类别原型和数据样本的特征变换的梯度进行了进一步分析。分析表明，类别原型和数据样本变换的梯度信息其实是不同的（如图6所示）。但是在使用同一个特征变换的条件下，这一梯度差异会被抹除。

图6: 针对类别原型和数据样本特征变换的梯度分析

另一方面，我们对信息差异也进行了理论分析（图7）。

图7: 关于信息差异的理论分析结果

我们发现该信息差异的上下边界的系数与（1）特征变换矩阵的列向量和嵌入特征信息差异相似度的最大/小值；（2）特征变换矩阵的Frobenius范数紧密相关。通过设计实验追踪上界系数的变化，我们发现该系数始终小于1.0（如图8所示）。

图8: 信息差异上界系数分析实验

这意味着，使用相同的特征变换后，类别原型和数据样本之间的信息差异必然缩小。

三、方法

针对上述观测和分析结果，我们针对性的提出了一种简单有效的框架：Contrastive Prototype-image Adaptation（CoPA，如图9所示）。

图9: CoPA框架示意图

这一框架主要包括两方面 :

一方面，我们分别对类别原型和数据样本采用不同的特征变换模块。通过使用不同的变换模块，梯度信息可以被分别存放在不同的参数集合中，从而保留各自的梯度信息。
另一方面，CoPA框架采用了CLIP中使用的对称交叉熵损失。为了匹配该损失，类别原型需要借助已有标签扩展至和数据样本一致的维度。这一操作隐性地表达了该任务下数据样本聚类的结构信息。

四、主要实验结果

我们将本文提出的CoPA框架在Meta-Dataset数据集上进行了评估。实验主要关注图片分类任务。表1-2展示了我们的CoPA能够在不同的任务类型（“train on all datasets”、“train on ImageNet only”）和模型类型（CoPA、CoPA+TSA）设定下都取得最优的效果。

表1: CoPA、CoPA+TSA在 “train on all datasets” 任务下在Meta-Dataset上的表现

表2: CoPA、CoPA+TSA在“train on ImageNet only”任务下在Meta-Dataset上的表现

此外，在CoPA框架下，我们发现类别原型和数据样本特征之间的信息差异被扩大（图10 (a)）且得到了更好的聚类结果（图10 (b)）。与此同时，我们发现验证损失在当前增大了的信息差异下达到了最小值（图10 (c)）。这一现象说明CoPA有效地改善了泛化性能。

图10: CoPA框架下针对信息差异、特征聚类的定性分析

五、总结与展望

在本文中，我们发现当前跨域少样本学习框架中隐性地假设类别原型和数据样本应当使用同一个特征变换模块。通过理论与实验分析，我们发现这一假设会对特征的学习和算法的泛化性能造成负面影响。基于这些观测，我们提出了一种简单有效的方法Contrastive Prototype-image Adaptation （CoPA）。CoPA通过对类别原型和数据样本施加不同的特征变换并同时采用对称交叉熵损失有效地弥补了原有框架中的缺陷。大量实验表明，CoPA能够有效地保留类别原型和数据样本之间的信息差异，并获得更好的泛化性能。这为之后少样本学习算法设计提供了全新的视角。

作者：周展科
来源：公众号【HKBU计算机系】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

WACV 2025 | 多任务学习提升Visual Anagram生成

华工、超级机器人研究院、琶洲实验室等单位联合发布首个室外无人机主动追踪基准

CAMEL AI 上海黑客松重磅来袭！快来尝试搭建你的第一个多智能体系统吧！

OmniSearch：开启O1范式的多模态动态检索新时代

Talk预告｜北京大学魏松林：基于扩散模型的双目视觉深度估计与恢复

NeurIPS 2024 | 大模型知识表示的“知识回路”假说，深入理解大模型的知识机理

Talk预告｜加州大学圣塔克鲁兹分校王泽宇：大规模视觉对抗训练

SIGGRAPH 2024 | 参考图像驱动的真实图像补全

高效重建几何精准的大规模复杂三维场景，中科院提出CityGaussianV2

EMNLP 2024 | 从知识图谱中习得大语言模型的规划能力

Talk预告｜上海交通大学周云松：SimGen - 仿真条件控制的自动驾驶场景生成

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

Talk预告｜无问芯穹算法研究员袁之航：高效视觉生成 - 减少冗余计算的探索研究

NeurIPS 2024 Spotlight | 如何操纵时间序列预测结果？BackTime：全新的时间序列后门攻击范式

将门月报 | 国汽智控完成A+轮融资、智谱携手华硕打造第一方入口级AI应用、文远知行在新加坡连获两款自动驾驶环卫产品许可证...

NeurIPS 2024 | 少样本学习中类别原型和图片样本之间的信息差异对于泛化性能的影响

EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除

Talk预告｜清华大学张欣晨&北京大学曾博涵：基于扩散模型的复杂物理世界建模与优化

NeurIPS 2024 | 南科大、港科大等提出GITA，推进基于视觉语言模型的图推理

Talk预告｜卡内基梅隆大学刘士弘：LOV - 如何无参数有效优化视觉语言模型

AgentSense：基于多样化交互场景的智能体社交智能评测基准

Talk预告｜MBZUAI曾聪：DALD-无需黑盒信息增强LLM检测器

NeurIPS 2024 | WKM：增强智能体规划的世界知识模型

将门创新伙伴 | 2024 Honda Digital Day圆满落幕：深化创新合作，共塑智能未来

活动报名 | 第五届数据智能与知识服务研讨会（DIKS2024）：人工智能促进科研创新和产业变革

ECCV 2024 | 扩散模型持续跨界，UC伯克利等单位提出基于扩散模型的新数据挖掘工具

NeurIPS 2024 | 浸大、CMU提出全新框架COAT，用LLM探寻隐秘的因果世界

Talk预告｜NUS余昭辰&PKU张子翔：大模型推理与多模态扩散模型的协同作用

高效评估多模态预训练对齐质量，中科大提出模态融合率MIR

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉