多阶段对比学习+多专家CLIP实现细粒度多模态表征学习

科技   2024-10-24 09:11   北京  

点关注,不迷路,用心整理每一篇算法干货~

后台留言”交流“,加入圆圆算法交流群~
👇🏻扫码👇🏻加入圆圆算法知识星球(11.1价格上调)~
已有880+同学加入学习,700+干货笔记)

今天给大家介绍一篇港中文、上海AI Lab等机构联合发表的CLIP优化工作,构建了基于多专家网络的MoE模型,实现更细粒度的视觉表征器训练,提升下游多模态大模型

论文标题:CLIP-MOE: TOWARDS BUILDING MIXTURE OF EXPERTS FOR CLIP WITH DIVERSIFIED MULTIPLET UPCYCLING

下载地址https://arxiv.org/pdf/2409.19291v2

1

背景

基于CLIP的图文对比学习预训练是构建多模态大模型的一个核心基础模块。通过图片和文本的对比学习过程,训练图片和文本的Encoder,能够对齐图片和文本这两个模态的表征。

然而,很多工作都发现,CLIP训练的Encoder,提取的更多是粗粒度的图像信息,例如CLIP的表征会存在语义不同、内容相似的图像被分到同一个类别中。这种比较弱的视觉Encoder会影响下游任务的效果。

为了解决上述问题,本文构建了一种基于多专家网络的CLIP模型,不同专家从不同维度提取视觉表征,提升视觉编码器能力。并且整个过程只需要基于已有的checkpoint进行finetune,不用从0训练CLIP模型。

2

建模方法

CLIP-MoE的核心建模方法可以分成3个部分:多阶段对比学习、多专家网络、训练方式。

多阶段对比学习是港中文在Avoiding feature suppression in contrastive learning: Learning what has not been learned before中提出的CLIP训练方法。进行多轮的CLIP训练,每轮训练后,根据表征进行聚类,下一轮的对比学习在每个聚类类簇内进行训练。通过多轮训练,得到一系列的CLIP模型。这种建模方法可以理解为,比如最开始对比学习学到了根据颜色进行表征对齐,在聚类后,颜色相同的聚类到了一起,第二阶段就可以学到颜色以外的其他信息进行表征区分。通过这种方式实现不同维度的表征学习。

本文也利用多阶段对比学习的思路,基于一个预训练的CLIP模型,将参数固定,只对Transformer中的FFN层进行finetune。通过多阶段对比学习,生成多组FFN参数。

基于上述不同阶段的FFN参数,可以构建多专家网络。通过门控网络,设定样本通过各个FFN的概率,各个FFN的输出结果进行加权求和。并且在损失函数中引入复杂均衡loss,防止MoE被少数专家主导的情况。

在训练方式上,包含2个阶段。第一阶段,在多阶段对比学习过程中,基于预训练CLIP,模型参数freeze,只对FFN层进行finetune。在第二阶段,冻结所有参数,只对多专家网络中的路由部分进行finetune。

3

实验结果

通过实验结果来看,本文的CLIP预训练方法在零样本学习场景的图文检索、图像分类等任务上取得了显著的效果提升。

文中也通过case分析了这种CLIP-MoE结构对于细粒度图文匹配的有效性。CLIP-MoE能够更加关注图像中的细节信息,做出和文本更准确的匹配。

END




后台留言”交流“,加入圆圆算法交流群~
后台留言”星球“,加入圆圆算法知识请星球~【时序预测专题课程持续更新中
知识星球提供一文贯通笔记、经典代码解析、问答服务、新人入门,已有880+小伙伴加入价格随人数增加和内容丰富上涨,感兴趣的同学尽早加入~


投稿&加交流群请加微信,备注机构+方向拉群~

【历史干货算法笔记】
生成式模型入门:一文讲懂3大类生成式模型
Sptial-Temporal时空预测总结:建模思路、优化方法梳理
时序预测顶会论文数据集、数据处理方法、训练方法汇总
时间序列预测实战方法概述:从数据到模型
Informer模型结构和代码解析
基于Transformer的时序预测模型TFT代码详解
时空预测经典模型STGCN原理和代码解读
一网打尽:14种预训练语言模型大汇总
Vision-Language多模态建模方法脉络梳理
花式Finetune方法大汇总
从ViT到Swin,10篇顶会论文看Transformer在CV领域的发展历程

如果觉得有帮助麻烦分享在看点赞~  

圆圆的算法笔记
定期更新深度学习/算法干货笔记和世间万物学习记录~
 最新文章