基于对比视觉-语言预训练技术的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础,缺乏进一步的发展。此外,鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制,可以认为这限制了对比预训练模型描述图像各种其他方面的能力。本文介绍一篇来自Meta AI和纽约大学等研究机构合作完成的工作,目前已发表在国际机器学习顶级会议ICML 2024上。
本文提出了一种名为Llip的架构(Latent Language Image Pretraining),即潜空间图像语言预训练。Llip以图像字幕生成(Image Caption)任务作为出发点,用来模拟自然场景中与单张图像进行匹配caption的多样性。Llip仍然采用双塔特征提取模式,其视觉编码器可以对给定图像输出一组视觉特征,这些特征可以总结与当前图像匹配的多样式captions中的文本信息,来得到最终的表示。作者通过实验表明,在相同参数规模的backbone设置下,Llip在各种任务上的表现均优于CLIP[1]和SigLIP[2]等传统对比预训练模型。尤其是在ImageNet数据集上,Llip实现了 83.5% 的zero-shot top-1 准确率,比参数规模相同的 CLIP 高出 1.4%。
基于对比视觉-语言预训练技术的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础,缺乏进一步的发展。此外,鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制,可以认为这限制了对比预训练模型描述图像各种其他方面的能力。本文介绍一篇来自Meta AI和纽约大学等研究机构合作完成的工作,目前已发表在国际机器学习顶级会议ICML 2024上。
论文题目:
Modeling Caption Diversity in Contrastive Vision-Language Pretraining
论文链接:
https://arxiv.org/abs/2405.00740
二、本文方法
Llip框架的核心思想是显式建模单个图像对应多种可能文本描述的事实。为了实现这一目标,Llip首先引入了一种全新的视觉混合token(Visual mixture tokens)用来捕获输入图像的不同视角特征。随后作者对Llip中的对比学习目标进行了优化,使其更好的适应到图像文本一对多的对比关系中,Llip的整体框架如下图所示。
2.1 Visual mixture tokens
Llip仍然使用Vision Transformer (ViT)作为视觉编码器,ViT可以将输入图像分割成固定大小的patches,并且对其进行线性嵌入同时添加位置嵌入。与标准ViT不同的是,作者对Llip进行了关键调整,即在输入序列中添加了 个可学习的混合token(mixture tokens)。这些mixture tokens与图像patch一起通过Transformer层处理,令输入图像为 ,Llip的视觉编码器为 ,编码器对mixture tokens处理后得到 ,其中 是[CLS]token, 是 个mixture tokens的输出。
2.2 交叉注意力模块
其中, 是可学习的投影矩阵,随后我们可以计算混合交叉注意力权重如下:
2.3 改进的对比学习目标
相比传统CLIP的目标函数,Llip采用了基于SigLIP的改进对比学习目标,该函数可以最大化正样本对(匹配的图像-文本对)的相似度,最小化负样本对的相似度,同时提高内存效率,目标函数公式如下:
2.4 Llip的推理
三、实验分析
上表展示了本文Llip模型在多种图像识别数据集上的零样本分类性能对比,对比基线包括CLIP, OpenCLIP, CLIPA-v2, SigLIP, MetaCLIP, EVA-CLIP, DFN等流行的对比预训练模型,从表中我们可以观察到,Llip (ViT-G/14)版本达到了83.5%的Top-1准确率,相比同等规模的MetaCLIP提高了1.4%,这表明Llip的性能优势主要来自其能够建模图像与多样化文本描述的关系。并且,随着模型规模增大,Llip的优势更加明显。
四、总结
参考资料
[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,Krueger, G., and Sutskever, I. Learning Transferable Visual Models From Natural Language Supervision, February 2021.
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。