ICML 2024 | 直面CLIP内在缺陷，Meta提出全新latent对比预训练框架Llip

创业科技 2024-09-13 08:22 北京

基于对比视觉-语言预训练技术的大型多模态模型目前已成为人工智能领域研究的热点课题。但这一预训练技术仍然以经典的CLIP模型为基础，缺乏进一步的发展。此外，鉴于CLIP模型通过将图像及其caption映射到单个向量这样的底层机制，可以认为这限制了对比预训练模型描述图像各种其他方面的能力。本文介绍一篇来自Meta AI和纽约大学等研究机构合作完成的工作，目前已发表在国际机器学习顶级会议ICML 2024上。
本文提出了一种名为Llip的架构（Latent Language Image Pretraining），即潜空间图像语言预训练。Llip以图像字幕生成（Image Caption）任务作为出发点，用来模拟自然场景中与单张图像进行匹配caption的多样性。Llip仍然采用双塔特征提取模式，其视觉编码器可以对给定图像输出一组视觉特征，这些特征可以总结与当前图像匹配的多样式captions中的文本信息，来得到最终的表示。作者通过实验表明，在相同参数规模的backbone设置下，Llip在各种任务上的表现均优于CLIP[1]和SigLIP[2]等传统对比预训练模型。尤其是在ImageNet数据集上，Llip实现了 83.5% 的zero-shot top-1 准确率，比参数规模相同的 CLIP 高出 1.4%。

论文题目：
Modeling Caption Diversity in Contrastive Vision-Language Pretraining
论文链接：
https://arxiv.org/abs/2405.00740

一、引言

以CLIP为代表的视觉语言预训练（Vision-Language Pretraining，VLP）模型基本上都是通过对比学习将图像和文本映射到共同的表征空间。后续出现的SigLIP以及一些基于不变表征学习的方法，大多是在对比学习目标函数以及自监督对比方法层面进行创新和改进。但是这类方法忽略了一个重要的事实，即单个图像可能对应多种合理的文本描述，视觉和文本模态之间存在信息不平衡的现象。视觉内容通常相比文本描述更加丰富，多个不同的文本描述可以同时有效地描述给定的图像，每个描述都侧重于不同的视觉方面。例如下图（a）中所是，有的人可能会描述图中出现的动物，而有的人则会突出显示拍摄照片的位置。

因此，本文提出的Llip框架旨在解决这一问题，上图（a）展示了本文方法与CLIP之间的架构对比，具体来说，Llip方法可以在输出单一跨模态token的基础上，额外输出 个可学习的混合token。这些混合token的目标是捕捉输入的不同视觉方面，随后再通过交叉注意机制与描述文本进行融合以生成更鲁棒的上下文表示。虽然Llip在形式上与CLIP模型类似，但是却实现了更优越的视觉语言预训练效果，上图（b）展示了Llip模型与各种CLIP模型的zero-shot性能对比。

二、本文方法

Llip框架的核心思想是显式建模单个图像对应多种可能文本描述的事实。为了实现这一目标，Llip首先引入了一种全新的视觉混合token（Visual mixture tokens）用来捕获输入图像的不同视角特征。随后作者对Llip中的对比学习目标进行了优化，使其更好的适应到图像文本一对多的对比关系中，Llip的整体框架如下图所示。

2.1 Visual mixture tokens

Llip仍然使用Vision Transformer (ViT)作为视觉编码器，ViT可以将输入图像分割成固定大小的patches，并且对其进行线性嵌入同时添加位置嵌入。与标准ViT不同的是，作者对Llip进行了关键调整，即在输入序列中添加了 个可学习的混合token（mixture tokens）。这些mixture tokens与图像patch一起通过Transformer层处理，令输入图像为，Llip的视觉编码器为，编码器对mixture tokens处理后得到，其中是[CLS]token，是个mixture tokens的输出。

2.2 交叉注意力模块

为了实现从图像到文本表征的一对多映射，作者在Llip中设置了一个交叉注意力模块，该模块是实现上下文视觉表征的关键，其使用文本特征来调制mixture tokens，并且通过加权求和来得到与特定文本描述相关的视觉表征。在这一过程中，文本特征被作为查询（Query）向量，mixture tokens被作为键（Key）和值（Value）向量，具体计算过程如下：

其中，是可学习的投影矩阵，随后我们可以计算混合交叉注意力权重如下：

其中，是带温度参数的softmax函数。最后，通过加权求和就可以得到上下文化视觉表征:

2.3 改进的对比学习目标

相比传统CLIP的目标函数，Llip采用了基于SigLIP的改进对比学习目标，该函数可以最大化正样本对(匹配的图像-文本对)的相似度，最小化负样本对的相似度，同时提高内存效率，目标函数公式如下：

其中，是归一化的上下文化视觉表征，是归一化的文本表征，分别是可学习的缩放和偏置参数，是批次大小。此外，作者还考虑到了规避对比训练过程中的有害捷径。直观上理解，将视觉特征与目标描述文本联系起来可能会产生一种捷径解决方案，即网络完全忽略输入图像 ，完全依靠描述文本 来最小化对比目标函数。为了避免这种捷径，作者在上述目标中加入了负样本进行平衡。

2.4 Llip的推理

Llip最终的视觉处理性能取决于图像与多个描述文本之间的混合token，因此在对每幅图像进行推理时，Llip都需要对所有匹配的描述文本进行编码。由于本文设计的mixture tokens较为轻量，且文本和图像的融合仅在输出层进行，即使扩大编码器backbone的规模，对于 个固定数量的mixture tokens而言，增加的计算量和内存成本是恒定的，如下图所示。

Llip 中零样本分类的推理类似于 CLIP，对于给定的图像，有个可能的文本标签。首先用每个文本标签对每个图像进行编码，以获得上下文化的视觉特征。然后再计算规范化的视觉特征和文本特征之间的余弦相似度，并将预测标签定义为上下文化图像特征和文本特征之间余弦相似度最高的标签。

三、实验分析

本文的实验在MetaCLIP数据集上进行，其中共包含约2.5B个图像-文本对，为了验证Llip的适应能力，作者选取了5种不同规模的ViT进行实验，从基础版本ViT-B/32(patch大小为32×32)到巨型版本ViT-G/14（patch大小为14×14）。训练硬件配置使用128个V100或A100 GPU。为了验证Llip的综合性能，作者主要选择了包含零样本图像分类、多样化分类任务和零样本检索任务等多种基础视觉语言任务进行评估。

上表展示了本文Llip模型在多种图像识别数据集上的零样本分类性能对比，对比基线包括CLIP, OpenCLIP, CLIPA-v2, SigLIP, MetaCLIP, EVA-CLIP, DFN等流行的对比预训练模型，从表中我们可以观察到，Llip (ViT-G/14)版本达到了83.5%的Top-1准确率，相比同等规模的MetaCLIP提高了1.4%，这表明Llip的性能优势主要来自其能够建模图像与多样化文本描述的关系。并且，随着模型规模增大，Llip的优势更加明显。

上表展示了本文方法在Flickr30k和MSCOCO数据集上进行零样本检索任务的实验效果，评估设置分为图像到文本和文本到图像两种任务，对比基线选用MetaCLIP和SigLIP。可以看到，Llip在所有检索设置和所有模型规模下均显著优于基线方法，特别是在图像到文本的检索上。其中，模型的性能提升在MSCOCO上更为明显，作者分析这可能是因为MSCOCO数据集更大、更复杂，更能体现Llip建模多样化描述的优势。

为了进一步探索Llip的建模优势，作者对其生成特征的表达能力进行了评估，作者将这种评估称为表征表达性分析，即通过计算视觉特征协方差矩阵的奇异值来评估学习到的视觉特征的表达能力。具体来说，作者首先从ImageNet验证集中随机选择了5000个样本，并对比了SigLIP, SigLIP with learned query和Llip64三种特征的协方差矩阵，并分别绘制其奇异值谱，如上图所示。可以看出，Llip 在奇异值谱中的衰减比另外两条基线都慢，这表明Llip特征具有更大的可变性和更丰富的表达能力。

四、总结

本文提出了一种全新的对比视觉语言预训练框架Llip，Llip通过引入上下文化的视觉表征，成功地建模了图像与多样化文本描述之间的关系。通过引入混合token和交叉注意力机制，Llip实现了从单个图像到多个可能文本描述的映射，这种一对多映射的形式优化了传统对比预训练模型中的固有缺陷，允许模型捕捉图像的多个方面，提高了表征的丰富性。此外，本文还引入了一种基于SigLIP改进的对比目标函数，提高了模型的训练效率和性能。实验结果表明，Llip在多个零样本任务上显著优于现有的VLP方法，可以说，这项工作为视觉-语言预训练提供了一个新的研究方向。

参考资料

[1] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J.,Krueger, G., and Sutskever, I. Learning Transferable Visual Models From Natural Language Supervision, February 2021.

[2] Zhai, X., Mustafa, B., Kolesnikov, A., and Beyer, L. Sigmoid Loss for Language Image Pre-Training, September 2023.

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513885&idx=1&sn=8c86d2a670217f44d6107013002ecb2b

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉