谷歌&Mistral AI发布TIPS：具有空间意识的文本-图像预训练（适配各种计算机视觉任务）

文摘 2024-11-08 00:06 上海

点击下方卡片，关注“AI生成未来”

后台回复“GAI”，免费获取最新AI相关行业报告和资料！

作者：Kaifeng Chen等

解读：AI生成未来

文章链接：https://arxiv.org/pdf/2410.16512

亮点直击
通用图像表示模型：TIPS 结合图像-文本和自监督学习的优势，适用于密集和全局预测任务，实现了广泛的下游应用。
增强的文本监督信号：利用合成生成的图像描述标签，提升了模型对图像内容和空间关系的理解，尤其有利于密集视觉任务。
双重标签对比损失：通过合成和噪声标签分别训练模型，使其在密集和全局任务上均表现优异。
空间一致性与多任务性能：TIPS 通过自蒸馏和掩码图像建模技术，增强了空间一致性，在 8 项任务和 16 个数据集上展示了强大的即插即用能力。

TIPS：具有空间意识的文本图像预训练。TIPS是一种通用的图像-文本编码器模型，可有效用于密集和全局理解，用于纯视觉或视觉语言任务，整体应用流程见下图：

总结速览

解决的问题

现有的图像-文本表示学习模型通常缺乏空间意识，难以直接用于密集理解任务（例如深度估计、语义分割）。因此，许多密集视觉任务仍然依赖于图像的自监督预训练方法，尽管缺乏明确的监督信号。

提出的方案

提出了一种新颖的通用图像-文本模型，称为 TIPS（Text-Image Pretraining with Spatial awareness），通过加入空间意识来提升图像-文本学习的效果，使其能够在密集和全局视觉任务中直接应用。

应用的技术

文本监督改进：使用合成生成的文本描述代替噪声较大的网络图像描述，提供更丰富的空间表示学习信号；并通过一种新的训练方法，将噪声与合成文本描述结合，提升密集与全局理解任务的效果。
学习技术：结合对比图像-文本学习与自监督的图像掩码建模，增强空间一致性，以提高模型在下游应用中的性能。

达到的效果

基于上述策略，构建了基于Transformer的模型，使用公共图像数据集进行训练，实验证明该模型在8项任务和16个数据集上表现优异，具有强大的密集和全局理解的即插即用能力，并适用于多种图像-文本及仅图像的任务。

TIPS

本文的目标是创建一个通用的图像表示模型，具备文本对齐功能，可即插即用地应用于密集和全局视觉任务。虽然图像-文本对比技术能够有效地建模全局图像信息，但在密集理解任务中表现欠佳，而自监督模型目前在这些任务中表现更优。为弥补这一差距，本文提出了具备空间感知的图像-文本预训练方法（TIPS），如下图2所示，通过合成图像描述增强弱监督，以及自监督掩码建模，显著提高了图像特征质量，适用于密集和全局理解。

问题设定。给定一组图像-文本对，其中是图像的噪声文本描述，目标是学习一个模型，将图像编码为适用于多种多模态任务的密集和全局嵌入。具体来说，训练函数，将图像映射为一组图像嵌入，其中是整个图像的全局嵌入表示，是对应于不同图像区域的局部嵌入。图像关联的文本用于训练语义意义的联合嵌入空间，从而生成有用的图像特征。基于标准的CLIP方法进行构建，该方法学习文本编码器，将映射为其嵌入，通过将和拉近来匹配对应图像和描述，反之亦然。CLIP使用带softmax归一化余弦相似度的交叉熵损失，记为。在此工作中，将模型为 Vision Transformer（ViT），从最后一层的特征图中获取图像嵌入，对应于[CLS]标记。函数则被建模为标准的transformer。

使用合成图像描述增强弱监督

使用大规模网络数据进行标准图像-文本学习的一个限制在于描述质量，这些描述往往噪声较大，可能无法准确描述图像。如下图3（上）所示，“for sale dealership $30k”这一文本未描述图像内容。虽然这可能会影响模型学习，但描述仍捕捉到了主要物体。

然而观察到的一个更深层问题是，这些描述通常仅提到显著的物体，而未描述其在场景中的布局。换句话说，这些描述通常作为噪声的图像级监督，通常对学习具有空间感知的表示用处不大。这促使研究合成描述的自动生成，其可作为密集任务的有效预训练弱监督。

研究者们使用现成的公开模型来有效地为图像生成描述：给定图像，生成文本。利用生成准确且高层次图像描述的描述模型——如上图3（下）所示。注意介词“in front of”的使用，它指示了场景的空间排列，以及背景（“building”）的描述和物体的颜色（“black”），所有这些信号都为密集图像表示学习提供了丰富的信息。

然而，合成描述的缺点在于缺乏详细的物体语义。再次参考图3，合成描述中未包含特定的汽车型号，该信息对于学习区分性表示很有帮助。因此，提出将原始和合成结合，以实现全局区分性和空间感知的图像特征。

双重图像-文本嵌入。本文力图从两种描述中获取相关信息，因此提出修改Vision Transformer 以从中学习，这一方法称为“双重嵌入”。在模型中插入了一个额外的[CLS]标记，用于学习合成描述，从而获得额外的全局嵌入。在训练时，将和同时输入到文本编码器，以获取其文本嵌入和。除了和之间的损失，还在和之间计算。这为模型提供了灵活性，能够在中学习物体中心的图像嵌入，在中学习更具空间感知的图像嵌入。两者均反向传播到密集特征图中，以学习改进的局部嵌入。在推理时，模型可以访问两种全局图像嵌入，选择使用哪种嵌入可基于下游任务决定：一般而言，空间感知任务将使用，而以物体为中心的任务则使用。

融合自蒸馏和掩码以增强图像特征

除了改进训练数据质量和学习不同类型的文本监督外，还建议通过专门的损失函数来激励模型学习空间感知的表示。研究者们受到了最近自监督学习技术的启发，这些技术能够生成适用于密集下游任务的特征。在训练设置中，结合了自蒸馏和掩码损失，将其调整为在弱监督的图像-文本学习框架中工作。在CLIP的基础上，引入了一个教师ViT模型，以帮助引导训练过程，该模型处理完整的图像。教师模型的权重通过主（学生）ViT 的指数移动平均（EMA）进行更新。接下来引入两个额外的损失项。

自蒸馏损失。从输入图像创建个局部裁剪，并通过处理这些局部裁剪，从其 [CLS] 标记获取个局部裁剪嵌入。在训练过程中，要求这些嵌入与教师模型通过对进行前向传播得到的 [CLS] 标记的预测相匹配。这激励模型学习在局部裁剪和原始（全局）图像之间保持一致的表示。这些嵌入用于通过基于MLP的投影头计算原型分数，在此基础上应用softmax归一化和交叉熵损失：

其中，遍历批次中的图像。和分别表示教师和学生的原型分数，它们通过教师和学生的投影和计算得到，其中通过的指数移动平均（EMA）进行更新。和分别是教师和学生的温度，用于对分数进行锐化，是一个居中变量，通过的 EMA 更新，以促进分布的均匀性。

掩码损失。本文引入了一个掩码图像建模损失，以鼓励学习的补丁嵌入理解其空间环境。核心思想是让可见补丁表示恢复被掩码补丁的语义。更具体地说，将图像的掩码版本输入，其中被掩码的补丁由掩码标记替换。编码后的掩码标记然后投影为原型分数，并与教师的相应未掩码标记进行比较，类似于公式 1：

其中，再次遍历批次中的图像，和分别对应教师和学生在补丁的原型分数，使用教师和学生的投影和计算，其中通过的 EMA 更新。类似地，和分别表示教师和学生的温度，而是居中变量。

方法的总损失定义为：

。

讨论。本文的方法基于弱监督和自监督学习的表示学习理念。据所知，这是首次将对比图文学习与自蒸馏和掩码图像建模结合，展示出在多个任务上的改进，表明这些目标间存在积极的协同作用。最接近的方法是 SILC，它将 CLIP 与自蒸馏结合。然而，如实验消融显示，添加掩码图像损失在密集任务中的表现显著提升，对于下游应用至关重要。指出与先前方法的一些关键区别。由于使用 CLIP 损失，自监督组件可以简化，相比 DINO和 iBOT的原始形式。一大区别是使用单一全局“裁剪”，而非 DINO、iBOT 和 SILC 中的双裁剪，提升了25%的处理效率。此外，与许多自监督方法不同，使用相对简单的数据增强：局部裁剪只是原始图像的随机裁剪，全局裁剪是更大的随机裁剪并水平翻转。这与 Assran 等 (2023); Moutakanni 等 (2024) 的观点相似，即复杂的增强可能对于表示学习并非必要。最后，本文的掩码方法为随机掩码，而非 iBOT 中的块状掩码。

扩展 TIPS

本文的目标是创建一个高度通用的模型，因此关键是将其扩展到大模型架构和大规模训练数据集，以获得增强的图像表示。

模型。ViT 架构已证明在多个任务中可扩展到十亿级参数的模型。将 TIPS 模型扩展至 ViT-g 架构，采用14的补丁大小，并使用 SwiGLU前馈网络变体。类似于 Oquab 等，将嵌入维度调整为1536，并设置24个头。这样，使得图像编码器与 DINOv2-g 直接可比，总参数量达1.1B。在文本侧，将 transformer 扩展到12层，具有与图像编码器相同的嵌入维度和头数。

数据集。利用了 WebLI 数据集，这是一个包含公共图像及其 alt 文本的大规模、噪声较大的网络数据集，总共包含 100 亿对图文样本。通过多轮过滤来提升数据集质量，从而更适合模型训练，类似于先前在语言和视觉领域的研究。首先，根据预训练对齐模型计算的图文相似度，对图文对进行内容过滤，丢弃那些相似度低的样本，类似于 Schuhmann et al. 。然后，筛选仅包含英文描述的样本。这两个步骤得到一个包含 17 亿张图像的数据集。最后，参考先前研究的方法，使用预训练模型计算图像嵌入，从经过策划的数据集中选择足够相似的图像。还删除了在评估数据集中出现的近重复图像。该过程最终生成了一个包含 1.16 亿对图文样本的主要预训练数据集。

实验

实验设置

评估数据集与协议。本文的模型在包含 16 个数据集的 8 项任务上进行评估，包括仅图像任务和图文任务。在各种条件下全面评估所学习的表示的质量，涵盖室内/室外场景和以物体为中心的图像。在所有评估中，保持图文表示冻结，以评估其作为即用型特征提取器的适用性。评估了 3 项密集预测任务、2 项全局图像理解任务和 3 项多模态检索任务。

语义分割 是在 PASCAL和 ADE20k数据集上使用平均交并比（mIoU）评估的密集任务。使用类似于 (Oquab et al., 2024) 的简单线性探测设置，从空间特征中预测类别。

单目深度估计 旨在预测图像中每个像素的深度值。在场景中心的 NYUv2和以物体为中心的 NAVI数据集上对深度估计进行基准测试，使用 RMSE 作为评估指标。对于 NYUv2，使用类似于 (Oquab et al., 2024) 的线性探测设置，将补丁标记与全局嵌入连接，然后线性分类器在 256 个量化深度值中进行预测。对于 NAVI，遵循 (El Banani et al., 2024) 并使用 DPT解码器。

表面法线估计 是密集预测每个像素的 3D 表面法线方向的任务，也在 NYUv2 和 NAVI 数据集上进行评估。使用 (El Banani et al., 2024) 的设置并报告角度 RMSE。

图像分类 在 ImageNet-1K 数据集上进行评估，使用 K 最近邻（KNN）和线性探测法基于学习的特征进行评估，并报告 top-1 准确率。

细粒度和实例级检索 使用 Universal Embeddings Dataset (UnED) 评估，该基准集包含 8 个领域的数据集：食品 (Food2k)、汽车 (CARS196)、在线产品 (SOP)、服装 (InShop)、自然世界 (iNat)、艺术品 (Met)、地标 (GLDv2) 和零售产品 (Rp2k)。报告 8 个领域的平均 R@1，并在附录中提供分领域结果。

图像到文本（I→T）检索 使用 Flickr30K、DOCCI和 COCO数据集进行评估，报告 R@1 指标。

文本到图像（T→I）检索 同样使用 Flickr30K、DOCCI 和 COCO 数据集，使用 R@1 指标。

zero-shot 分类在 ImageNet-1K 上进行，通过检索与每个测试图像嵌入最接近的类文本嵌入，遵循（Radford et al., 2021），并使用 top-1 准确率。使用一组策划数据集中的图像作为查询，在大量网页图像中进行挖掘。遵循 DINOv2采用的步骤，使用一些评估数据集的训练集作为策划查询，细节在附录中提供。这导致了一个包含 1.16 亿对图像-文本的基于网页的训练数据集。此外，对于扩展的 ViT-g 实验，将 Mapillary SLS 数据集的训练集原封不动地添加到训练集中，以补偿网页图像中缺乏街景图像，并且在没有任何替代文本的情况下，使用生成的合成描述来训练两个 CLS token。这使训练集中的图像总数增加到 1.17 亿。DINOv2 对其 LVD-142M 数据集也进行了类似的处理。

实现细节。对于所有模型，使用 1 个全局裁剪，分辨率为 224，和 M = 6 个局部裁剪，分辨率为 98。以批量大小 16k 训练 ViT-B 模型 70 轮，这在 256 个 TPUv3 芯片上耗时 4 天。对于更大的 ViT-g 模型，以批量大小 16k 训练 15 轮，这在 512 个 TPUv5 芯片上耗时 2 天，结果是低分辨率模型（TIPS-g/14 LR）。对于高分辨率变体（TIPS-g/14 HR），添加了一个额外的微调阶段，使用分辨率为 448 的全局裁剪和分辨率为 140 的局部裁剪，运行 0.1 轮，批量大小为 4k。仅使用随机调整大小的裁剪和水平翻转作为图像增强。

描述生成模型。利用最近的 PaliGemma模型进行图像描述生成。使用在 COCO 上微调的版本，224 像素版本用于核心预训练运行，448 像素版本用于短期高分辨率微调阶段。

比较技术。提供大量与最近工作的比较。对于每个现有模型家族，与最大的实例进行比较，直到 ViT 大小为“g”或“G”，图像编码器中的参数约为 18 亿或更少。本文的方法与一系列方法进行了基准测试，包括自监督、弱监督和监督文献。所有方法均使用现成的、冻结的权重进行公平比较。作为自监督方法，与 DINO、MAE、iBOT和 DINOv2进行了比较。作为弱监督方法，与 CLIP、OpenCLIP、SigLIP、SILC和 EVA-CLIP进行了比较。作为监督方法，基准测试了在 JFT-3B 上训练的 ViT-g，正如（Zhai et al., 2022）所述。

结果

消融实验。在 5 个不同任务上展示了消融实验（见下表 1），以孤立增强文本监督和新损失的效果，其中使用了 ViT-B 骨干网。基线 CLIP 模型的噪声网页描述呈现于（A）。表的部分（B）消融了增强文本监督的贡献。仅仅用 PaliGemma 生成的描述替换网页描述就提高了 10.1 个百分点的分割精度，并减少了 0.076 的深度 RMSE，这都是巨大的正收益。这显示了合成描述在使用图像-文本模型进行密集理解中的潜力。然而，同时，全球任务显示出显著的退步，KNN 分类损失减少了 6.9 分。但通过结合网页和合成描述，CLIP 性能可以在所有任务中提高：使用双嵌入方法，在各个领域实现了巨大的收益。还将双重方法与 Fan et al.（2023）提出的其他两种描述组合选项进行比较：“采样”，其中随机选择网页或合成描述；或“多文本”，其中两个描述分别与相同的图像嵌入匹配。双重方法在 5 个案例中有 3 个表现优于其他描述组合，并在其他 2 个案例中达到竞争性结果，这表明其有效性。

部分（C）消融了自监督损失的效果，使用网页描述。自蒸馏的加入在所有任务中带来了改善。这是一个类似于 SILC的设置：确认了它们在 I→T 和 T→I 检索中的发现，并且还表明自蒸馏损失对仅图像任务（尤其是密集任务）是有效的。通过额外的掩蔽图像建模（MIM）损失，密集任务中观察到了显著改善，而在其他任务中保持了高分数：分割精度提高了 5.6 分，深度 RMSE 降低了 0.078。

部分（D）结合了（B）和（C）的发现，为基线 CLIP 设置提供了非常显著的改进，在所有任务中，特别是在分割中提高了 14.6 分，深度 RMSE 减少了 0.142，I→T 检索提高了 10.1 分，T→I 检索提高了 14.4 分。

与现有通用方法的比较在下表 2 和表 3 中提供，涉及仅图像或图像和文本的任务，其中 TIPS 的结果在高分辨率微调前（“LR”）和后（“HR”）提供。总体而言，TIPS 实现了强劲的结果，在广泛的任务中表现出竞争力，在 16 个报告的评估中，有 13 项达到了最佳或第二最佳的结果。与现有的图像-文本方法相比，TIPS 在 I→T 和 T→I 检索上有所改善，同时在密集预测任务中也取得了实质性的收益，在某些情况下达到了 DINOv2 的水平并超过了它。有趣的是，尽管最近的图像-文本模型在多模态检索或zero-shot 分类中取得了优异的结果，但这些收益并没有转化为密集理解的改进，其性能明显落后于 TIPS 和自监督方法。特别是，即使 CLIP-L 在图像级预测任务上的表现较差，但在所有 6 个密集评估中都超越了最近的 SigLIP-SO。另一种最近且规模更大的通过对比学习训练的图像模型 InternViT-6B在 ADE20k 上的得分为 47.2%，远低于本文的11 亿 TIPS-g 模型。在监督方法方面，在 JFT-3B 上训练的 ViT-g 在密集任务上的表现也不如 CLIP-L。甚至更大的 ViT-22B，也在 JFT 上训练，在相同设置下的 ADE20k 上仅获得 34.6% 的得分，如 Chen et al.（2024）所报告。与自监督技术相比，TIPS 实现了强劲的结果，在大多数情况下与 DINOv2 的数字相当，并在分割和检索方面显著超越它，同时实现了自监督方法单独无法执行的多模态任务。下图 4 展示了密集特征探针的定性示例。

应用：单图像到三维。现代大型重建模型依赖高质量的预训练图像编码器，以产生图像标记供编码器/解码器Transformer使用。例如，LRM根据单个输入图像的图像特征预测神经渲染模型的参数。作者选择基于 ViT 的 DINO 编码器，而不是更具语义意识的编码器（如 CLIP），因为 DINO 编码器掌握了进行三维任务所需的结构和纹理信息。

为了更好地理解本文模型在神经三维重建方面的能力，在 LRM 框架中评估 TIPS 的性能，并将 DINO-B/16 与同等规模的 TIPS-B/14 进行比较。选择使用 DINO-B/16，以遵循原始论文的实现。单图像到三维的结果在 Objaverse 数据集中展示在下表 4 中，结果表明 TIPS 作为大型重建模型的图像编码器优于 DINO，具有增强的新视图合成能力（PSNR 增加 0.62）。

结论

TIPS（具有空间意识的文本-图像预训练），这是一种新的通用图像-文本编码器。TIPS 可以成功地应用于各种计算机视觉任务，实现密集和图像级预测，利用两个简单有效的贡献。首先，利用现有的多模态生成模型生成高质量的合成图像描述，这些描述用于改善对比学习并提升在密集图像预测上的性能。本文提出了一种双嵌入方法，以利用合成和噪声网页描述，从而在广泛的任务中获得收益。其次，将对比图像-文本学习与自蒸馏和掩蔽图像建模相结合，激励模型学习空间感知的表示。这两个贡献是互补的，能够有效地将模型扩展到在 1.17 亿图像的精心策划数据集上训练的 ViT-g 架构。全面实验在包括 16 个数据集的 8 项任务上展示了强大的现成结果，使涉及仅图像或图像和文本的各种计算机视觉应用成为可能。

参考文献

[1] TIPS: Text-Image Pretraining with Spatial Awareness

致谢

如果您觉得这篇文章对你有帮助或启发，请不吝点赞、在看、转发，让更多人受益。同时，欢迎给个星标⭐，以便第一时间收到我的最新推送。每一个互动都是对我最大的鼓励。让我们携手并进，共同探索未知，见证一个充满希望和伟大的未来！

技术交流

加入「AI生成未来社区」群聊，一起交流讨论，涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向，备注不同方向邀请入群！可添加小助手备注方向加群！

往期推荐

2024年了,Diffusion模型还有什么可做的？

文本引导I2I迈向统一！北大王选所提出FCDiffusion：端到端适用于各种图像转换任务

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

绝地归来！英伟达等提出JeDi：无需微调,个性化图像生成新SOTA！[CVPR 2024]

http://mp.weixin.qq.com/s?__biz=Mzg3Njk3NDkyNQ==&mid=2247510924&idx=1&sn=37b6856c796dff6ac6a16a73f72a9352

AI生成未来

领先的AIGC和具身智能、大模型技术交流社区，关注LLM、CV、深度学习、生成式等AI领域前沿技术