ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

文摘   2024-09-01 15:32   英国  

多模态学习新进展!南京大学与蚂蚁集团天筭实验室提出跨模态检索新思路,已被ACM International Conference on Multimedia (ACM MM) 2024录用!!

📑 论文链接:https://arxiv.org/pdf/2408.01349

💻 代码链接:https://github.com/alipay/NoiseofWeb

📎 数据集链接:https://huggingface.co/datasets/NJUyued/NoW

简介

跨模态检索(cross-modal retrieval)旨在于多模态数据中桥接匹配不同的模态,而噪声对应学习(Noisy Correspondence Learning, NCL)是其中的一大难题。噪声对应(noisy correspondence)主要来自于不匹配的数据对,即数据对中不同模态的数据语义不对齐。为了解决这个问题,我们提出了基于伪分类的伪标题生成方法()。该方法包含三个关键策略:(1)伪分类任务:我们设计了一个“伪分类”辅助学习任务,将标题理解为类别标签,通过非对比学习机制来增强对图像-文本语义相似性的学习。(2)伪标题生成:利用的伪分类能力,我们为每对不匹配的数据生成更具信息量的伪标题,提供更具体的监督信息。(3)利用伪分类的预测振荡行为来辅助纠正对应关系。同时,由于自从NCL设定首次被提出后,只有少数工作进行了进一步的探索,并且主要是在人工模拟的NCL数据集上进行评估方法性能,因此,我们从互联网中收集了100K对的【web page(图像)-meta description(文本)】数据对,构建了一个大规模的专用于NCL评估的基准数据集: Noise of Web (NoW) ,其中包含了更复杂、自然和挑战性的噪声对应。

Introduction

跨模态检索,作为多模态学习的基石,是一个充满活力的领域,致力于在广泛的多媒体领域中桥接多种模态。然而,以往跨模态检索方法的成功依赖于一个关键假设:训练数据的语义需要在各个模态之间完美对齐。然而,获取如此完美匹配的数据对是十分困难的。手动标注这种数据对是一项艰巨的任务,因为很容易产生主观错误。一种常用的替代方法是从互联网中挖掘共同出现的图像-文本对。然而,这种便利性伴同样伴随着代价:这个自动化收集数据的过程很有可能引入了具有模态之间不匹配语义的噪声数据。以上描述的场景引出了我们的核心问题——噪声对应(Noisy Correspondence)

图1. 噪声对应的示例,以及当前流行的基于三元组损失(triplet ranking loss)的边距(margin)的方法与我们提出的基于伪标题生成的PC2之间的对比。PC2旨在为噪声数据对提供直接且有效的监督,而不是像基于margin的方法一般简单地调整三元组loss中margin的大小以减轻噪声数据对学习过程的影响。

与传统的噪声标签不同,噪声对应指的是配对数据中不同模态的数据之间的语义不匹配(图1)。从各种自动化手段中收集的干净数据中混杂了有噪声的数据对,这将削弱跨模态检索模型的训练效果。在这种情况下进行噪声对应学习(Noisy Correspondence Learning, NCL)在学界上和工业界上仍然有广阔的探索空间。之前的NCL解决方案可以总结为调整模态数据的对应标签(correspondence label),这可以被理解为调整三元组损失(triplet ranking loss)的软边距(soft margin),从而减轻不匹配的成对图文数据对训练的负面影响[1][2]。我们将这些方法称为基于边距的方法(图1中的margin-based method)。尽管这些方法展示了可行性和有效性,但它们仍存在一定的局限。调整边距的策略并未直接为那些假阳性对提供有益的监督信息,而只是减轻了作用于它们的不正确监督信号的不良影响。同时,尽管这些方法努力抵抗噪声数据的干扰,它们在训练过程中仍然受到了显著的不利影响。如图2所示,NCR[1](目前最为流行的NCL方法之一)的学习过程呈现出一种振荡模式,尤其在初次遇到噪声数据时这表现得尤为明显。对噪声数据的学习引起了与干净数据相关的损失的显著波动。针对这一现象,我们提出了一种新的NCL框架,命名为基于伪分类的伪标题方法(),旨在实现在具有噪声对应的情况下训练稳健的跨模态匹配模型。该框架可理解为下面三个模块组成的集成解决方案:

  • 受非对比学习(non-contrastive learning)领域的启发,我们首先设计了一个名为“伪分类”的辅助任务,以增强模型从干净数据中学习的能力。简而言之,我们将标题理解为某种意义的类别标签,从而可以通过交叉熵范式驱动模型内化图像的语义类别。换句话说,我们利用交叉熵损失在无需负样本的情况下为模型提供了明确的优化目标。伪分类能够自动对图像文本对中的视觉概念进行分组,从而达到一个引入额外语义信息的效果。
  • 受半监督学习(semi-supervised learning)中伪标签技术和多模态学习中图像标题生成(image captioning)的启发,我们提出通过生成伪标题来为每对不匹配的数据提供更具信息量的监督(如图1右侧所示)。我们尽可能准确地为这些不匹配的数据对中的图像来生成伪标题。具体而言,利用的伪分类能力,我们同时计算干净数据和噪声数据的伪预测。然后我们根据这些预测的内在相似性来为噪声数据分配伪标题。我们的主要目标是确保所有用于训练的数据对都具有尽可能正确的对应关系,从而引导模型走向更好的学习轨迹。
  • 我们利用伪分类器在不同epoch之间的振荡预测行为,对干净的数据对进行简单但有效的对应关系校正。
图2. NCR(左)与PC2(右)的实验结果。我们的方法在干净数据上表现出更稳健的学习性能,保持逐渐收敛的趋势,同时尽可能减小噪声数据的影响。相比之下,NCR在学习干净数据时表现出了更震荡的学习过程,尤其是在开始从噪声数据中学习时。噪声数据的加入导致干净数据的损失开始出现明显的波动。

Dataset Contribution: Noise of Web (NoW)

我们为NCL开发了一个名为Noise of Web (NoW)的新基准数据集(图3)。它包含100K个【web page(图像)-meta description(文本)】数据对(98,000对用于训练,1,000对用于验证,1,000对用于测试)。NoW有两个主要特点:无需人工标注,噪声真实且自然。NoW的图像源数据是通过在移动设备上访问网页时截取屏幕截图(分辨率:720 1280)获得的,文本数据是通过解析网页的HTML源代码中的元描述(meta description)字段获得的。在NCR(NCL任务的提出者)中,所有被使用的数据集中的每张图像都使用Bottom-up Attention Model[3]提供的Faster-RCNN物体检测器进行了预处理,以生成36个检测区域。然后,每个区域都被编码为2048维特征。因此,我们同样发布的是检测区域的图像特征而不是原始图像,以便进行公平比较。但是,我们不能简单地使用刚才提到的Faster-RCNN来提取图像特征,因为NCR所使用的Faster-RCNN是在MS-COCO上针对现实世界的动物和物体进行训练而得到的,而这并不符合我们的数据域。为了解决这个问题,我们采用了在移动设备用户界面数据上训练得到的检测模型APT[4]。与NCR的做法类似,我们为每一张图像捕获前36个检测区域然后获得它们的特征,也就是说,我们将每一张图像编码为36 768的特征矩阵。我们没有人为地控制噪声比,所有的数据都是在网络上自动随机获得的. 该数据集的估计噪声比接近70% 。由于数据收集过程是自动化的,并且后期没有进行人工标注,因此NoW中的噪声高度真实且贴近工业环境。

图3. NoW中的示例数据。NoW中的图文对由网站页面及其对应的站点元描述组成。图中不同颜色的边界框显示了我们训练的检测模型APT[4]获得的提议检测区域。

Method: Pseudo-Classification Based Pseudo-Captioning () for Noisy Correspondence Learning


图4. PC2框架示意图。

我们的方法框图如图4所示。简单来说,给定一批干净数据,我们首先计算图像和文本标题的嵌入。然后利用伪分类器分别得到它们的伪预测。以文本的伪预测作为分类标签,使用标准交叉熵损失函数监督伪分类器在图像数据上的训练,以此通过非对比学习的范式来强化图文匹配的训练。同步地,给定噪声数据,我们首先丢弃其文本标题。我们将其中图像的嵌入输入到伪分类器中以获得其伪预测,然后从上述同步训练的干净数据批次中找出具有最相似的伪预测的一张图像。接着我们将该图像对应的标题分配给噪声数据中的图像作为伪标题,并且利用基于伪预测之间相似度自适应调整的边距的三元组对比损失来训练图文匹配模型。具体来说,给定一个图文对数据集,我们使用两个特定模态编码器分别计算图像特征嵌入和文本特征嵌入。跨模态检索的基本目的是将不同模态映射到统一的特征空间中,其中正对应表现出更高的特征相似度,而负对应表现出较低的相似度。给定图像-文本对之间的相似度使用给定的相似度度量函数S(I,T)确定。通常,学习任务的主要目标是通过最小化triplet ranking loss函数来优化,该函数受相似性度量和距离边距的影响:

其中, , 分别是将图像作为查询键的正样本对、负样本对和将文本作为查询键的负样本对。是batch中最难的负样本。在NCL中,噪声数据和干净数据是混合在一起的。因此,我们首先需要考虑的是如何尽可能正确地区分这两者。为简单起见,我们直接利用NCR[1]中基于DNN的记忆效应的_co-dividing_模块来预测样本为噪声数据的概率,通过设定一个概率阈值来将训练数据划分为干净数据部分以及噪声数据部分(详情见我们的论文的4.1节)。这个过程会在每一个epoch都进行一次。得到划分好的数据后,我们将开始的训练。

Pseudo-Classification: 伪分类

在NCL中,如何学习不匹配的数据至关重要。然而,许多以往的NCL方法往往忽视了对干净数据的学习的保护。如前文的图2中所示,一旦将不匹配的对引入训练,对干净数据的学习就会受到严重影响。为了增强对干净数据的训练,我们提出了一项辅助训练任务来强化对此类数据的学习。具体来说,在图像-文本对中,图像的标题可以被视为分类标签,其中是预定义的超参数。因此,对图像-文本对进行训练可以被理解为路分类任务。例如,我们可以将数据集中的标题分为两个主要类别(即):自然景观的描述和生物(行为)的描述。我们的目标是训练模型将自然景观图像和包含生物体的图像分组到各自的类别中。为了实现这一目标,我们建立了一个_伪分类器_ ,并利用干净数据中的标题为训练生成伪标签。具体来说,给定一小批干净数据,batch大小为,我们首先计算伪预测,其中是概率向量(即软标签)。接下来,我们在硬伪标签和图像的伪预测(即)之间使用交叉熵损失进行训练:

其中表示分布之间的标准交叉熵损失。硬伪标签在半监督学习中被广泛利用,以实现熵最小化,这有助于模型做出高度自信的预测。此外,为了避免将所有样本分配到单个类,我们最小化熵损失,以将伪预测尽可能地均匀分布在所有类中:

我们的伪分类损失还有助于模型捕捉样本之间的相似性关系。它加强了模型对干净数据中的学习能力,增强了其抵抗噪声数据干扰的能力。

Pseudo-Prediction Based Pseudo-Captioning: 基于伪预测的伪标题生成

利用伪分类器,我们设计了一种简单有效的方法将伪标题分配给噪声数据中的图像。给定一小批数据,我们首先计算干净图像和噪声图像的伪预测。然后,对于每个噪声图像,我们通过以下公式分配伪标题

其中是一个可用于计算两个分布之间相似度的函数。然后,我们将噪声图像和组合成伪对并代入三元组损失函数Eq.(1),旨在为模型训练提供更准确的监督信号。由于我们无法保证找到的伪标题能准确反映噪声图像的语义信息,我们动态调整边距以确保模型在训练期间受益于更准确的对应水平。具体来说,我们自适应地调整三元组损失Eq.(1)中的:

其中是预定义的曲线参数。这里公式定义的动机是,如果伪预测的相似度较高,则噪声图像与(即原始数据对中具有的图像)之间的相似度也应该较高,这表明噪声图像与之间的对应性更强。然后,对于给定batch中的噪声数据,我们通过最小化以下损失来训练模型:

Prediction Oscillation Based Correspondence Rectification: 基于预测震荡的对应关系矫正

除了特别关注噪声数据外,对干净数据的学习也不能掉以轻心,因为我们无法保证不匹配的对没有被错误地包含在干净数据中。因此,我们引入了一个对应性校正模块,其核心思想如下:从基于具有正确对应性的标题的伪标签中学习到的图像伪分类结果应该是稳定的,即振荡的伪预测表示所学习的图像-文本对中的对应性较低。我们将_预测振荡_定义为相邻epoch之间模型对同一样本的预测之间的差异。差异越大,振荡越大,表明模型对该样本的预测信心越低,并且在抵抗基于标题的分类标签提供的监督信号。这暗示了图像和标题之间的对应性较弱。这种模式与[1]中提到的DNN的记忆效应非常相似。令表示epoch 的伪预测,其预测震荡的评估方式为:

其中是分布之间的KL散度。我们将输入到前文提到的数据分离模块中,得到基于预测振荡的清洁概率。按照Eq.(5),我们将对应强度投射到三元组对比损失Eq.(1)的边距,以帮助学习干净的数据,即

其中是指示函数。接下来,对于给定batch中的干净数据,我们最小化以下损失:

总而言之,的总损失可以表示为

其中是预定义的损失权重。

Experiments

我们在多个人工构造的NCL数据集上验证了我们方法的有效性(图5),包括:Flickr30K和MS-COCO。同时,我们在自己提出的NCL专用基准NoW上同样证实了我们方法的性能优越性(图6)。详细的实验设定请参阅我们的论文。

Flickr30K和MS-COCO


图5. 在Flickr30K和MS-COCO上的召回率R@1,R@5,R10以及Rsum的性能比较。

NoW

图6. 在提出的数据集NoW上的召回率R@1,R@5,R10以及Rsum的性能比较。更多在NoW上的实验结果可以参考我们的补充材料。

消融实验

图7. PC2中各组件的消融实验。

如图7所示,我们验证了中各个组件的有效性,其中P-Cls为伪分类模块,P-Cap为基于伪分类的伪标题生成模块以及CR为基于预测震荡的对应关系矫正模块。其他的实验结果,更多的基线对比方法,更全面的超参数分析请参阅我们的论文和补充材料。

总结

在本文中,我们引入了框架,以在存在噪声对应的跨模态检索学习中提高模型鲁棒性。创新地使用伪分类和伪标题来对不匹配的数据对产生更丰富的监督信号,同时我们的实验展示了相对于现有技术的优势。另外,我们通过开源Noise of Web (NoW)数据集(NCL的一个新强大基准)为NCL社区做出了进一步的贡献。未来,我们将探索在多模态学习中其他领域的潜力。

参考文献

[1] Zhenyu Huang, Guocheng Niu, Xiao Liu, Wenbiao Ding, Xinyan Xiao, Hua Wu, and Xi Peng. 2021. Learning with noisy correspondence for cross-modal matching. In Advances in Neural Information Processing Systems.

[2] Shuo Yang, Zhaopan Xu, Kai Wang, Yang You, Hongxun Yao, Tongliang Liu, and Min Xu. 2023. BiCro: Noisy Correspondence Rectification for Multi-modality Data via Bi-directional Cross-modal Similarity Consistency. In IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[3] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. 2018. Bottom-up and top-down attention for image captioning and visual question answering. In IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[4] Zhangxuan Gu, Zhuoer Xu, Haoxing Chen, Jun Lan, Changhua Meng, and Weiqiang Wang. 2023. Mobile User Interface Element Detection Via Adaptively Prompt Tuning. In IEEE/CVF Conference on Computer Vision and Pattern Recognition.

关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

   喜欢的话,请别忘记点赞👍➕关注哦 



🌟推荐阅读

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF!高效感知多传感器融合,解决3D语义分割问题

ACL 2024 |南京大学与上海AI Lab提出多模态GUI智能体,像人一样操作手机电脑

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章