CVPR2024-多模态MLM新SOTA,因果上下文生成解决视觉问答任务

文摘   2024-06-18 07:54   英国  

论文链接:

https://arxiv.org/abs/2312.06685

代码链接:

https://github.com/zhaoshitian/Causal-CoG

简介

虽然多模态语言模型 (MLM) 表现出令人印象深刻的多模态能力,但它们仍然难以为视觉问答 (VQA) 等任务提供事实和精确的响应。作者从上下文信息的角度应对这一挑战,提出了因果上下文生成模型(Causal-CoG),利用上下文信息来增强推理过程中精确 VQA 的提示策略。具体来说,提示 MLM 生成上下文,即图像的文本描述,并利用生成的上下文来回答问题。此外,作者从因果关系的角度研究了上下文在 VQA 上的优势,引入因果关系过滤来选择上下文信息有帮助的样本。在 10 个多模态基准上的实验显示了提出模型的有效性。作者希望 Causal-CoG 能够激发对多模态模型中上下文知识的探索,并作为 MLM 解码的即插即用策略。

研究动机及论文贡献

MLMs致力于解决与幻觉(Hallucination:指生成的内容是无意义的或不忠实于所提供的源内容)相关的问题。当使用误导性查询(例如图像中是否存在对象)进行询问时,模型可能会预测错误的响应,并且可能难以掌握图像中多个对象之间的复杂关系。如图 1 所示,当针对包含几乎看不到的小监视器的图像询问“图像中是否有监视器”时,当前的MLM错误地预测答案为“否”。这种无法基于视觉内容提供事实答案的情况在 MLM 中很常见,原因可能是训练数据中的shortcuts和噪声、缺乏有效对齐两种模式的建模能力等。

语言社区中已经有一些探索来推动现成的 LLM,例如思维链、思维树和检索增强生成等。同时,视觉语言社区中的现有工作通过捷径去偏差或通过各种损失函数更好地对齐视觉和语言模态来改进多模态模型。然而,这些工作需要训练,因此不能轻易应用于现成的 MLM。

因此,作者从上下文知识的角度改进了 MLM 推理,提出了具有因果关系视角的上下文生成模型,称为 Causal-CoG,这是一种 MLM 的提示技术。该方法如图 2 所示。具体来说,不是直接提示 MLM 回答问题,而是首先通过使用简单的提示(如“描述这张图片”)(以不同的灵活方式重新表述)来生成图像的描述(即上下文),然后提示模型根据生成的上下文描述回答问题。通过多次提示运行,可以生成不同的上下文描述,这为回答问题提供了丰富的信息。此外,为了从多个生成的候选中选择最有帮助的上下文,作者利用因果推理并从因果关系的角度看待上下文。最后,提出了一种候选聚合方法,考虑到上下文对答案的影响,将更大的权重分配给更好的候选。

论文贡献如下:

(1)提出了 Causal-CoG,这是一种无需训练的解码策略,可以轻松应用于现成的 MLM,以生成 VQA 的事实响应。

(2)Causal-CoG 探索上下文知识的使用,使用因果关系进行上下文过滤和聚合。

(3)在 10 个数据集上进行的大量实验证明了方法的有效性。Causal-CoG 持续提升 MLM 的性能。

方法

VQA 中的因果关系与上下文

因果图是有向无环图,用作节点之间因果关系的图形表示。它通常表示为 G = {V, E},其中 V 表示因果图中的变量集,E 表示变量对之间的因果关系集。根据图 3 中的上下文构建了 VQA 特有的因果图。当使用上下文进行 VQA 时,图像(I)、问题(Q)和上下文(C)被输入到 MLM,MLM 可以输出不同选项上的似然分布,称为 Y。在图3中,如果两个变量之间存在因果关系,例如C和I,则可以用I → C来表示。

因果效应是一种评估有或没有特定治疗的潜在结果之间对比的指标。在图 3 中,I 充当 Y 的treatment。 I 和 Y 之间有两种不同类型的效果:直接效果 (I → Y ) 和通过生成的上下文产生的间接效果 (I →C → Y )。在因果关系中,I对Y的总效应(TE)是通过比较Y(I,C,Q)和Y(Q)来计算的,表示为

其中E[·]表示期望运算,Y(I,C,Q)表示在VQA任务中得到的答案,以I、C和Q作为输入。 TE 包含两个基本组成部分:自然直接效应 (NDE) 和总间接效应 (TIE)。通过固定变量 C,通过对比有 I 和没有 I 的潜在结果来计算 NDE,公式如下:

TIE代表TE和NDE的区别:

因果上下文生成

上下文生成 在 CoG 的框架内,使用以下提示来指示模型生成所提供图像的详细描述:“在回答这个问题之前,请给出该图像的详细描述。”该生成的描述随后称为“上下文”。请注意,生成上下文的 MLM 与应用 Causal-CoG 的 MLM 相同

因果过滤 生成的上下文提供了图像的相关描述。但它并不总是有助于回答问题,如图 4 所示。该图强调了生成的上下文有可能引入不相关甚至错误的信息来回答问题,从而增加了模型响应不正确的可能性。在这种情况下,上下文可以被视为问答过程中的噪声源,与没有 CoG 的模型相比,这可能会导致性能较低,如图 4 所示。因此,评估生成的上下文是否对给定样本有益非常重要。本质上,我们需要设计一种过滤机制来确定生成的上下文对于各个样本的效用。

在因果关系文献中,我们有能力计算提供的 I 和 Y 之间的自然直接效应 (NDE) 和总间接效应 (TIE)。 NDE、TIE的实际计算方法如下:

由于 E[·] 代表期望操作,因此生成多个候选,由生成的上下文和相应答案的似然分布组成,以估计期望值。

对于任何给定的样本,如果 NDE < TIE,则意味着间接效应在回答问题中发挥着更关键的作用,表明上下文有助于有效解决问题。因此,选择这样的样本来应用 CoG 技术。相反,对于 NDE > TIE 的样本,选择使用 MLM 直接生成的答案作为最终答案。

候选聚合 如图 4 所示,某些上下文可能不会对问题的答案产生显著影响。因此,作者认为通过生成的上下文调节答案图像 TIE 值较高的候选者“更好”。计算第i个候选者的个体级TIE值并将其表示为,其表示为:

在这里,量化了间接影响的程度,并有助于评估候选人利用上下文回答问题的有效性。

对于使用 CoG 的样本,需要考虑每个候选人的 ,汇总候选人的答案以获得最终答案。假设我们采样了 N 个候选,每个候选都包含一个上下文和一个相应的答案。得到每个候选人的后,

挑选 TIEc 中的前 k 个候选,并将其索引分组为集合。然后,只保留前 k 个候选者的值,同时通过以下方式将其他候选者的值设置为零:

最后,根据每个候选者的 ,可以使用加权多数投票得到样本的最终答案。

实验验证

表 1 显示了 10 个基准测试的总体结果。 Causal-CoG 在大多数基准测试中显着提高了 LLaVA 和 LLaVA-v1.5 的性能。对于 LLaVA,Causal-CoG 的准确度比 POPE、Winoground*、VQAv2* 和 Vizwiz* 提高了 5.00% 以上,比其他基准测试绝对提高了 2.00%-3.00%。在表 1 中,Ensemble 和 One-shot 适用于某些数据集,逐渐提高了准确性,而这两种方法可能会导致其他数据集(例如 VSR、VQAv2* 和 GQA*)上的性能下降

更详细的内容和实施过程请访问点击👉 论文原文

喜欢的话,请别忘记点赞👍➕关注哦~


多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章