点击上方蓝字关注我们
EFUF: Efficient Fine-grained Unlearning Framework for Mitigating Hallucinations in Multimodal Large Language Models
作者:
Shangyu Xing, Fei Zhao, Zhen Wu, Tuo An, Weihao Chen, Chunhui Li, Jianbing Zhang, Xinyu Dai
作者单位:
南京大学计算机软件新技术国家重点实验室
论文链接:
https://arxiv.org/pdf/2402.09801
代码链接:
https://github.com/starreeze/efuf
简介
为了消除多模态大语言模型(MLLM)的幻觉问题,现有方法手动注释有幻觉和无幻觉的成对响应,然后采用各种对齐算法来提高图像和文本之间的对齐能力。然而,它们不仅在微调阶段需要大量计算资源,而且还需要昂贵的人工注释来构建对齐算法所需的成对数据。因此,文中提出了一种高效的细粒度遗忘框架(EFUF),利用三个定制损失执行梯度上升,以消除没有配对数据的幻觉。大量的实验表明,该方法可以持续减少幻觉,同时以适中的计算开销保持生成质量。
研究动机
缓解多模态幻觉的方法可以分为两类:基于推理的方法和基于微调的方法。基于推理的方法在推理阶段通过外部专家评审、自我反思或解码策略来纠正或限制生成的内容。然而,它们通常需要额外的推理步骤,从而增加成本和延迟。此外,每项任务都需要特定的程序或提示增加了实施的复杂性。为了克服这些缺点,提出了基于微调的方法,通过专门的数据集和偏好对齐算法直接调整模型。尽管这些方法都取得了一些成效,但仍然存在两个关键问题:
首先,数据需求很大,因为需要一套全面的配对正负样本来进行有效的微调。且采用的对齐算法要求每个查询都有配对的幻觉和非幻觉响应。
其次,利用这些对齐算法对 MLLM 进行微调通常需要大量的计算资源。这些技术大多数都很复杂,需要同时操作多个模型来执行偏好对齐,从而显著增加总体成本。
论文贡献
1)提供了一个新的视角来利用遗忘来减轻 MLLM 中的多模态幻觉。
2)提出了一种高效的细粒度去学习框架EFUF,以经济高效且可靠的方式分别获取正例和负例。
3)EFUF具有良好的兼容性,可以轻松扩展到现有的MLLM。在一系列 MLLM 上进行的实验验证了所提出方法的有效性。
方法
图 3:EFUF 总体框架。
EFUF分为两个阶段:数据集形成和忘却过程。首先,从生成的标题中提取对象并利用 CLIP 计算其图像相关性,然后构建三个数据集。随后,定制三个相应的损失来微调模型。
具体来说,在构建数据集时,首先利用提示模型为给定图像生成标题。之后,利用 CLIP 模型计算文本中的宾语短语与图像中相应片段的细粒度相似度得分。通过设置分数阈值,能够从生成的文本中辨别和编译不同的样本,形成用于微调的数据集,从而避免了劳动密集型的手动注释的需要。
在微调阶段,文中采用了一种有效的忘却方法,其中涉及三种不同类型的损失的发展。这些损失旨在帮助模型丢弃可能导致幻觉的不正确的多模态对齐,同时保留任务必需的正确对齐。与传统的对齐算法相比,取消学习在微调阶段通常需要更少的计算资源,因此也可以有效减少计算量。
数据集形成
在使用 MLLM 实施遗忘之前,必须定义遗忘的目标,并相应地组装必要的正样本和负样本。文中应用预定的图像相关性阈值来过滤幻觉和非幻觉对象。
鉴于单个响应可能包含幻觉和非幻觉物体,因此有必要采用细粒度的方法来消除学习。我们没有试图完全忘记整个反应,而是选择有针对性的策略,重点关注与对象相对应的子句,并用标点符号划分。此外,为了保留模型的总体句子理解和能力,除了正面和负面子句之外,我们还根据所有包含对象的平均图像相关性分数来编译完整句子的样本。这三类样本共同构成了为遗忘过程量身定制的数据集,有助于更细致、更有效地缓解多模态幻觉。
令 表示 MLLM 的微调数据集,其中 v 是图像,x 是文本查询(提示),y 是文本答案。正子句数据集被表述为:
其中cur(o)表示宾语o所在的子句,pre(o)表示cur(o)之前的所有文本,包括提示,T0是正样本的阈值。cur(o) 之后的文本被截断且未使用。类似地,否定子句数据集定义为
其中T1是负样本的阈值。为了构建一个具有完整反应的综合数据集,有必要建立一个评估句子级幻觉的指标。这是通过计算响应中所有引用对象的平均图像相关性得分来实现的。该句子级图像相关性得分的公式由下式给出:
通过这个指标,通过从模型中过滤出满足特定标准的响应来管理响应数据集:
其中 表示响应 的提示, 是响应样本的阈值。
最后,将 作为忘记学习(Unlearning)数据集。
Unlearning for MLLM
构建数据集后,将遗忘技术应用于模型。先前的研究(Eldan 和 Russinovich,2023)表明,仅使用忘却损失会严重破坏模型的语言理解,使其无法生成连贯的句子。因此,文中引入了一种双方面的细粒度遗忘方法:对包含幻觉对象的子句子应用负损失,对包含非幻觉对象的子句子应用正损失。该策略旨在减少幻觉内容的产生,同时鼓励精确的物体表征,从而减少幻觉的发生。同时,提出了句子损失,旨在保留模型生成有凝聚力的长文本的能力。
正如之前的研究表明,遗忘的核心是梯度上升策略。形式上,忘记学习通过以下方式更新模型参数:
其中 θ 表示模型参数,η 是(un)学习率, 表示微调损失函数。在多模态大语言模型的背景下,监督微调损失函数 L 表示为:
其中 表示带有参数 θ 的模型,计算预测值和实际值的交叉熵损失。
为了在保持整体模型有效性的同时抵消幻觉,我们引入了针对我们构建的数据集量身定制的三种不同的损失。第一个称为负损失,将梯度上升应用于负子句,如下所示:
损失函数的反转使得梯度上升成为可能。第二个是正损失,旨在鼓励模型生成正确的对象,其公式保持简单:
最后,句子损失旨在在遗忘过程中保留模型对完整句子的理解和能力:
然后,总体损失方程变为这三个组成部分的加权合并:
在训练过程中,对三个数据集进行并发采样、单独损失计算和聚合,以得出最终的损失指标。通过这样做,可以有效地减轻幻觉并保持模型处理大量句子的能力。
实验结果
如表 2 所示,评估了各种 MLLM 的 EFUF,评估了幻觉率和生成质量。幻觉率。根据结果,我们的方法表明所有四个 MLLM 的幻觉率持续降低,ChairS 和 ChairI 指标平均提高约 15% 和 5%,HumanS 和 HumanI 指标平均提高 18% 和 8%, POPE 指标的 1%。这些发现验证了我们方法的有效性和适应性,强调了其在尖端模型中显着降低幻觉率的能力。
表 5 报告了基线模型、EFUF 和竞争方法的结果。与其他幻觉缓解策略相比,EFUF 在这些基准测试中表现出适度的性能波动,这表明我们的方法不会对 VQA 和推理能力产生负面影响。
致谢作者,转载请注明出处,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(上)
NeurIPS 2024|多模态学习重磅论文全览!最新研究集锦,不容错过!(下)