上海AI实验室发布一种基于主题级自我校正的方法以缓解多模态大模型(MLLMs)的幻觉问题

文摘   2024-12-05 07:01   新加坡  

Abstract

将多模态大语言模型(MLLMs)的行为与人类偏好对齐是开发稳健且可信的人工智能系统的关键。尽管最近的尝试采用了人类专家或强大的辅助AI系统提供更准确的偏好反馈,例如从MLLMs生成的响应中确定更优选的响应或直接改写无幻觉的响应,但大量的资源消耗限制了这种反馈收集的可扩展性。

在本文中,我们提出了一种主题级偏好覆盖(TPO)方法,这是一种自我校正方法,能够引导模型在主题级别上缓解自身的幻觉问题。通过一种去混杂策略(deconfounded strategy),将响应中的每个主题替换为模型自身生成的最佳或最差替代项,TPO能够生成更具对比性的成对偏好反馈,从而提高反馈质量,无需人为干预或专有模型的参与。

实验结果表明,所提出的TPO方法在可信度上达到了最先进的性能,将目标幻觉减少了约92%,总体幻觉减少了约38%。代码、模型和数据将很快发布。

欢迎加入自动驾驶实战群


Introduction

为了解决可扩展性问题,我们提出利用参考模型本身以一种自我校正的方式来增强偏好对,而无需人工或专有模型的干预。通过使模型能够识别并修正自身的幻觉,我们旨在自动化并扩大反馈收集的规模,同时保持语言风格的一致性。然而,这种自我校正方法面临两个关键挑战:(1)在没有外部验证的情况下,模型如何可靠地检测自身的幻觉?(2)鉴于模型的固有局限性和潜在偏见,如何充分放大原始响应和修正响应之间的可信度差距,以推动有意义的偏好优化?

为了解答上述问题,我们提出了主题级偏好覆盖(TPO)方法,用于解决幻觉问题,如图1(c)所示。与直接检测和修正完整响应中的幻觉不同,我们采用一种去混杂算法,将复杂响应中的所有主题(如实体、属性、动作等)替换为参考模型在同一主题上多次重新采样生成的最佳或最差替代项。通过将修正范围缩小到主题级别,我们简化了响应在语义和结构上的复杂性,从而实现更精确的候选重新采样以及在主题级别对幻觉的更显著对比。

为此,我们将参考模型的多个响应分解为细粒度的子响应,每个子响应代表一个独立的主题,并为每个子响应重新采样更多候选项。为了避免替换为不匹配的主题,我们对所有候选子响应执行主题聚类。为了区分参考模型提出的幻觉候选项(即每个主题下的所有候选子响应之间的替代项),我们引入了一个开源标注模型(可以是参考模型本身)对子响应进行评估,在主题级别构建偏好对。这些主题级偏好对随后以上下文的方式用来修正或破坏原始响应中的相应子响应,同时保持语言风格的一致性。通过主题级覆盖,我们生成了更显著的成对偏好,放大了反馈中的可信度差距,无需人工或专有模型干预。最终,这促进了一个可扩展的偏好学习反馈收集管道。

Method

典型的RLHF(基于人类反馈的强化学习)或RLAIF(基于人工智能反馈的强化学习)框架利用人类专家或辅助AI标注器(πlabel)对参考模型(πref)生成的响应( R )(即目标MLLM,需要进行微调的模型)进行评估。得分较高的响应被视为优选响应( R_win}} ),得分较低的则被视为次选响应( R_lose ),从而构建偏好对( (R_{win}}, R_{{lose}}) )。这些偏好对被用于微调参考模型以进行偏好学习。

在本研究中,我们旨在以自我校正的方式有效增强偏好对,而无需人工或专有MLLM的介入。为此,我们提出了一种主题级自我校正范式(TPO),用于减少幻觉问题,包含两个主要步骤:主题聚类主题覆盖。我们分别在第3.1节和第3.2节详细阐述这两个步骤。需要注意的是,除了参考模型πref和标注模型πlabel外,我们还使用了辅助大语言模型πsup进行数据处理。进一步的分析和比较见第3.3节。

3.1 主题聚类

3.1.1 主题级候选项

分解(Decomposing)
在许多场景中,MLLMs生成的响应可能较为复杂和模糊,涵盖多种主题,例如不同的属性、复杂的视觉/空间关系或微妙的上下文含义。因此,直接修正整个响应是一项具有挑战性的任务,尤其是当仅依赖能力有限的参考模型时。受到近期研究【7, 45】的启发,我们通过首先将响应分解为一组细粒度的子响应(每个子响应包含一个明确的主题),然后基于各自的主题进行修正或污染,从而在主题级解决幻觉问题。

具体来说,给定一个输入图像及其对应的指令,我们首先让参考模型πref使用不同的随机种子生成多个响应( R )。接着,我们提示辅助模型πsup将所有响应分解为候选子响应集合({r_1, r_2, \dots, r_N})。每个分解后的子响应关注一个具体的主题,例如时间或天气。

重新采样(Resampling)
为了扩展更多候选子响应,πsup会被指示将每个子响应( r_i )转换为一个“wh-问题”(例如,“大本钟上的时间是3:30。”→“大本钟上的时间是什么?”)。然后,我们让参考模型πref回答这些问题,从而重新采样出额外的子响应。直观上,重新采样的子响应往往更为准确,因为转换后的wh-问题通常针对图像中的具体细节提问,能够引导参考模型生成更加直接且精确的结果,无论是在视觉理解还是文本内容方面。

通过分解和重新采样,我们可以获得更加多样化和鲁棒的主题级候选项,用于后续的修正。这种方法还支持有效的自我校正,突破了参考模型自身的固有限制。

3.1.2 主题聚类

为了确保修正内容来自同一主题,我们通过主题对所有子响应进行聚类。我们根据文本和视觉语义判断子响应( r_i )和( r_j )是否属于同一主题( c )。

文本一致性

视觉相关性

我们还评估子响应与输入图像视觉标记之间的关联性。如图3所示,我们计算( r_i )与每个视觉标记之间的相似性,以识别图像中( r_i )描述的特定区域。然后,我们判断( r_i )的视觉-语言相似性是否与( r_j )的相似性相关,从而确认它们是否描述了图像中的相似区域。


3.2 主题覆盖

3.2.1 评分

标注模型

先前的幻觉修正框架假设由人类专家或外部专有MLLM提供正确的修改,从而生成高质量反馈,省去了评估质量的标注模型需求。而在自我校正框架中,由参考模型自行修正幻觉,这需要引入额外的标注模型来区分参考模型提出的幻觉替代方案,即同一主题下的细粒度子响应。最细粒度评分(例如对子响应进行评估)能够生成更加稳健的结果。因此,一个能力适中的模型,甚至是参考模型本身,都可以有效地作为标注模型使用。


3.3 分析

与传统RLAIF方法的对比

传统RLAIF方法利用标注模型生成反馈而不进行修正。反馈质量高度依赖于参考模型生成的响应质量以及标注模型的评估能力。然而,一方面,现有的MLLMs存在幻觉问题,导致生成的响应难以完全信任。另一方面,现有的评估策略设计也存在不足,仅仅选择幻觉较少的响应,却忽略了响应质量差的根本问题。相比之下,TPO通过修正或干扰扩大了偏好对之间的可信度差距,提升了成对偏好反馈的质量。

与现有修正方法的对比

现有修正方法通常依赖人工标注或超大型专有MLLMs,要么直接执行幻觉修正,要么收集额外数据集用于训练幻觉检测模型。这导致资源开销巨大,限制了反馈数据的可扩展性。此外,使用辅助AI系统改写响应以进行修正可能会引入语言风格不一致的问题。

为揭示一致性对偏好学习的影响,我们进行了一个简单实验(如表1所示)。具体而言,我们使用OmniLMM-12B生成的反馈数据微调LLaVA-1.5-7B模型。尽管OmniLMM表现优越(实验1a对比1b),但其与LLaVA模型不一致,导致效果不佳(实验1c对比1d)。相比之下,TPO采用自我校正范式,解决了上述问题,并进一步增强了MLLMs的可信度。

4 Experiment

4. 实验

在本节中,我们进行了一系列综合实验,评估TPO在通过主题级自我修正管道减少幻觉方面的有效性。

4.1 实现细节

模型
为了确保公平比较,我们在所有实验中使用LLaVA-1.5-7B作为参考模型,保持与近期研究一致。对于标注模型,我们应用LLaVA-NeXT-34B或LLaVA-1.5-7B本身。此外,在TPO中,我们应用LLM,即LLaMA-3作为辅助模型进行数据处理。

偏好学习
我们采用了原生的DPO进行偏好学习,通过TPO构建的偏好对对参考模型进行微调。对于DPO训练,我们使用AdamW优化器,批处理大小为8,学习率为( 5 \times 10^{-7} ),并采用余弦衰减策略。参考模型在8个NVIDIA A100 GPU上微调1个epoch。

4.2 实验设置

评估基准
我们在多个基准上评估TPO的可信度和通用能力。可信度评估包括3个基准:Object HalBench,MMHal-Bench和AMBER(判别部分)。而通用能力的评估包括2个基准:LLaVA-Bench【(野外)和MMStar。关于评估基准的更多细节,请参见附录B.1。

比较对照组
我们将TPO与多种基于RL的方法进行比较,包括那些利用人类专家标注的反馈,使用超大专有MLLMs(如GPT-4V)生成的反馈,使用预定义规则制作的反馈【以及来自开源模型的反馈。关于对照组的更多细节,请参见附录B.2。


4.3 主要结果

主要结果展示在表2中。我们总结了几项观察结果。

SOTA可信度
应用TPO进行偏好学习显著提高了我们的参考模型(即LLaVA-1.5-7B)的可信度,在Object-HalBench上减少了约92%的幻觉率,在MMHal-Bench上减少了38%。与其他使用反馈学习的7B或13B模型相比,我们的方法在可信度方面达到了最先进的性能,突显了所提出的TPO的有效性。

提高通用能力
TPO在LLaVA-Bench和MMStar基准上提高了参考模型的通用能力,表明TPO增强了MLLMs的可信度,而不会牺牲它们的通用能力。

缓解对象级幻觉
除了通过视觉指导进行对齐外,在主题级区分或修正文本反馈可以显著减轻对象级幻觉,这一点从Object-HalBench的结果中得到了证实。在这些方法中,我们的TPO通过细粒度的主题覆写对与对象相关的幻觉进行更有效的修正。

与检测后重写范式的对比
除了全参数微调外,我们还实现了基于LoRA的TPO学习,与HSA-DPO(一种检测后重写框架)进行直接比较,旨在减少幻觉。实验结果表明,TPO在多个基准上始终优于HSA-DPO。

轻量级标注模型
我们使用LLaVA-1.5-7B作为标注模型进行反馈收集。实验结果表明,这种设置在减少参考模型幻觉方面也取得了良好的改进。这归因于主题级自我修正设计,在这种设计下,标注模型仅需评估细粒度的子响应,从而减少了对标注模型强大能力的需求。

4.4 消融研究

在本节中,我们进行了一些消融研究,以调查以下问题:

  1. TPO中每个组件的贡献是什么?
  2. 即使在基础模型的固有限制下,主题级候选能否使TPO实现有效的自我修正?
  3. 应用TPO后,反馈质量是否得到改善?
  4. TPO促进的反馈数据可扩展性是否最终改善了模型在可信度方面的表现?

为了方便起见,除非另有说明,在这些实验中我们生成了一部分反馈数据用于偏好学习。

主题级候选
主题级候选的质量至关重要,因为它直接决定了修正后的响应质量。为了获得这些主题级候选,TPO中的参考模型首先生成多个响应,这些响应随后被分解为子响应,并进行了多次重采样。如表3所示,利用多个响应进行分解和重采样。

额外子响应候选的有效性

实验表明,额外的子响应候选对于提高反馈质量非常有利(exp 3a/b vs. 3c),因为它增加了给定主题的子响应的多样性。对于那些在响应中出现频率较低的主题,它提高了后续用高质量替代品进行覆盖的可能性。此外,重采样的子响应候选往往更加准确,具有简洁性和鲁棒性。我们还在图4中提供了一个直接比较,比较了使用不同主题级候选构建的响应的丰富性和可信度。

主题聚类

我们探索了不同的主题聚类策略。正如表4所示,考虑文本和视觉语义非常重要(exp 4a/b vs. 4e),因为它有助于减少不同实体在文本层面上共享相似主题时产生的歧义,从而避免与视觉上不相关的子响应进行覆盖。我们在图5中提供了一个主题聚类的例子,进一步帮助理解主题聚类在TPO中的有效性。

覆写策略

在表5中,我们对不同的覆写策略进行了消融实验。与仅依赖得分来区分偏好的方法(如[46])不同,我们的实验结果表明,覆写显著提高了反馈质量(exp 5a vs. 5d)。此外,专注于提高首选响应质量的方法(如[41, 45])忽视了构建高质量劣质响应的好处。TPO不仅提高了首选响应的质量,也提高了劣质响应的质量,这加大了偏好对之间的差距(exp 5b vs. 5d),最终提高了MLLM的可信度。最后,采用上下文覆写可以缓解潜在的风格不一致,提高偏好学习的效率(exp 5c vs. 5d)。

反馈质量

我们在图6中提供了关于反馈质量的定量比较。具体来说,我们比较了TPO生成的首选响应与标注模型识别的响应和原始响应的质量。我们根据GPT-4V评估审查对其信息量和可信度进行了评估。结果表明,TPO优于其对比方法,展示了TPO可以显著提高反馈质量,既在信息量上,也在可信度上。此外,我们还在附录C中提供了几个定性案例研究,直观地展示了TPO如何提高偏好反馈的质量。

数据可扩展性

由于TPO不依赖于人工干预或超强的专有模型,它使我们能够以较低的成本收集更多的反馈数据,用于减少幻觉。我们还探索了数据规模对模型可信度表现的影响。具体来说,我们分别生成了不同量级的反馈数据集(2k/4k/8k/16k),并用这些数据微调基础模型。结果如图7所示,我们发现,随着数据规模的增加,模型的可信度不断提高。与基于手动标注的修正框架(见表6)相比,尽管它们在某些方面提供了高质量的反馈,但其高昂的成本使得扩大反馈数据集成为挑战。我们的TPO随着数据规模的增加轻松超越这些修正框架。未来,我们计划基于TPO建立更多高质量的反馈数据集,以实现更好的可信度。

结论

文章的贡献如下:

  1. TPO方法通过自我校正显著提升了机器学习大型模型(MLLMs)的可信度,无需人工或专有模型干预。
  2. TPO在多个幻觉基准测试中达到了最先进的水平,特别是在ObjectHal-Bench上减少了约92%的幻觉,在MMHal-Bench上减少了约38%的幻觉。
  3. 通过将基础模型与自身对齐作为标注模型,TPO显著降低了模型自身的幻觉,分别在ObjectHal-Bench上减少了约88%,在MMHal-Bench上减少了约12%,从而突破了模型的固有局限性。


最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。


AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。


长按扫描下面二维码,加入知识星球。



Ai fighting
全网第一且唯一分享自动驾驶实战,以代码、项目的形式讲解自动驾驶感知方向的关键技术,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
 最新文章