点击上方蓝字关注我们
Hallucination Augmented Contrastive Learning for Multimodal Large Language Model
作者列表: Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang 作者单位: 北京大学 阿里巴巴 论文链接: https://arxiv.org/abs/2312.06968 代码链接: https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl
简介
今天解读“Hallucination Augmented Contrastive Learning (HACL)”方法,旨在解决多模态大语言模型(MLLMs)中的幻觉问题。通过分析文本和视觉标记的表示分布,发现文本和视觉表示之间存在显著的模态差距,以及包含幻觉和不包含幻觉的文本表示交织在一起。为此,文中将对比学习引入MLLMs,并使用幻觉文本作为硬负样本,提升了非幻觉文本与视觉样本的表示对齐效果,从而有效减轻了幻觉问题。
研究动机
尽管多模态大语言模型(MLLMs)在自然语言处理和视觉任务中表现出色,但它们在生成内容时仍存在幻觉问题,即生成的内容与输入视觉信息不一致或不真实。当前方法在处理幻觉问题时存在不足,尤其是在跨模态表示对齐方面。
图 1. 子图 (a) 和子图 (b) 显示了 LLM 为视觉或文本标记序列生成的最后一个标记表示的分布。蓝色图标代表图像,绿色图标代表真实字幕,红色图标代表 GPT-4 生成的幻觉字幕。在子图(a)中,文本和视觉表示具有跨模型语义差距,而非幻觉和幻觉文本表示是混合的。子图(c)显示了幻觉评估基准MMhal-Bench 和模型性能评估指标MME的实证结果。
如图1所示,
尽管有视觉投影,文本和视觉标记之间仍然存在显着的模态差距;
包含和不包含幻觉的文本表示是纠缠在一起的,因此很难区分它们。
论文贡献
分析发现模态差距和表示交织问题:首次揭示了MLLMs中文本和视觉表示之间的显著模态差距,以及幻觉文本和非幻觉文本表示交织在一起的问题。 提出HACL方法:通过引入对比学习,并将幻觉文本作为硬负样本,显著改善了跨模态表示对齐效果,从而减少了幻觉的发生。 实验验证:实验结果表明,HACL方法不仅减少了幻觉的发生,还显著提高了模型在多个基准测试中的性能。
HACL方法
方法框架
HACL方法的核心思想是在对比学习中使用幻觉文本作为硬负样本,以此来改善文本和视觉表示的对齐效果。论文整体框架如图2所示:
图 2. 子图 (a) 为HACL。在此框架中,采用 GPT-4 生成幻觉字幕作为图像到文本对比学习中的硬负样本。子图(b)显示了HACL的训练范例。
具体包括以下几个步骤:
跨模态对比学习: 将视觉和文本标记序列分别输入到大语言模型中,获取每种模态的全局表示。然后,使用对比学习来拉近非幻觉文本与视觉样本的表示距离,同时推开幻觉文本与非幻觉文本的表示。 生成幻觉文本: 使用GPT-4生成包含幻觉的图像描述,这些描述在对象属性或引入了不存在的信息方面与原始图像描述不一致。 对比学习的改进: 在对比学习过程中,将生成的幻觉文本作为负样本引入,进一步增强视觉与文本表示之间的对齐。
对比学习损失函数
文本到图像对比学习损失: 图像到文本对比学习损失:
实验结果
在多个基准数据集上验证了HACL方法的有效性,包括MMHal-Bench和POPE等常用于评估幻觉问题的数据集。实验结果表明,HACL方法显著减少了幻觉的发生,并在MMHal-Bench基准上提升了模型的整体评分。此外,HACL还改善了模型的视觉理解能力,使其在VQA等任务中表现出更高的准确性和一致性。
表 1. MMHal-Bench 上不同 MLLM 的评估结果。
表 2. 视觉问答的性能比较。
致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应
ECCV 2024|奥秘揭晓:小样本学习突破,跨领域多模态知识蒸馏动作识别