CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

文摘 2024-09-04 10:03 英国

点击上方蓝字关注我们

Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

作者列表: Chaoya Jiang, Haiyang Xu, Mengfan Dong, Jiaxing Chen, Wei Ye, Ming Yan, Qinghao Ye, Ji Zhang, Fei Huang, Shikun Zhang
作者单位:

北京大学
阿里巴巴

论文链接: https://arxiv.org/abs/2312.06968
代码链接: https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl

简介

今天解读“Hallucination Augmented Contrastive Learning (HACL)”方法，旨在解决多模态大语言模型（MLLMs）中的幻觉问题。通过分析文本和视觉标记的表示分布，发现文本和视觉表示之间存在显著的模态差距，以及包含幻觉和不包含幻觉的文本表示交织在一起。为此，文中将对比学习引入MLLMs，并使用幻觉文本作为硬负样本，提升了非幻觉文本与视觉样本的表示对齐效果，从而有效减轻了幻觉问题。

研究动机

尽管多模态大语言模型（MLLMs）在自然语言处理和视觉任务中表现出色，但它们在生成内容时仍存在幻觉问题，即生成的内容与输入视觉信息不一致或不真实。当前方法在处理幻觉问题时存在不足，尤其是在跨模态表示对齐方面。

图 1. 子图 (a) 和子图 (b) 显示了 LLM 为视觉或文本标记序列生成的最后一个标记表示的分布。蓝色图标代表图像，绿色图标代表真实字幕，红色图标代表 GPT-4 生成的幻觉字幕。在子图（a）中，文本和视觉表示具有跨模型语义差距，而非幻觉和幻觉文本表示是混合的。子图(c)显示了幻觉评估基准MMhal-Bench 和模型性能评估指标MME的实证结果。

如图1所示，

尽管有视觉投影，文本和视觉标记之间仍然存在显着的模态差距；
包含和不包含幻觉的文本表示是纠缠在一起的，因此很难区分它们。

论文贡献

分析发现模态差距和表示交织问题：首次揭示了MLLMs中文本和视觉表示之间的显著模态差距，以及幻觉文本和非幻觉文本表示交织在一起的问题。
提出HACL方法：通过引入对比学习，并将幻觉文本作为硬负样本，显著改善了跨模态表示对齐效果，从而减少了幻觉的发生。
实验验证：实验结果表明，HACL方法不仅减少了幻觉的发生，还显著提高了模型在多个基准测试中的性能。

HACL方法

方法框架

HACL方法的核心思想是在对比学习中使用幻觉文本作为硬负样本，以此来改善文本和视觉表示的对齐效果。论文整体框架如图2所示：

图 2. 子图 (a) 为HACL。在此框架中，采用 GPT-4 生成幻觉字幕作为图像到文本对比学习中的硬负样本。子图(b)显示了HACL的训练范例。

具体包括以下几个步骤：

跨模态对比学习: 将视觉和文本标记序列分别输入到大语言模型中，获取每种模态的全局表示。然后，使用对比学习来拉近非幻觉文本与视觉样本的表示距离，同时推开幻觉文本与非幻觉文本的表示。
生成幻觉文本: 使用GPT-4生成包含幻觉的图像描述，这些描述在对象属性或引入了不存在的信息方面与原始图像描述不一致。
对比学习的改进: 在对比学习过程中，将生成的幻觉文本作为负样本引入，进一步增强视觉与文本表示之间的对齐。

对比学习损失函数

文本到图像对比学习损失:
图像到文本对比学习损失:

实验结果

在多个基准数据集上验证了HACL方法的有效性，包括MMHal-Bench和POPE等常用于评估幻觉问题的数据集。实验结果表明，HACL方法显著减少了幻觉的发生，并在MMHal-Bench基准上提升了模型的整体评分。此外，HACL还改善了模型的视觉理解能力，使其在VQA等任务中表现出更高的准确性和一致性。

表 1. MMHal-Bench 上不同 MLLM 的评估结果。

表 2. 视觉问答的性能比较。

致谢作者，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉