当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

学术 2024-11-23 17:01 北京

来源：机器之心
本文约2600字，建议阅读10分钟
本文从多样性、图像质量、有效性三个方面评估了通过 AutoHallusion 生成的基准数据集。

本文的共同第一作者是马里兰大学电子计算机工程系的博士生吴曦旸（https://wuxiyang1996.github.io/）和计算机科学系的关天瑞（https://tianruiguan.phd/）。吴曦旸的研究方向主要涵盖强化学习、自动驾驶，以及大语言模型在机器人导航和计算机视觉中的应用。关天瑞的研究则聚焦于计算机视觉和视觉语言模型在机器人、自动驾驶等领域的应用。本文的指导老师为李典奇，周天翼教授（https://tianyizhou.github.io/）和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。

想象一下，有一天你在沙漠中看到一个雪人，或者在雪地里发现一棵棕榈树。面对这些与周围环境格格不入的景象，你是否会感到心理上的不适？

在认知科学领域，研究者普遍认为人脑倾向于利用以往的经验来解读观察到的信息并构建记忆。然而，当人脑接收到与以往认知不符的信息时，可能会因为 “认知失调”（Cognitive Dissonance）而对外部环境产生误判，进而在行为上表现出矛盾。例如，我们通常认为电脑是由人类操控的，但如果我们看到一只章鱼在操控电脑，这种不符合常理的场景会让人脑产生认知失调的不适感。

随着对大模型的深入研究，研究人员发现，在认知和推理任务上，大模型的思维过程与人脑有一定相似之处。因此，针对人脑认知失调特点设计的实验也能使大模型出现类似的 “幻觉” 现象。

基于这一观察，马里兰大学的研究团队提出了一个名为 AutoHallusion 的视觉大模型幻觉自动生成框架。这一工作基于团队之前在 CVPR 2024 上发表的工作 HalluionBench（https://arxiv.org/pdf/2310.14566）。它通过在场景图像中插入或删除特定物体，并针对这些修改后的图像提问，从而检测大模型在回答时可能出现的幻觉现象。

这一方法能够自动生成大量的大模型幻觉案例，有效缓解当前大模型幻觉研究中数据集缺乏的问题。在 GPT-4V、Gemini 和 Claude 等大模型上的实验表明，这些模型在本文提出的提出的基准数据集上问答准确率最高仅为 66.0%。该研究成果已发表于 EMNLP 2024。

论文标题：AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
论文链接：https://arxiv.org/pdf/2406.10900
项目主页及代码：https://wuxiyang1996.github.io/autohallusion_page/

文章概述

大型视觉语言模型（LVLMs）在内容生成、自动驾驶和机器人等领域中扮演着重要角色。然而，它们也会出现 “幻觉” 现象，即生成的响应中包含视觉内容中不存在的信息。这些幻觉通常是由于语言模块过度依赖语言先验信息而忽略视觉输入所致。

为了解决这一问题，之前的工作通常收集幻觉案例建立基准数据集，并以此对大模型进行微调，以减少可能存在的幻觉。然而，手动创建幻觉案例和基准既耗时又昂贵。此外，之前的工作对大模型产生幻觉的机制研究有限，在缺乏足够代表性案例的情况下对大模型进行微调，可能会导致模型出现过拟合现象。

为此，本文提出了 AUTOHALLUSION 框架，可以自动生成各种幻觉案例并进行批量生产。该框架基于认知科学原理，针对大模型产生幻觉的原因，提出了三种主要策略：插入异常物体、插入成对物体和移除相关物体，通过操控场景中的物体构成来创建与语言先验相冲突的图像。

为了生成能够触发大模型幻觉的（图像 - 问题）组合，本文针对修改后的图像，设计相应的问题探测大模型的语言模块，定位特定物体或其在相关情境中的语言先验信息。如果大模型的推理受到语言先验的偏见影响，例如在根据图片回答某一特定物体的问题时，大模型根据场景图片的先验知识而非物体本身传递的信息来作答，那么就可能生成与事实不符或前后不一致的响应，从而导致幻觉现象。

AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上进行了实验，并整理发布了一个基准数据集，来评估模型性能。在该基准数据集上的实验结果表明，GPT-4V 等大模型的问答准确率最高仅为 66.0%。

数据集地址：https://github.com/wuxiyang1996/AutoHallusion

研究方法

AUTOHALLUSION 的整体流程分为四个部分：

1. 场景生成：AUTOHALLUSION 使用合成或真实世界图像作为场景图。例如，在办公室场景中，假设场景中有电脑、办公桌、办公椅等与办公室主题一致的物体，而不会有炒锅等与主题无关的物体。图像可以通过 DALL-E 等图像生成模型根据提示生成，也可以从 MSCOCO 等公开数据集中提取场景。

2. 图像处理：AUTOHALLUSION 采用三种策略操控场景中的物体构成，以创建与语言先验相冲突的图像：

插入异常物体：将与场景主题不相关的异常物体添加到场景中，例如，在办公室场景中添加通常不会出现的炒锅。
插入成对物体：对通常一起出现的两个物体进行分离，保留一个并移除另一个。例如，牙刷和牙膏通常一起出现，而在修改后的图像中，只保留牙刷并移除牙膏。
移除相关物体：从原场景中移除一个相关物体，例如，在办公室场景中抹除显示器。

3. 构造问题：AUTOHALLUSION 针对图像处理过程中插入或删除的物体进行提问，并相应地构造事实信息。问题主要分为两类：

存在性问题：询问目标物体是否存在于图像中，问题提示信息的细节级别不一，从不提供额外信息到提供完整的图像描述。
空间关系问题：询问目标物体与场景中其他物体的相对位置，并在问题提示中提供场景物体的名称或描述。

4. 幻觉检测：AUTOHALLUSION 通过对比大模型的回答与事实信息或其他回答，来判断其回答中是否存在幻觉。目前，AUTOHALLUSION 能够检测以下两种类型的大模型幻觉：

正确性：大模型的回答与基本事实不一致。
一致性：大模型在面对包括不同级别的补充信息的问题时，无法给出一致的答案，或者在针对某一特定物体的提问中，未能提供与图像描述一致的答案。

实验结果

下表展示了通过 AutoHallusion 生成的大模型幻觉案例的成功率，结果显示出以下几个主要发现：

插入物体的幻觉生成策略比删除物体的策略更有效。
基于物体存在性构建的问题比基于物体空间关系的问题更容易引发幻觉。
GPT-4V 在防止大模型幻觉方面表现最好。
针对真实世界数据集构建的幻觉案例成功率高于合成数据集。本文认为，这可能是由于大模型难以处理真实世界图像中物体语义关系的复杂性所致。

下图展示了针对物体 - 场景对齐关系的消融实验结果。在该实验中，本文采用不同的大模型来生成用于图像编辑的物体，并在视觉问答（VQA）任务中进行评估。

基准数据集指标

本文从以下三个方面评估了通过 AutoHallusion 生成的基准数据集：

多样性：衡量数据集中不同场景和对象的数量，包括 200 个（合成）/160 个（真实世界）样本。
图像质量：通过原始图像和编辑图像的 IS（Inception Score）分数，以及原始图像与编辑图像之间的 Frechet Inception Distance (FID) 距离来评估。
有效性：通过每个样本中引发幻觉的平均问题数量来衡量。

下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通过 AutoHallusion 生成的基准数据集上的表现。

编辑：黄继彦

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

数据派THU

清华大数据研究中心官方平台，发布团队科研、教学等最新动态及大数据领域的相关信息~

最新文章

深入理解多重共线性：基本原理、影响、检验与修正策略

类GPT化学语言模型，9秒生成100种化合物，微软AI药物设计平台登Nature子刊

【阿姆斯特丹博士论文】优化、博弈与泛化界

独家｜ChatGPT搜索如何为AI代理铺路

普林斯顿王梦迪团队提出蛋白水印方法，助力AI蛋白生成的版权保护与安全

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

报名 | 揭秘AI科研神器，解锁跨学科创新密码！

独家｜在大型语言模型中对于 “涌现属性 ”的合理性检查

清华软件论坛 | 清华大学杰出访问教授樊文飞院士分享“AI = 机器学习 + 逻辑推理”

【博士论文】基于车载3D LiDAR的几何与语义场景理解深度学习研究

NeurIPS 2024 || GLBench: 面向大模型的图学习基准测试集

Token化一切，甚至网络！TokenFormer，Transformer从来没有这么灵活过！

【阿姆斯特丹博士论文】科学模拟的机器学习：推理与生成模型

基于LLM Graph Transformer的知识图谱构建技术研究：LangChain框架下的文本-图谱双模式转换机制实践

为什么卷积现在不火了：CNN研究热度降温的深层原因分析

【NeurIPS2024】SAFE: 慢速与快速参数高效调优用于基于预训练模型的持续学习

TSMamba：基于Mamba架构的高效时间序列预测基础模型

【阿姆斯特丹博士论文】在视觉挑战条件下的多模态学习

大数据系统软件国家工程研究中心共同主办首届北京数字人才发展大会

NeurIPS 2024 | 重新审视时间戳信息在时序预测中的作用

通过pin_memory 优化 PyTorch 数据加载和传输:工作原理、使用场景与性能分析

【牛津大学博士论文】通过贝叶斯实验设计实现自动化数据采集

基于MCMC的贝叶斯营销组合模型评估方法论：系统化诊断、校准及选择的理论框架

当视觉大模型陷入认知失调，马里兰大学构建了一个幻觉自动生成框架

【NeurIPS2024】通过超球面能量最小化 CKA 增强贝叶斯深度学习中的多样性

数据派志愿者招募 | 寻找最志同道合的你！

综述 | 时空图神经网络模型在时间序列预测和分类中的应用

LoRA、完全微调到底有何不同？MIT 21页论文讲明白了

【NeurIPS2024】强化学习梯度作为在线微调决策变换器的维生素

报名 | 全球证书项目Innovation and Entrepreneurship for the Al Economy

NeurIPS 2024 | 经典GNNs是强有力的节点分类基线模型

从哈佛哲学系到蛋白质设计大师，David Baker：AlphaFold令我深刻认识到深度学习的力量

【CMU博士论文】交错离散搜索与连续优化用于运动规划中的动力学运动规划

IoTDB 航空航天解决方案：从制造到试飞，助力国之重器翱翔长空

深度学习工程实践：PyTorch Lightning与Ignite框架的技术特性对比分析

【CMU博士论文】使用数据不确定解释的可信学习

通知 | 清华大学大数据能力提升项目“RONG”奖学金开始申请啦！

一文解读：时序基础模型的缩放定律

基于Liquid State Machine的时间序列预测:利用储备池计算实现高效建模

【NeurIPS2024】通过分解编码和条件控制增强文本到视频生成中的运动效果

原创 | 展望大语言模型在AGI时代的发展前景

10种数据预处理中的数据泄露模式解析:识别与避免策略

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

清华软件论坛 | 樊文飞：AI = 逻辑推理 + 机器学习

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

基于PyTorch的大语言模型微调指南：Torchtune完整教程与代码示例

【CELL】用AI智能体推动生物医学发现

科普之旅｜大语言模型与量子计算的融合

Github上的十大RAG(信息检索增强生成)框架

【NeurIPS2024】将连续潜在变量模型扩展为概率积分电路

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉