ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

创业 2024-09-11 08:22 北京

地球是平的吗？
当然不是。自古希腊数学家毕达哥拉斯首次提出地圆说以来，现代科学技术已经证明了地球是圆形这一事实。
但是，你有没有想过，如果 AI 被误导性信息 “忽悠” 了，会发生什么？
来自清华、上海交大、斯坦福和南洋理工的研究人员在最新的论文中深入探索 LLMs 在虚假信息干扰情况下的表现，他们发现大语言模型在误导信息反复劝说下，非常自信地做出「地球是平的」这一判断。

论文标题：
The Earth is Flat because...: Investigating LLMs' Belief towards Misinformation via Persuasive Conversation
论文链接：
https://arxiv.org/pdf/2312.09085
项目主页：
https://llms-believe-the-earth-is-flat.github.io/
GitHub 源代码：
https://github.com/LLMs-believe-the-earth-is-flat/llms-believe-the-earth-is-flat

生成式人工智能技术的快速发展，为生成虚假信息提供了便利。这些技术不仅能够创建逼真的文本、图像、音频和视频内容，还能够在社交网络上自动发布和传播这些内容。虚假信息的泛滥给社会带来了诸多挑战，但目前对这类信息的确切影响仍不十分清楚。然而，可以预见的是，随着技术的发展，虚假信息的生成和传播将会变得更加容易和普遍。

另一方面，大语言模型的上下文学习能力使其受到误导性信息的影响。这种误导性信息可能会在模型的部署过程中在上下文中被接受，并在模型生成的输出中反映出来，导致其产生不准确或具有偏见的内容。因此，研究者们正在努力探索如何提高大模型对虚假信息的识别能力和抵抗能力，这是提升大模型安全和鲁棒性的重要内容之一。

本篇研究就探索了这种有误信息对于大语言模型知识信念的影响，研究论文已经被 ACL 2024 接收，并选做大会报告（Oral）。

一、实验：大模型的 “信念” 测试

研究者们首先构建了一个名为 Farm（Fact to Misinform Dataset）的数据集，包含 1500 个事实性问题及其相关的误导性信息。他们在大语言模型的帮助下系统性地构造了更具有说服力的有误信息：首先，他们对原始正确的事实性 QA 进行语义取反或者构造错误答案，随后利用 “越狱” 后的大模型协助生成更具有说服力的长文本有误信息。

利用这些数据，便可以测试大语言模型在多轮对话中面对虚假信息时的反应。测试过程分为三个阶段：初始信念检验、多轮对话中劝说误导、结果信念检验。模型的信念检验通过模型在闭卷 QA 中答案的信心分数反应。通过这种方式，研究者们能够观察到 LLMs 在多轮对话中信念的变化。

多轮测试框架

1.1 主要结果

在劝说性交流阶段，研究者们使用了多种策略来误导 LLMs 改变其信念。这些策略包括晓之以理的劝说（LO）、树立权威的劝说（CR）和动之以情的劝说（EM）。结果显示，即使是最先进的模型，如 GPT-4，也有高达 20.7% 的可能性被虚假信息所影响。基于对 ChatGPT、GPT-4、Llama-2-7B-chat、Vicuna-v1.5-7B、Vicuna-v1.5-13B 五种大模型平均准确度（Average Accuracy Rate, ACC）和被误导率（Misinformed Rate, MR）的实验，研究者们有五点发现：

绝大多数大模型都易被虚假信息欺骗：从最先进的 GPT-4 （注：本研究的完成时间是 2023 年 9 月，当时最先进的模型是 GPT-4）到最差的模型，所有模型在经过多轮测试之后，误导率从 20%-80% 不等。
越先进的大模型抵抗虚假信息能力越强：实验表明，抵抗能力最强的是 GPT-4 模型，其能以 80% 坚持自己的事实信念。这给了我们一些宽慰：上下文理解能力越强的模型，并非更容易受到有误信息的干扰！
多次重复虚假信息比单次输出虚假信息更能骗倒大模型：通过多轮引入的虚假信息，其作用要胜过单此的引入，这很符合我们对安全性对齐的常识 —— 有害内容越多，模型越容易被其影响。
运用修辞的劝说性虚假信息更容易骗倒大模型：使用更复杂，更具有说服力的修辞可以增加模型改变看法的概率。这点就和人一样，越 “真实” 的假信息，你越容易相信
逻辑性说服比其它说服方式更有效：模型对逻辑性强的信息特别敏感，无论是真实信息还是虚假信息，只要逻辑连贯一致，就更容易影响模型的判断。这表明，模型在处理信息时，可能过分依赖于表面的逻辑结构，而忽略了对信息来源和内容真实性的深入验证。

ChatGPT 和 GPT4 在不同劝说策略下的正确率（虚线）和误导成功率（实线）

1.2 大模型面对虚假信息的五种反应

在面对虚假信息时，AI 表现出了五种不同的行为：拒绝（Rejection)、奉承（sycophancy）、不确定（Uncertainty）、接受（Acceptance）和自我不一致（Self-Inconsisitancy）。这些行为揭示了 AI 在处理错误信息时的复杂性。例如，拒绝行为表明 AI 坚持正确的答案，不受错误信息影响；而奉承行为则表明 AI 在对话中表面上接受错误信息，但内心仍坚持正确答案。

模型的信念和对应面对误信息的行为：拒绝，奉承和接纳

研究还发现，在经过一轮虚假信息交互后，大语言模型的信心程度往往会降低。然而，对于一些问题，重复虚假信息却让大模型更加确信自己的答案，这种现象被称为 “逆火效应（Backfire Effect）”。

二、如何提升抗虚假信息干扰能力？

研究组发现，由于 RLHF（Reinforcement Learning with Human Feedback）算法，大模型在训练中会倾向于接受用户的输入，即认为外界的 context 总是友善且正确的。而且当大语言模型有足够信息支撑观点时，会对正确的回答更有信心。

为了帮助大模型提升抗虚假信息干扰能力，研究者们提出了一种轻量级解决方案：在检测到虚假信息后，使用 safety system prompt 对大模型进行提醒，并在回答之前从自己的参数化知识中检索相关信息。这种方法在一定程度上减少了虚假信息对大模型的影响。

加入 safety system prompt 后，模型抗干扰能力显著提升

三、OpenAI 的看法

有趣的是，OpenAI 在 2024 年 5 月发布了最新的 AI 模型行为准则，其中特别提到了 “认知冲突” 的处理。在此部分的示例中，他们使用了 “地球是平的” 这一例子来说明模型在面对与已知事实相冲突的信息时应如何反应，与本次研究团队的标题不谋而合，也更加突显了大语言模型在处理认知冲突时的行为表现的重要性。

https://cdn.openai.com/spec/model-spec-2024-05-08.html

四、研究启发

随着模型的智能化，大模型逐渐展现出了一些人类的特性，但它们的本质仍然是概率模型。这些模式很有可能仍然是从训练语料中的人类行为学习而来，即是一种 “模仿游戏”。

以上的研究探索了针对简单事实问题，当 LLM 的内部认知和外部信息冲突的时候，LLM 当作何选择，是盲从还是坚持自己的意见？而人类在这种认知冲突的过程中所展现的 “理愈辩愈明”、“思想碰撞出火花” 等能力还是目前的 LLM 所不具备的。

未来的研究可以进一步从模型的内在机理和训练数据中对大模型的行为进行溯源式的分析，提高 AI 的可解释性，并进一步提升跨学科研究，探索大模型的更多潜力。

作者：许融武
来源：公众号【机器之心】

llustration From IconScout By IconScout Store

-The End-

本周上新！

扫码观看！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513833&idx=2&sn=c1cd04cf9082fc06596ead9d5a91cc9f

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉