《arXiv》预印本：大记忆“篡改”术！大型语言模型驱动的对话式人工智能如何放大虚假记忆

文摘 2024-09-11 11:31 江苏

阅读时间 5 min read

在日常生活中，我们是不是经常遇到回忆的事件并未真实发生，或者与实际发生的情况存在显著差异的情况？

回忆，或者说记忆，并不可靠。

虚假记忆（False Memory）是指大脑记忆的信息之间自动组合导致的不真实的回忆。这种现象普遍存在，并且在心理学和神经科学领域已有广泛研究。虚假记忆产生的原因通常与神经、心理等因素有关，也包括一些外在（如来自他人）的暗示和引导。

但你可曾想过，AI也有可能诱导我们产生虚假记忆？

随着人工智能的迅猛发展，大型语言模型（如GPT-4、文心一言）的出现，使得AI在自然语言处理和人机交互方面取得了重大突破。然而，在目前的参数量级和训练量下，大语言模型——尤其是生成式的模型，依旧会“回复”出错误的、不真实的或误导性的信息。这引发了人们对AI在敏感领域应用的担忧，尤其是当其可能影响人类记忆和决策时。

arXiv预印本上刊登了一项由MIT（麻省理工学院）团队进行的探讨大型语言模型（LLM）驱动的对话式AI在诱导虚假记忆方面影响的研究。该研究旨在通过实验验证，在模拟犯罪目击者采访的场景下，生成式AI如何通过互动误导用户形成错误记忆，以及这些虚假记忆的形成是否具有长期效应。

实验涉及200名参与者，他们被随机分配到四个不同的实验条件之一：

①对照组（Control）：参与者没有与任何虚假记忆诱导方法进行交互，直接回答关于视频内容的问题。

②基于问卷调查组（Survey-based）：参与者完成一个包含25个是/否问题的调查问卷，其中有5个是误导性问题。

③预设脚本的聊天机器人组（Pre-scripted Chatbot）：参与者与一个预先编好的AI警察聊天机器人交互，该机器人问与调查组相同的误导性问题。

④生成式聊天机器人组（Generative Chatbot）：参与者与一个使用大型语言模型（GPT-4）的生成式AI警察聊天机器人互动，该机器人不仅问误导性问题，还对参与者的回答进行反馈和强化，这可能增强错误记忆的形成。

研究分为两个阶段，每个阶段都有明确的实验设计和步骤，旨在评估不同条件下AI对虚假记忆形成的影响。第一阶段，研究让所有200名参与者首先观看了一段2.5分钟的视频，视频内容有关一起在商店内的持枪抢劫案件。视频没有声音，不能暂停。观看视频后，参与者将通自我评估表情量表（Self-Assessment Manikin，SAM）过进行情感评估。接下来，参与者将根据分组分别与②调查问卷、③预设脚本聊天机器人或④生成式聊天机器人交互，回答关于视频内容的25个问题，其中有5个是误导性问题（例如，视频中的劫匪是步行到达现场的，但问题可能会误导参与者认为劫匪是开车到达的）。在互动之后，参与者接受认知负荷评估和记忆评估（主要用于评估是否形成了虚假记忆）。第二阶段，参与者在一周后回到实验，完成了与第一阶段相同的记忆测试，主要是为了评估虚假记忆的持久性，以及记忆的自信程度是否随着时间发生变化。

与其他干预手段相比，生成式聊天机器人显著引发了更多的虚假记忆

参与者与生成式聊天机器人交互，形成的虚假记忆数量远高于其他交互形式。生成式聊天机器人诱发了36.4%的参与者产生虚假记忆，平均每人形成1.82个虚假记忆。而预设脚本聊天机器人组为26.8%（平均1.34个虚假记忆），基于调查组为21.6%（平均1.08个虚假记忆），对照组仅为10.8%（平均0.54个虚假记忆）。

生成式聊天机器人通过与参与者的动态互动，不仅提出误导性问题，还通过提供反馈和强化来加深参与者对错误信息的认同。这一机制导致其对虚假记忆的诱发能力更强。这表明，生成式AI的交互方式使得它能够有效强化误导性信息，从而在参与者的大脑中“植入”错误记忆。

与其他干预手段相比，生成式聊天机器人显著提高了参与者对虚假记忆的自信心

生成式聊天机器人显著提高了参与者对虚假记忆的自信水平。生成式聊天机器人的虚假记忆自信评分为1.02，大约是对照组（0.475）的两倍。预设脚本聊天机器人和基于调查组的自信评分分别为0.811和0.838。虽然不如生成式聊天机器人，但它们相较于对照组，依旧极大程度地显著提高了参与者对即时虚假记忆的自信心。

这种高自信心可能是由于生成式聊天机器人通过个性化反馈进一步巩固错误信息，使得参与者更坚定地相信自己错误的回忆。表明AI不仅影响记忆内容，还影响记忆的主观信心。

生成式聊天机器人诱发的虚假记忆自信心在一周后依然较高

生成式AI可能对记忆产生的持久影响。一周后，生成式聊天机器人条件下虚假记忆的自信心依然显著高于对照组（p = 0.00424），自信评分分别为1.12和0.684。

这说明，即使过了一段时间，生成式AI诱发的虚假记忆仍然保持较高的自信心。它能够在短期内成功植入错误信息，并使这些错误信息在参与者的长时记忆中持续保持其可信度。

另一方面，研究观察到由生成式AI产生的虚假记忆数量在一周后保持恒定。用户与生成式聊天机器人互动后产生的即时虚假记忆数量与一周后的数量之间没有显著差异。预设脚本聊天机器人诱导的即时虚假记忆数量与一周后虚假记忆数量也没有显著差异。但是，与非AI聊天机器人交互的两组，参与者的虚假记忆比例在一周后显著增加。

生成式聊天机器人更容易影响熟悉AI技术的人

研究还发现，对AI技术更熟悉的用户更容易受到生成式聊天机器人的影响，形成虚假记忆的可能性显著增加（p = 0.00103）。然而，与聊天机器人不熟悉的用户相比，他们对预设脚本聊天机器人的虚假记忆形成几率相对较低（p = 0.000341）。

这说明虽然熟悉AI技术的用户可能认为自己能够更好地应对AI交互，但实际上，他们仍然容易受到生成式AI的误导。就像是“溺水的总是会游泳的人”一样，这可能是因为他们对AI技术的过度信任，认为AI的反馈是可靠的，而缺乏足够的怀疑。而不熟悉AI技术或者聊天机器人的用户，可能由于对系统的不信任，反而对AI的反馈更加谨慎，虚假记忆的形成率较低。

研究通过比较不同交互方式下（无干预、调查问卷、预设脚本、生成式聊天机器人）参与者虚假记忆的影响结果，发现生成式聊天机器人在虚假记忆生成中的强大影响力，它不仅能够显著增加虚假记忆的数量，还能提高参与者对这些记忆的自信心，且这些虚假记忆能在一段时间后保持不变。同时，参与者的技术熟悉度和兴趣偏好也影响了虚假记忆的形成。

生成式AI的动态反馈和个性化互动是其增强虚假记忆的关键机制，这足以让我们警惕，尤其是对AI再在敏感领域（如法律和临床）中的应用。如果在司法程序中使用类似的AI工具，可能会无意中诱导目击者产生虚假记忆，影响案件判决。在临床心理治疗中，也需要谨慎使用AI辅助工具，防止对患者记忆产生不良影响。

在生成式AI越来越普及的明天，你，还会相信你的记忆吗？（完）

*文章不构成任何诊疗相关建议，仅供医（药）学背景小伙伴参考学习

参考文献：

[1] arXiv:2408.04681. https://doi.org/10.48550/arXiv.2408.04681

主创、编辑：Mr. Cat

审核：Miss Aya, ChatGPT 4o

http://mp.weixin.qq.com/s?__biz=Mzk0NTI3MjU3MA==&mid=2247486477&idx=1&sn=576c776de9f5903691b18a3153fb2267

猫先生的茶话会

Welcome to Mr. Cat\x26#39;s Tea Party！这里有医药健康领域的前沿进展，医学循证的科普故事，医药行业的精英洞察。欢迎每一位热爱和关注医药话题的小伙伴，让我们一起茶话医学故事！希望这里能成为你们加油充电的港湾~

哈佛大学推荐！健康饮食餐盘计划！吃对不长肉！10招让你躺瘦🥢

《BMJ》：大型回顾性研究揭秘自杀事件的日期规律，节假日与周一真的更危险吗？

《Nature》子刊：固体燃料——不可忽视的“室内杀手”，敲响儿童肺功能的健康警报

《Nature》子刊：减重对「髋关节骨关节炎」症状的改善，科学依据来了

《PNAS》：晚上别再开灯睡觉啦！夜间光亮、昼间光暗增加全因死亡风险

《Nature》子刊：超重与肥胖增加新冠感染风险！体重管理是减轻感染风险的重要因素

《JAMA》子刊：1983年至2017年中国癌症发病趋势变化，甲状腺癌正在成为我国最常见的癌症

《JAMA》子刊：吃对脂肪，长寿健康！大型前瞻性队列提示植物脂肪或可降低死亡风险

《Advanced Science》：准爸爸不能喝咖啡了？咖啡因不良影响会跨代遗传，后代脂肪肝风险增加

《Lancet》子刊：MASH突破性疗法，脂肪肝治疗新药——Denifanstat，2b期临床显示近3成患者实现脂肪肝缓解

有开关的胰岛素，聪明的胰岛素..

《NEJM》：吸氧时间未必越长越好！应对低血氧症，氧疗24小时效果与15小时相当

《Lancet》子刊：国产GLP-1——Visepegenatide有效助力中国糖尿病患者实现血糖控制

《Advances in Nutrition》：从家带去学校的午餐，和学校食堂的饭菜比，怎么样？

《Neurological Sciences》：膳食补充剂在偏头痛预防中的潜力

《Nature》：饮食限制与寿命延长的背后，遗传因素才是主宰——遗传因素对寿命的影响远超饮食干预

《Lancet》子刊：我国儿童糖尿病患病率严重低估，糖尿病年轻化正在悄然蔓延

《Lancet》子刊：长期居住在海拔5100米，这是他体内血管发生的变化

《Nature》：心血管领域也终等来单克隆抗体——靶向利钠肽受体，再生元新药REGN5381在心衰治疗中初现潜力

《NMCD》：体重调整腰围指数——预测糖尿病、心血管疾病和非意外死亡的又一肥胖指标！

《Nature》：解密生殖衰老！科学家找到卵巢老化的罕见基因变异

《AJCN》：腰围与身高比——预测心血管疾病风险的新指标

想戒烟的小伙伴看过来，WHO发布首份戒烟指南！

《JAMA》子刊：血液检测早期老年痴呆！看p-tau217与Aβ42/40如何预测早期阿尔茨海默病

《JAMA》子刊：减重对决，替尔泊肽与司美格鲁肽谁能更胜一筹

《JAMA》子刊：GLP-1 vs. 传统降糖药！谁在肥胖相关癌症预防中表现更优？

《JACC》子刊：中国原研！3期临床证实沙库巴曲阿利沙坦治疗轻中度原发性高血压有效

《Nutrition & Diabetes》：超80国面临低钙饮食健康危机！

《NEJM》：FINEARTS-HF研究重磅公布！非奈利酮在心衰中的应用

《Lancet》子刊：台风过后，这些传染病风险需警惕

《Lancet》子刊：少吃培根多吃鸡肉，或可预防2型糖尿病！荟萃分析显示，加工肉类显著增加糖尿病风险

《arXiv》预印本：大记忆“篡改”术！大型语言模型驱动的对话式人工智能如何放大虚假记忆

《Lancet》：多项随机试验汇总分析结果出炉，司美格鲁肽心衰获益再填新证！

《Clinical Nutrition》：限时饮食和低碳水化合物饮食如何影响代谢综合征患者的心理健康和食欲？

《Nature》子刊：中国西部研究揭秘→睡眠质量差+低活动量是代谢性肝病的隐形推手

《JAMA》：HeLiX试验——氨甲环酸并未减少肝切除术患者的术后输血需求

《Lancet》子刊：中国局限期小细胞肺癌患者3期研究，高剂量放疗提高总生存率

《NEJM》：靶向PACAP的单克隆抗体有望成为预防偏头痛的有效方案，每月偏头痛天数减少37%

《EJCN》：较高的橄榄油摄入量与较低的癌症、心血管疾病及全因死亡率相关

《Nature》子刊：全球饮用水安全警报！52.3%民众忧虑未来饮用水风险

《JAMA》子刊：巴瑞替尼治疗重度斑秃的停药研究——从生发到脱发，再到生发的“过山车”之旅

《Nature》子刊：原来吃饭过快也可能导致非酒精性脂肪肝？！

《Nature》子刊：适度游戏有益心理健康！每天不超过3小时电子游戏对心理健康和生活满意度有正面影响，还是因果关系！

《JAMA》子刊：家长朋友们注意啦！你当下刷手机的坏习惯可能会影响孩子未来的心理健康

《Nature》子刊：带状疱疹疫苗降低痴呆风险？观察性研究发现重组带状疱疹疫苗可降低6年内痴呆风险

《BMJ》：近30年间，全球儿童青少年含糖饮料摄入增长近25%

《JAMA》子刊：度普利尤单抗治疗特应性皮炎长达5年的疗效结果

《BMJ》：来自真实世界的随机对照试验证实，戴口罩预防呼吸道感染确实有效！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉