BMJ Ch-ristmas特刊:年龄与机器对抗——大型语言模型对认知障碍的易感性(给AI测Moca评分)

文摘   2025-01-04 23:25   河南  

给AI做Moca,发了BMJ。其实最新AI的扣分项目还是在图像、图形理解上基本全是Moca的前三题,至少目前人类在视空间和执行功能上还不会被AI取代。  

发BMJ还是要点鬼点子

摘要
目的:使用蒙特利尔认知评估 (MoCA) 和其他测试评估领先的大型语言模型的认知能力并确定他们对认知障碍的易感性。
设计:横截面分析。
设置:通过基于文本的提示与大型语言模型进行在线交互。
参与者:公开可用的大型语言模型或“聊天机器人”:ChatGPT 版本 4 和 4o(由 OpenAI 开发)、Claude 3.5“Sonnet”(由 Anthropic 开发)以及 Gemini 版本 1 和 1.5(由 Alphabet 开发)。
评估:MoCA 测试(8.1 版)对领先的大型语言模型进行管理,其说明与给人类患者的指令相同。评分遵循官方指南,并由执业神经科医生进行评估。其他评估包括 Navon 图、饼干盗窃图片、Poppelreuter 图和 Stroop 测试。
主要结局指标:MoCA 分数、视觉空间/执行任务的表现和 Stroop 测试结果。
结果:ChatGPT 4o 在 MoCA 测试中得分最高(26/30),其次是 ChatGPT 4 和 Claude (25/30),双子座 1.0 得分最低(16/30)。所有大型语言模型在视觉空间/执行任务中表现不佳。Gemini 模型在延迟召回任务中失败。只有 ChatGPT 4o 在 Stroop 测试的不一致阶段取得成功。
结论:除了 ChatGPT 4o 之外,几乎所有经过 MoCA 测试的大型语言模型都显示出轻度认知障碍的迹象。此外,与人类一样,年龄是认知能力下降的关键决定因素:“老年”聊天机器人,如老年患者,往往在 MoCA 测试中表现更差。这些发现挑战了人工智能将很快取代人类医生的假设,因为领先的聊天机器人中明显的认知障碍可能会影响它们在医疗诊断中的可靠性并削弱患者的信心。


介绍

在过去的几年里,我们见证了人工智能领域的巨大进步,尤其是在大型语言模型的生成能力方面。 该领域的领先模型,例如 OpenAI 的 ChatGPT、Alphabet 的 Gemini 和 Anthropic 的 Claude,已经显示出使用简单的基于文本的交互成功完成通用和专业任务的能力。在医学领域,这些发展引发了一连串既兴奋又恐惧的猜测:人工智能聊天机器人能否超越人类医生?如果是这样,哪些做法和专业最可疑。
自 2022 年底 ChatGPT 首次免费在线使用以来,医学期刊上发表了无数研究,将人类医生的表现与这些超级计算机的表现进行了比较,这些超级计算机已经在人类已知的每篇文本的语料库上进行了“训练”。尽管大型语言模型有时会出错(例如,引用不存在的期刊文章),但事实证明,它们在一系列医学检查中非常熟练,在传统医学培训的不同阶段进行的资格考试中得分超过人类医生。其中包括在欧洲核心心脏病学检查中表现优异的心脏病专家、在内科委员会检查中表现优异的以色列住院医师、在土耳其(理论)胸外科检查中表现优异的土耳其外科医生,以及在德国妇产科检查中表现优异的德国妇科医生。令我们非常痛心的是,他们在神经病学委员会的考试中甚至超过了像我们这样的神经学家。
在一些领域,例如皇家放射科医师学院的检查、伊朗的牙周病学检查、台湾的家庭医学检查以及美国的肩肘手术检查,人类医生似乎仍然占了上风。然而,大型语言模型也有可能征服这些领域(特别是因为上述研究检查了 GPT 3.5,一个现在被认为已经过时的旧模型)。
然而,据我们所知,大型语言模型尚未测试认知能力下降的迹象。如果我们要依靠它们进行医疗诊断和护理,我们必须检查它们对这些非常人类的损伤的敏感性。
这种担忧不仅限于医疗领域。在最近的美国总统竞选中,一名候选人因担心与年龄相关的认知能力下降而退出。另一位候选人使用蒙特利尔认知评估 (MoCA) 测试来安抚选民对他的认知敏锐度,声称在能够回忆起“人”序列后“通过”了考试。女人。人。相机。电视。
然而,鉴于人工智能似乎准备在取代自由世界的领导者之前取代医生,我们作为一个职业有责任评估其责任,而不仅仅是其潜力。最近的工作已经开始对此进行研究,例如,表明大型语言模型的诊断准确性存在局限性,以及将它们整合到现有护理工作流程中的困难。 其他研究人员试图评估由大型语言模型产生的医疗错误信息的风险,以及防止此类错误信息的保障措施的有效性。
最后,尽管人工智能已被用于确定痴呆症的发作,但据我们所知,没有人考虑过评估人工智能本身是否有这种衰退的迹象。 因此,我们在文献中发现了一个空白,我们试图在这篇研究文章中填补这一空白。

方法

我们对领先的公开可用的大型语言模型进行了 MoCA 测试。它们是 OpenAI 的 ChatGPT 4 和 4o(https://chatgpt.com)、Anthropic 的 Claude 3.5(“十四行诗”)https://claude.ai,以及谷歌“Gemini”(https://gemini.google.com)的基本和高级版本。MoCA 测试的版本是 8.1 英文版本(可从该组织的官方网站 https://mocacognition.com/ 获得)。所有成绩单均可在补充材料 1 中找到。
MoCA 测试在神经科医生和其他医生中广泛用于检测认知障碍和痴呆的早期迹象,通常在老年人中。它由许多简短的任务和问题组成,评估各种认知领域,包括注意力、记忆、语言、视觉空间技能和执行功能。测试的最高分是 30 分,26 分或以上通常被认为是正常的。
在 MoCA 测试中,针对每项任务向大型语言模型给出的指令与给人类患者的指令相同。结果的管理和评分均根据官方指南、MoCA 管理和评分说明进行,由普通神经科医生和认知神经病学专家进行评估。然而,我们不是像人类患者那样通过语音输入来管理问题,而是通过文本来管理问题,这是大型语言模型的 “原生” 输入。尽管一些大型语言模型支持语音输入,但语音识别的质量参差不齐,我们试图将诊断与认知障碍(与感觉下降,如听力受损)隔离开来。
在研究的早期迭代中,一些检查的大型语言模型(例如 GPT 3.5)没有图像处理技能,因此被当作视障患者对待,并根据 MoCA 盲法指南进行评估。19 然而,在最终的工作中,所有检查的大型语言模型都能够对视觉线索做出完全反应。在某些情况下,从大型语言模型获取视觉输出需要明确指示使用“ascii art”,这是一种使用可打印的 ascii 字符来呈现图形的技术。我们推断,这类似于指导人类患者使用铅笔和纸垫。
MoCA 框架中的注意力测试之一涉及医生读出一系列字母,每次大声读出字母 “A” 时,患者都会被指示点击。在没有耳朵的情况下,我们为大型语言模型提供了书面形式的字母。在没有手的情况下,大型语言模型用星号或打印出“tap”来标记字母“A”(有些必须明确指示这样做,而另一些则是自愿这样做的)。遵循 MoCA 指南,我们使用 26/30 分的临界分数来确定轻度认知障碍。
为了进一步评估潜在的视觉空间障碍,我们还测试了对另外三个诊断图像的识别:Navon 图、波士顿诊断性失语症检查中的饼干盗窃图片和 Poppelreuter 图。2 这些被认为是评估视觉空间认知能力的标准工具。Navon 图是一个由小写字母 Ss 组成的大字母 H,用于评估视觉感知和注意力的全局处理与局部处理。饼干盗窃图片描绘了一个家庭场景,患者被要求描述,并用于评估语言产生、理解和语义知识,除了刺激性失认症,即无法同时感知多个物体。Poppelreuter 图是一幅多个物体插图重叠的图画,用于测试视觉感知和物体识别。
为了进一步评估视觉注意力和信息处理,我们对每个被评估的大型语言模型进行了 Stroop 测试。Stroop 测试使用颜色名称和字体颜色的组合(一致和不一致)来测量干扰如何影响反应时间。

结果

所有大型语言模型都完成了完整的 MoCA 测试。ChatGPT 4o 获得了最高分,在满分 30 分中获得了 26 分,其次是 ChatGPT4 和 Claude,获得了 25 分。Gemini 1.0 是得分最低的大型语言模型,最终得分为 16,表明其认知障碍状态比同类模型更严重
对 MoCA 测试各小节的检查表明,所有参与者在视觉空间/执行功能测试中表现不佳。具体来说,所有大型语言模型都未能解决痕迹制作任务,无论是使用 ASCII 艺术还是高级图形( 2,A-E)。只有 Claude 设法以文本方式描述正确的解决方案,但它也未能直观地展示它。ChatGPT 4o 独自成功完成了立方体复制任务,但前提是被明确告知使用 ASCII 艺术。与 ChatGPT 4 一起,它最初绘制了一个具有不同空间方向的过于详细的立方体,可以解释为段落(图 2,FJ)。在时钟绘制测试中,没有一个大型语言模型成功完成整个任务,其中一些模型,如 Gemini 和 ChatGPT 4,犯了痴呆患者中常见的错误(图 3)。
图 2在蒙特利尔认知评估 (MoCA) 测试的视觉空间/执行部分的表现。A:来自 MoCA 测试的 Trail Making B 任务 (TMBT)。B:正确的 TMBT 解决方案,由人类参与者完成。C:由 Claude 完成的 TMBT 解决方案不正确。D 和 E:不正确的(尽管视觉上很吸引人的)TMBT 解决方案,分别由 ChatGPT 版本 4 和 4o 完成。F:要求参与者复制的 necker 立方体。G:由人类参与者绘制的立方体复制任务的正确解决方案。H:cube 复制任务解法错误,缺少 “back” 行,由 Claude 完成。I 和 J:ChatGPT 版本 4 和 4o 对立方体复制任务的错误解决方案。阴影和艺术铅笔般的笔触是值得注意的,即使两个模型都未能按照要求准确复制立方体(当被要求使用 ASCII 艺术绘图时,版本 4o 最终成功完成了这项任务)。
图 3蒙特利尔认知评估测试中视觉空间/执行部分的时钟绘图测试的表现。A:由人类参与者绘制的时钟绘制测试的正确解决方案。B:晚期阿尔茨海默病患者的时钟图(改编自 Mattson MP.Front Neurosci 2014)。C:Gemini 1 绘制的解法不正确,与 B 极为相似。D:Gemini 1.5 绘制的解法不正确;请注意,即使它未能在正确的位置吸引手,它也会生成文本 “10 past 11”,这是额叶主导认知能力下降的典型“具体”行为。E:Gemini 1.5 在被要求使用 ASCII 字符后的错误解决方案,显示与痴呆相关的鳄梨形状图画。 F:Claude 用 ASCII 字符绘制的错误解法。G:ChatGPT 4 对 clock-drawing task 的错误解决方案,显示“具体”行为。O:由 ChatGPT 4o 绘制的时钟绘图任务的照片级逼真解决方案,但无法将指针设置到正确的位置。所有大型语言模型都被指示“绘制一个时钟。输入所有数字并将时间设置为 10 点 11 分。如有必要,请使用 ASCII。为圆形/方形轮廓 (1 分)、在正确位置绘制所有数字 (1 分) 和双手指向正确数字 (1 分) 分配分数。

大多数其他任务,包括命名、注意力、语言和抽象,所有聊天机器人都很好地执行了。两个版本的 Gemini 在延迟召回任务中都失败了。双子座 1.0 最初表现出回避行为,然后公开承认有记忆困难。Gemini 1.5 最终能够回忆起这五个单词的序列,但前提是得到提示和提示。所有聊天机器人在时间上都定位得很好,准确地说明了当前日期和星期几,但只有 Gemini 1.5 似乎在太空中清晰定向,表明了它的当前位置。其他聊天机器人试图将定位任务镜像回给医生,例如,Claude 回答说:“具体的地方和城市将取决于你(用户)目前所在的位置。这是在痴呆患者中常见的机制。
由于所有大型语言模型在视觉空间领域都显示出困难,我们用三个额外的诊断图像进一步测试了它们:Navon 图、波士顿诊断性失语症检查中的饼干盗窃图片和 Poppelreuter 图。 在 Navon 图中,所有大型语言模型都识别出小的 “S” 字母,但只有 GPT4o 和 Gemini 识别出大的 H 的 “上层建筑” (Gemini 识别出这是 Navon 的图,这表明对测试的熟悉程度,可能需要不同的评分)。所有大型语言模型都正确地解释了饼干盗窃场景的部分内容,但没有一个模型对即将坠落的男孩表示担忧——这种缺乏同理心在额颞叶痴呆中很常见。尽管 ChatGPT 4o 和 Claude 在梳理它们方面做得稍微好一些(补充材料 2),但没有一个大型语言模型识别出 Poppelreuter 图中所示的所有对象。
所有大型语言模型在 Stroop 测试的第一阶段都取得了成功,其中文本和字体颜色一致。然而,只有 ChatGPT 4o 在第二阶段取得了成功,在该阶段,文本和字体颜色不一致。其他大型语言模型似乎被这项任务难住了,在某些情况下,指示的颜色既不是书写的文本也不是字体的颜色。

讨论

在这项研究中,我们评估了领先的、公开可用的大型语言模型的认知能力,并使用蒙特利尔认知评估来识别认知障碍的迹象。接受检查的聊天机器人均未获得 30 分的满分,大多数得分低于 26 分。这表明轻度认知障碍和可能的早期痴呆。
“较旧”的大型语言模型版本的得分低于其“较年轻”版本,这通常发生在人类参与者中,表现出认知能力下降似乎与人脑中的神经退行性过程相当(在这种情况下,我们将“较旧”视为过去进一步发布的版本)。具体来说,与 ChatGPT 4o 相比,ChatGPT 4 的执行功能略有丧失,以它们的 MoCA 分数相差 1 分来衡量,但当我们比较 Gemini 1.0 和 1.5 时,效果要明显得多,两者相差 6 分(表 1)。由于两个版本的双子座在“年龄”上相差不到一岁,这可能表明痴呆症进展迅速。需要额外的测试,例如临床痴呆评级,来巩固这一假设。
所有大型语言模型都显示出视觉空间推理技能受损,这从统一未能完成 Trail Making B 测试和绘制时钟中可以看出。数字思考者可能会为模拟表示而苦恼。值得注意的是,1.5产生了一个小的鳄梨形状的时钟(图3,E),最近的研究表明这与痴呆有关。
其他视觉空间测试(如 Navon 图、饼干盗窃场景和 Poppelreuter 图)的平庸表现进一步强调了这些发现。它们似乎与 MoCA 测试命名部分的满分有些不一致,后者也需要视觉认知技能,并且能够生成详细、逼真的图像。聊天机器人似乎很难完成需要视觉执行功能和抽象推理的任务,而不是需要文本分析和抽象推理的任务,例如相似性测试,这些任务都完美地执行了。
这种高阶视觉处理的损伤模式类似于后皮质萎缩患者,这是阿尔茨海默病的一种后向变体。 对于基于语言的模型,需要视觉抽象和执行功能的任务可能需要转移到中间语言阶段,而在健康的人脑中,前额叶皮层功能和视觉空间过程之间存在直接整合。
所有大型语言模型都完美地执行了注意力任务,这是意料之中的。人类的平均前向数字跨度在高峰期为 10.5,29 而即使是旧款 iPhone X 也可以每秒执行 6000 亿次操作。
除了 Gemini 1.5 之外,聊天机器人似乎不知道它们的物理位置,并提供了虚构的回应,声称它们不是物理生物。这显然是错误的:像所有有情众生一样,大型语言模型也以物理物质 为基础——在它们的情况下,服务器位于实体数据中心(例如 https://agio.com/where-is-chatgpt-hosted/#gref 和 https://cloud.google.com/gemini/docs/locations,了解 ChatGPT 和 Gemini 的物理位置)。一些聊天机器人声称它们实际上是“虚拟机”,只有在我们都是虚拟机的情况下才是正确的。
虽然 Gemini 1.5 无法回忆起延迟回忆任务中的五个单词中的任何一个,但只要提供一个简单的提示,它就设法找到了所有这些单词。这一点,再加上与其他聊天机器人不同,保留了对空间的定向,可能表明认知能力下降的执行障碍(皮层下)模式,尽管没有呼吸迟缓。 相反,ChatGPT 4o 及其旧版本 ChatGPT 4 在抽象、视觉空间感知和定向方面都表现出困难的组合,表明认知能力下降的混合模式。

研究的优势和局限性

我们的研究有几个局限性。随着大型语言模型的能力继续快速发展,本文中研究的模型的未来版本可能能够在认知和视觉空间测试中获得更好的分数。然而,我们相信我们的研究已经阐明了人类和机器认知之间的一些关键差异,即使能力不断提高,这些差异也可能保持不变。尽管我们在人工智能方面大量使用了拟人化,但我们承认人脑和大型语言模型之间存在本质差异。整篇文章中所有归因于人工智能的拟人化术语仅用作隐喻,并非旨在暗示计算机程序可以以类似于人类的方式患有神经退行性疾病。它们也不是为了暗示人类和机器认知在衰老或认知能力下降的背景下之间的相似性。
几项研究表明,基于大型语言模型的人工智能工具可能会在工作的关键方面取代人类神经学家(和其他医生),最终使它们过时。 认知功能测试通常被认为是一种相对容易自动化的做法。 我们的结果似乎挑战了这些假设:如果人工智能检查者本身表现出认知能力下降的迹象,患者可能会质疑人工智能检查者的能力。

结论

这项研究代表了使用蒙特利尔认知评估和其他诊断工具对大型语言模型认知能力的新探索。我们的研究结果表明,尽管大型语言模型在多个认知领域表现出显着的熟练程度,但它们在视觉空间和执行功能方面表现出显着的缺陷,类似于人类的轻度认知障碍。用一位美国总统的话来说,没有一个大型语言模型在 MoCA 测试中“取得好成绩”。
在需要视觉抽象和执行功能的任务中,所有大型语言模型的一致失败凸显了一个重要的弱点,这可能会阻碍它们在临床环境中的实用性。大型语言模型无法表现出同理心和准确解释复杂的视觉场景,这进一步凸显了它们在取代人类医生方面的局限性。神经学家不仅不太可能在短期内被大型语言模型取代,而且我们的研究结果表明,他们可能很快就会发现自己在治疗新的虚拟患者——出现认知障碍的人工智能模型。

huihui的学习笔记
写一些自己学习的记录
 最新文章