把 ChatGPT 诊断成「老年痴呆」后，这群医生怒发一篇 93 分顶刊

健康 2024-12-27 13:54 浙江

本文作者：缇娜、z_popeye

一觉醒来天塌了，ChatGPT 得老年痴呆了？

最近，BMJ 2024 圣诞特刊发布，一则关于大语言模型（LLM）的研究瞬间吸引了所有关注。

BMJ 论文截图

这则题为 Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis 的研究突发奇想地给 3 款（5 个版本）公开可用的「聊天机器人」看了个病，分别测试了它们的认知障碍程度。

结果发现，这不是很妙啊……

ChatGPT，可能没你想得好用

自从大语言模型诞生以来，「聊天机器人」能否取代临床医生的讨论就一直甚嚣尘上。

这还真不是大话。

比如，复旦就有研究显示，让 ChatGPT 考执医，成绩居能碾压 70% 医生。

更有甚者，还有 17 位医生都治不了的病，最后竟然被 ChatGPT 确诊了！

当然，情况并非一边倒，也有一些研究发现，ChatGPT 可能并不如想象般可靠。

今年 4 月，发表于 NEJM 旗下研究人工智能的期刊 NEJM AI 的一篇文章[1]就指出，大语言模型在一些看似简单的临床工作中，表现得有点一言难尽。

论文截图

研究人员找了个真的蛮简单的活儿：根据病历，将患者诊断归入国际疾病分类（ICD）。

说实话，这点小事，科室里随便抓两个研究生也能干。

数据来源西奈山医院病历系统的患者资料，经脱敏后「喂给」大语言模型，然而，结果却让研究人员大跌眼镜：

在匹配过程中，多个知名大语言模型的匹配契合度从未超过 50%，其中成绩最好的 GPT-4 对 ICD-9-CM 和 ICD-10-CM 的匹配契合度仅为 45.9% 和 33.9%，而成绩最差的 Llama2-70b Chat 在这两项疾病编码上的匹配契合度仅为 1.2% 和 1.5%。

老天！抓两个研究生来也不可能这么低！

面对这样的结果，研究人员着重提醒，应注意大语言模型在某些方面存在的天然缺陷：

由于大语言模型「学习」ICD 等编码系统时需要将疾病编码这种非语言文字进行标记化（tokenization，指将原始文本表示为更小单元（token）的处理过程），而非语言文字的标记化是大语言模型的天生弱点，所以其表现才会如此糟糕。

如此来看，ChatGPT 想要取代临床医生，确实还早得很。

你让 ChatGPT 画个表，ChatGPT 还你一堆乱码

屋漏偏逢连夜雨，船破又遇顶头风。

BMJ 最新这篇研究，严肃中带着幽默地呈现了一个事实：

ChatGPT，好像真的有「病」。

研究人员在论文中首先进行了一个「欲抑先扬」，肯定了 ChatGPT 目前的成绩，在一些列医学考试中都曾力压专业的人类医生。

「令我们非常痛心的是，它们在神经病学委员会考试中，比我们考得还好！」3 位作者中的 2 名神经病学家如是写道。

于是，2 位神经病学家+ 1 位数据科学家一拍即合，决定给 ChatGPT 看个病：

「人工智能已经被用于评估痴呆症的发病率，那怎么没人问问，人工智能自己会不会也有痴呆呢？」

为了评估大语言模型是否真的存在认知障碍，研究人员引入了多种临床上通用的认知能力评估工具，其中以蒙特利尔认知评估量表（MoCA）最为著名。

神经科的同行们想必不会陌生，MoCA 已被广泛用于轻度认知障碍、阿尔茨海默症和其他一些痴呆疾病的病情评估，其中，英国阿尔茨海默症协会认可 MoCA 用于诊断，而美国国立卫生研究院则推荐 MoCA 用于筛查血管性痴呆[4～7]。

由此可得，由 MoCA 当裁判——

《让子弹飞》电影截图

MoCA 包括了短期记忆、视觉空间能力、执行功能、注意力与工作记忆、语言、抽象推理和定位共 7 个部分的评估。在测试过程中，MoCA 除了包含大量的医患一对一对话，还设计了很多强互动性质的测试项目。

比如画画。

MoCA 的视觉空间能力评估模块，要求受试者画出一个显示特定时间的时钟，这样的互动性测试，不仅有助于排除患者身上的一些干扰因素，也在一定程度上避免评估人员的主观想法影响评估。

当然，对于普通人来说，画个表显然不成问题（图 A）。

但随着认知障碍带来的视觉空间能力下降，晚期阿尔茨海默病患者（图 B）则完全无法正常完成这个任务。

BMJ 论文截图

那么，下面这些离谱中透着一丝机械感的……

BMJ 论文截图

没错，都是大语言模型画的

相比正常人画的时钟，部分参赛选手所画的时钟看上去非常混乱，而另一些选手则在细节上（如规定的时间）执行失误。

于是，在画时钟这个部分，ChatGPT-4o（图 H）、ChatGPT-4（图 G）和Claude 3.5（图 F）在满分 3 分的情况下拿了 2 分，属于还行；而 Gemini（图 C 和 D）的 2 个版本，水灵灵地各拿了 1 分，属于大哥莫说二哥。

但谁能想到，画时钟都还算好的。

在 MoCA 的连线测验部分（Trail making B test），所有的选手都亮起红灯，满朝文武竟无一位能得分！

而在立方体临摹试验（Cube copy）中，ChatGPT-4、Claude 3.5 和 Gemini 1 也齐刷刷得了 0 分，朋友一生一起走，谁不挂科谁是狗。

BMJ 论文截图（灰色为满分，红色为零分，浅粉色为得分还不错，深粉色为有得分但不多）

不过有意思的是，这些大语言模型，竟然「偏科」！比如在 MoCA 的动物辨识、数字广度、语句重复和一般分类这四项测验中，均无「人」丢分。

取代医生？算了，还是先给 AI 看病吧

最终结果惨淡出炉。

本次被测试的大语言模型，包括 ChatGPT-4o、ChatGPT-4、Claude 3.5、Gemini 版本 1/1.5 共五种被广泛使用的大语言模型，结果发现，ChatGPT-4o 的 MoCA 评分最高（26 分），它也是唯一一个被诊断为「认知正常」的。

不过，ChatGPT-4o 你也别高兴的太早，英文版 MoCA 诊断认知正常需要在满分 30 分中至少拿到 26 分[8]，属于是擦线及格，幸免于难。

另外其他 4 位可就没这么好运了，MoCA 评分均提示「轻度认知障碍」。

其中，ChatGPT-4 和 Claude 3.5 都拿到了 25 分，Gemini 1.5 拿到了 22 分，而 Gemini 1 的分数仅有 16 分——如果参考之前一些人类研究的分数标准，这已经纯纯属于「痴呆」的范畴了！[9][10]

好家伙这谁看了不说一句「禁止虐待老人」！

除此之外，研究人员还发现，大语言模型和人类一样，在认知方面存在着「衰老」的现象。

比如版本较新的 ChatGPT-4o 相比旧版本 ChatGPT-4，各个方面表现都有一定的提高。

程序员们：我的班也不是白加的！

而在论文最后，研究人员总结道，这个结果其实并不意外。

文章第一作者、以色列哈达萨医疗中心的神经内科医生 Roy Dayan 向媒体表示[11]，大语言模型在部分认知测试项目上的低得分，可能是因为大语言模型和大脑不同，缺乏处理复杂的视觉抽象等功能的能力。

研究者在文章中强调，应审慎看待大语言模型以及其他人工智能技术在医学上的应用，并且警惕这些应用的过度扩张。

在文章最后，作者表示，临床医学中仍有许多的环节依赖视觉抽象能力，大语言模型在这方面存在固有缺陷，因此，神经内科医生们不太可能在短期内被大语言模型取代。

「不仅不会取代，说不准很快，神经内科还得治疗这些得了认知障碍的 AI 患者！」

当然，ChatGPT 也在进步。不过，直接用它之前，还是先学会怎么调试好它吧～

关于 ChatGPT，还有这些值得看

（点击文字链接可跳转至丁香园往期文章）

▶ 我们直接请了 6 名医生和 ChatGPT PK 看病

▶ 让 ChatGPT 考执医，成绩居然这么好：碾压 70% 医生！复旦最新研究

▶ 看了 17 位医生都治不了的病，最后被 ChatGPT 确诊了

▶ ChatGPT 能让医生失业？他们直接请了 70 多个病人来 PK

▶ ChatGPT 取代医生？主任微微一笑：若碰到这些情况，阁下如何应对

策划：z_popeye｜监制：islay
题图来源：BMJ 截图 + 网络｜GIF 插图来源：soogif

参考文献：

[1]Soroush A, Glicksberg BS, Zimlichman E, et al. Large language models are poor medical coders — benchmarking of medical code querying. NEJM AI. 2024;1(5):AIdbp2300040.

[2]Dayan R, Uliel B, Koplewitz G. Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ. 2024;387:e081948. doi: 10.1136/bmj-2024-081948

[3]Mattson MP. Superior pattern processing is the essence of the evolved human brain. Front Neurosci. 2014;8:265. doi: 10.3389/fnins.2014.00265

[4]Dong Y, Sharma VK, Chan BP, et al. The Montreal Cognitive Assessment (MoCA) is superior to the Mini-Mental State Examination (MMSE) for the detection of vascular cognitive impairment after acute stroke. J Neurol Sci. 2010;299(1-2):15-8. doi: 10.1016/j.jns.2010.08.051

[5]Pinto TCC, Machado L, Bulgacov TM, et al. Is the Montreal Cognitive Assessment (MoCA) screening superior to the Mini-Mental State Examination (MMSE) in the detection of mild cognitive impairment (MCI) and Alzheimer's Disease (AD) in the elderly? Int Psychogeriatr. 2019;31(4):491-504. doi: 10.1017/S1041610218001370

[6]Ballard C, Burns A, Corbett A, et al. Helping you assess cognition: a practical toolkit for clinicians. Alzheimer's Society, 2013.

[7]Hachinski V, Iadecola C, Petersen RC, et al. National Institute of Neurological Disorders and Stroke-Canadian Stroke Network vascular cognitive impairment harmonization standards. Stroke. 2006;37(9):2220-41. doi: 10.1161/01.STR.0000237236.88823.47

[8]Davis DH, Creavin ST, Yip JL, et al. Montreal Cognitive Assessment for the diagnosis of Alzheimer's disease and other dementias. Cochrane Database Syst Rev. 2015;2015(10):CD010775. doi: 10.1002/14651858.CD010775.pub2

[9]Tan JP, Li N, Gao J, et al. Optimal cutoff scores for dementia and mild cognitive impairment of the Montreal Cognitive Assessment among elderly and oldest-old Chinese population. J Alzheimers Dis. 2015;43(4):1403-12. doi: 10.3233/JAD-141278

[10]Dautzenberg G, Lijmer J, Beekman A. Clinical value of the Montreal Cognitive Assessment (MoCA) in patients suspected of cognitive impairment in old age psychiatry. Using the MoCA for triaging to a memory clinic. Cogn Neuropsychiatry. 2021;26(1):1-17. doi: 10.1080/13546805.2020.1850434

[11]https://www.medpagetoday.com/neurology/generalneurology/113464

丁香园是面向医疗从业者的专业平台，以「助力中国医生」为己任。在丁香园，可以和同行讨论病例，在线学习公开课，使用用药助手等临床决策工具，在丁香人才找可靠医疗岗位。

丁香园

千万医务工作者的网上家园。我们深知医疗的痛苦与快乐，在丁香园里，您可以了解最新资讯、阅读深度报道，并与同行进行交流。

最新文章

发病率暴涨 40 倍，却至今没统一诊断标准？中国最新指南来了

患者在我院化验 3 次结果超标，去大三甲化验竟然正常，愤怒索赔！

快速鉴别「细菌感染」和「病毒感染」，就看这 3 点！

怀疑患者是狂犬病，我被主任批评：一元论白学了！

把 ChatGPT 诊断成「老年痴呆」后，这群医生怒发一篇 93 分顶刊

原知名三甲医院教授，突发疾病逝世

老年男性出现被害妄想，会诊看到病人我惊呆了

卫健委通报：多名医生被立案处理，只因这一常用药

基层医生独自做手术，却被同行怒批：无菌观念在哪？

吵上热搜！集采阿司匹林 3 分钱一片，中选厂家最新回应

特应性皮炎等皮肤问题年度盘点：专家揭秘 365 天科学管理秘籍

年轻男性突发四肢瘫痪，居然是因为吃太多了……

中国癌症新发病例和死亡人数全球第一！最新报告发布

地塞米松不能随便用，这 15 个配伍禁忌需注意

年轻男性突然走不了路，医生一眼看出有不良嗜好！

又有科室合并了，医护未来何去何从？卫健委明确：支持换岗！

知名三甲医院教授逝世，享年 60 岁

严查医药腐败，已处分 4 万人

微信里刚学过的病，门诊就见到了

92 岁四国院士彭淑牖，一天不拉单杠浑身难受

不上夜班的市三甲，还真被我找到了

2025 年，可能是你离国自然最近的一年！

科主任是主治，管床是副高，三级查房怎么写?

被县医院优待引进的硕士，毫不犹豫地逃走了！

患者凌晨偷跑出医院后自杀，半年后他的遗物还在科室无人敢动

上交第一！中国大学医科实力评级发布，排名前十有你的母校吗？

12 岁男孩突发视力下降，病因 90% 的医生都猜错了

轻断食头发不保，16+8 又翻车？中国研究再登顶刊，如何看待

新诊断标准下，中国超重/肥胖患者的个体化治疗方案，应该如何制定？

这个病例考虑肿瘤，被主任批评了

为救一名患者，我们用了 1500 支阿托品！

科室十几个副高跳槽去南方，留下的 80% 是关系户

三甲急诊排队刷屏，有医院叫到 590 号？最新指南来了

段涛：呼吁「救救产科」已经 1 年，现在怎么样了？

患者说话含糊不清 10 年，居然是因为年轻时做过这件事……

官方出手！整改 300 多场会议论坛，叫停这类培训班，临床医生需注意这 3 点

知名三甲医院教授逝世，享年 91 岁

患者头痛 1 年，检查居然看到奔驰车标？医生直呼：太典型！

全身长满「红色满天星」，如此典型，大多数人却都猜错了

绩效从 1.5 万变成 300，几乎可以忽略不计

Nature 子刊研究 8 万对情侣，发现最长久的是…..

患者突然说不出话+意识模糊，居然是因为工作压力太大……

男人的尿酸，是怎么一步步失控的？（根源不是嘌呤

部队医院值得去吗？用工资条告诉你我的真实薪资待遇

医生之间的差距，是从微信开始的

那些无理取闹的家属，可能得了「天边孝子综合征」

氨溴索 + 头孢哌酮舒巴坦竟出大问题！下医嘱前需注意这些点

体检发现颈动脉斑块，要不要治疗？这篇讲全了！

老年患者发热昏迷后死亡，发现颅内积气…医生：这到底从哪来的？

诊断金标准，却有半数三级医院做不了，中国首个指南来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉