NEJM AI副主编警告:大语言模型,可能毁了病历系统

学术   健康   2024-11-01 12:14   北京  


曾几何时,医生对电子病历寄予厚望,认为它能提高工作效率,减少医疗事故。


然而,理想很丰满,现实很骨感。某种程度上,医生甚至成了电子病历的仆人


大语言模型的问世,成就了一场新的资本狂欢,很多初创公司聚焦于大语言模型辅助的病历记录,试图把医生从电子病历的桎梏中解脱出来。


昨日,《新英格兰医学杂志》(NEJM)观点栏目刊登NEJM AI高级责任编辑、哈佛医学院助理教授Arjun (Raj) Manrai和副主编、贝斯以色列女执事医疗中心内科医生Adam Rodman等的文章,明确指出当前将AI生成的文本直接录入电子病历是错误做法,并阐述了四大原因。我们在此发布本文的全文翻译。

                                          


大语言模型和病历质量下降

Large Language Models and the Degradation of the Medical Record

McCoy LG, Manrai AK, and Rodman A

DOI: 10.1056/NEJMp2405999


在现代医学各种产物中,最彻底重新定义医疗实践的可能莫过于电子病历(EHR)。现在,医师大部分时间都用来在计算机上书写和阅读医疗记录,而且这些工作已经逐渐侵占他们的休息时间。许多临床医师将普遍的职业倦怠、人际疏离和初级诊疗的衰败归咎于计算机化。因此,许多医师和医院管理者将大语言模型(LLM)生成的EHR记录视为潜在救赎之路也就不足为奇了。LLM(如OpenAI的GPT-4或谷歌的Gemini)经过大量文本训练,在包括医学领域在内的许多领域展现出卓越能力,可以处理和生成与人类写作类似的文本。


目前提出的应用范围很广,从查看病历和总结临床诊疗过程等提供信息的任务,到做出诊断和建议治疗方案等复杂的推理任务,不一而足。许多医师认为使用现有技术完成后一类任务的风险太高,而前一类任务则被普遍认为是医师从计算机工作中找回时间的机会,而且其中的风险较低。这一可能性激发了人们的极大热情,许多初创公司试图解决医疗文书工作,EHR供应商也与人工智能(AI)公司合作。


然而,我们担心,让LLM生成的文本直接记入医疗记录,非但不能促进沟通和提高透明度,反而有可能降低医疗质量、效率和人性化程度。这些文本可能包括有关临床诊疗的结构化记录、预先填写的对于患者门户网站信息的回复,或者供医师使用的临床信息总结。我们尤其担心LLM生成的文本会降低病历的整体信息质量,进而降低这一重要信息源对医师和未来AI模型的实用性。要了解当前面临的挑战,不妨重温一下有关创建现代EHR的争论。


到20世纪中叶时,病历中的信息已变得越来越臃肿,充满来自医疗系统中许多“孤岛”的信息。这种“基于信息源的医疗记录”非常笨重,对于不了解特定患者整个背景的人而言,很难解析。Lawrence Weed和其他改革者提出的解决方案被称为“以问题为导向的医疗记录”(POMR),即以结构化方式收集和组织所有临床信息,并假设这种结构将有助于人类做出更好决策,而且自动化的临床决策支持也将很快跟进。这些批评者中最知名的是Alvan Feinstein,他指出这种体系并没有尊重患者的个人经历,也没有明显带来更好的医疗。但是,对于这样一个可以进行广泛质量审核、临床决策支持并且符合新计算机时代的新科学体系,人们充满热情,因此也淹没了反对的声音。


然而,Feinstein的观点是正确的。尽管影像学技术和医疗操作不断进步,但诊断错误始终无法消除。我们目前的质量评估系统需要大量人员在EHR之外收集信息,采取效度有限的指标,并且给医师造成相当大负担。尽管临床决策支持工具(尤其是电子医嘱输入工具)改善了患者医疗,但医师很大程度上仍在使用EHR以外的决策工具。当这些工具被集成到EHR之后,它们往往性能不佳,导致“点击疲劳”(click fatigue)。


在医疗系统努力开发基于LLM的工具(这些工具可能会极大地改变医疗实践)的过程中,必须仔细考虑所作出的假设,即医疗的哪些方面适合低风险、高收益的应用方式。我们认为,急于在EHR中录入LLM生成的文本是错误的,并且有可能重蹈EHR的覆辙,原因有以下四项:


第一,LLM可能会进一步降低病历中的信息质量。关于LLM虚构信息的描述已经有很多,这一可能性对LLM在医学领域的实用性带来风险。也许违反直觉,但这一可能性对依赖事实准确性的“简单”任务(如内容记录)带来的风险可能超过对LLM输出结果仅被视为建议的“复杂”任务(如诊断支持)带来的风险。此外,即使LLM生成的文本不包含彻头彻尾的虚假内容,其有害程度也被低估了(见表格)。高质量记录绝不是对患者诊疗过程的一般文字转录,而是包含了医师推理、患者价值观以及病历中其他地方可能没有体现的临床背景。POMR和点击清单所带来的特定结构已经限制了内容记录可以在多大程度上详细反映临床推理和患者目标。如果按照目前轨迹发展下去,LLM与EHR的整合可能会放大这些趋势,使EHR成为以计费为导向、不能代表真实人类的替代物。

除虚构信息外,LLM生成的电子病历文本存在的其他风险*

风险

描述

举例

病历更加杂乱

病历中的文本量不断增加,使人类阅读起来更加不便,这促使人们使用LLM进行内容总结。LLM记录有可能增加病历臃肿程度,从而增加对病历内容总结的需求,如此循环往复,临床医师与同事的评估结果越离越远。

由于生成LLM记录的过程非常简单,因此团队中的医学生、实习医师、资深住院医师和医师都会提供患者诊疗记录,而这些记录对临床情况的描述会略有差别。由于没有时间阅读关于每位患者的20份记录,因此周末值班医师会要求一份由LLM生成的总结。

信息密度降低

临床医师的认知处理过程包含在医疗记录的结构和内容中。作为统计机器,LLM倾向于输出可反映输入数据集平均值的结果。目前的LLM可能会输出臃肿的结果,看似权威,却缺乏敏锐洞察力。

一份由LLM生成的心内科会诊记录包含多段关于年轻人胸痛鉴别诊断的详细讨论,而心内科医师的寥寥几行记录即可清楚说明团队的评估结果和治疗方案。

说服和自动化偏倚

LLM可生成非常有说服力的结果,而且说服力超过了其准备度本应具有的说服力,进而助长“自动化偏倚”,导致人类对机器的结果产生过度信任。

会诊团队会对治疗方案提出谨慎且初步的建议。LLM生成的会诊记录总结利用了模型内置的关于对相关问题的知识,并传达出自信的语气。主要治疗团队在未与会诊团队进一步讨论的情况下,完全执行LLM提出的方案。

增加核实时间

LLM文本的性质可能会增加临床医师负担,因为他们必须核实和编辑LLM输出结果。在病历总结等任务中,这一要求尤其会造成问题,因为在这些任务中,错误可能过于细微,难以识别,也难以调查。

LLM会生成一份清单,列出患者之前服用过的五种未能控制癫痫发作的抗癫痫药。由于医师之前遇到过LLM在该疾病上虚构信息的情况,因此又花了15分钟手动查看以前的神经内科记录,以核实准确性。

模型崩溃

根据LLM生成的文本反复训练未来的LLM,有可能出现“模型崩溃”现象,即未来模型的输出结果失去广度和细节,越来越多地反映原始LLM数据集的内容。这一过程可能会导致自我强化的反馈循环,并使模型变得不太有用。

一家医院多年来一直使用可生成记录的LLM,并使用医院病历训练新LLM,目的是由新LLM提出治疗建议。新LLM倾向于建议最常用的治疗方案,但在处理罕见病例的细节时却显得力不从心。

* LLM表示大语言模型。


第二,使用LLM可能会削弱临床推理能力。有观点认为转录诊疗过程和总结病历是相对低风险的LLM应用方式,但持这一观点是因为误解了这些任务的认知复杂性。书写记录既能引发临床医师的推理,又能反映推理的结果。选择记录哪些信息与知晓基本事实同样重要。看似容易但实际复杂的另外一项任务是书写“临床印象”并证明其合理性,这些临床印象既要简明扼要地概括临床医师的想法,又要反映适当的可信度。特别是在复杂病例中,完成上述看似只是书写任务的过程并不是临床推理的表象,而是其实质。医疗系统若要在记录书写中使用LLM,则需要全面评估这些模型对推理和决策过程的影响,而不应该自动地将此类应用视为低风险。


第三,走错道路可能会阻碍未来AI模型发展。LLM最惊人的能力之一是可以从大量非结构化数据中提取信息,而这些数据以前是无法进行自动处理的。这一能力削弱了POMR支持者的假设,即强制结构是实现临床决策支持的必要条件。LLM在开放、灵活的环境中蓬勃发展,初步研究提示,他们可以成为有效的诊断伙伴或提供第二诊疗意见,但前提是EHR中的信息能准确反映患者目标和临床医师想法。具有讽刺意味的是,将LLM用于决策支持时,采用旧式非结构化但基于信息源的准确记录可能优于采用现代EHR。该领域目前正向着一种既不能满足人类需求也不能满足AI系统需求的“大杂烩”方向发展。随着宝贵的互联网文本资源被AI生成的空洞文本所污染,医学领域也可能面临困扰更广泛机器学习领域的同样问题。如果试图在这些信息源基础上训练AI,则会面临“模型崩溃”的风险,即未来一系列模型的输出结果会趋向于再现原始数据集的平均内容,从而失去广度和深度。


最后,整合LLM可能会固化EHR的现状,而这样是不妥的。早期EHR试图重现实体病历,以至于有时医师不得不打开多个虚拟“病历”,就像去实体档案室一样,这样才能了解患者过去住院情况。大多数现代病历仍缺乏可能很有用的“数字优先”性能,如协作编辑功能或超链接。我们担心这种错误会在LLM上重演:EHR供应商没有更广泛地思考如何利用新技术以最佳方式组织和获取临床数据和背景信息,而只是将旧系统固化在原处。供应商在其系统中应用LLM时,并没有经济利益激励其远离低信息量、繁琐并且从根本上反人类的系统。与采用POMR一样,这一领域的变革应由患者和医师主导。


我们不是卢德分子(译者注:十九世纪初英国手工业工人中参加捣毁机器的人),也不是技术恐惧症患者。就像建立EHR的那一代人一样,我们希望技术能够帮助我们改进医疗服务,让医师能够将时间花在与患者进行有意义的人际互动上。但是,如果在造成现状的EHR公司推动下,医学领域继续沿着目前道路走下去,医学可能会再次陷入弊多利少的境地。我们必须认识到,EHR塑造了我们思考、实践和记录患者经历的方式,而LLM也将如此。套用梭罗的话,我们是我们所制造的工具的仆人。


AIMS 2024




版权信息

本文由《NEJM医学前沿》编辑部负责翻译、编写或约稿。对于源自NEJM集团旗下英文产品的翻译和编写文章,内容请以英文原版为准。中译全文以及所含图表等,由马萨诸塞州医学会NEJM集团独家授权。如需转载,请联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。


点击下方名片,关注《NEJM医学前沿》


NEJM医学前沿
《NEJM医学前沿》由《新英格兰医学杂志》(NEJM)与嘉会医学研究和教育集团(J-Med)联手打造,通过精品内容、线下培训、在线课程和学术会议等方式,助力中国医生,提升中国临床科研水平。NEJM内容由NEJM集团独家授权。
 最新文章