用DeepSeek看病,该追求大三甲水平,还是解决当前痛点?

学术   健康   2025-01-31 13:26   北京  


在DeepSeek出圈并火遍全球之际,已有关于使用DeepSeek诊断疾病的报道。以DeepSeek v3和GPT-4等为代表的大语言模型在应用于临床之前,仍需要临床试验评估。然而,我们应该让这类生成式AI与大三甲医院所代表的顶尖水平相比,还是更应该对标社区医院?


《新英格兰医学杂志》(NEJM)观点栏目刊登NEJM AI主编、哈佛医学院生物医学信息系主任Isaac Kohane的文章,指出有必要对广泛应用的大语言模型开展试验,评估其表现,但试验中的对照组应该是现有医疗系统,尤其是面临初级诊疗医师短缺等问题的系统,而不是理想化的医疗体系

                                     


评估AI,应将现有医疗系统作为比较对象

Compared with What? Measuring AI against the Health Care We Have

Kohane IS

DOI: 10.1056/NEJMp2404691


我所在的系新近招聘了一位人工智能(AI)专家,他问我能否推荐一位初级诊疗医师。我向这位同事保证,尽快提供几位优秀医师的名单供其选择。于是,我联系了几位当年与我同时接受医学训练的医师,却得知他们都已经退休了。这件事情并非完全出人意料,于是我又尝试了另一种方法:联系了几位我担任主管时认识的年轻医师


其中一位乐呵呵地告诉我,他已经不在哈佛医学院附属教学医院从事初级诊疗工作了。当我问他能否推荐几家高质量诊所时,他的语气变了,说他想不到有哪家诊所还在接收新患者。我惊呆了,于是进一步扩大了搜索范围。我发现当地一些医院(如麻省总医院及布莱根和妇女医院)的初级诊疗诊所正在拒收新患者。我最终没能帮到这位新同事,只好提议他向医疗保险公司寻求建议。


马萨诸塞州是美国人均医师数量最多的州之一,这意味着,在美国大部分地区,可能更难以将患者转诊到初级诊疗医师处。美国医学院协会(Association of American Medical Colleges)最近发布的一份关于医师队伍的报告明确指出,这一问题不可能在短期内得到解决,而且这方面的大多数证据都表明,未来初级诊疗医师队伍缺口将进一步扩大。在这种情况下,人们正认真考虑使用AI辅助临床医师(包括医师、执业护士和医师助理)工作的可能性。


然而,减轻临床医师负担的AI工具很可能只是AI对医学领域所产生影响的冰山一角。不管是出于绝望、无奈还是好奇,大量患者已经在通过AI获取医疗建议,包括第二诊疗意见,有时甚至会产生出人意料的治疗效果。但是,个例并不能取代系统性评估。对于任何新的临床干预措施,严格试验都是医学领域推动建立临床规范的最佳途径。就AI而言,我们难道不应该将患者使用这些程序所实现的健康结局与我们目前严重匮乏初级诊疗医师的系统所实现的健康结局进行比较吗?


在我来看,应该评估的AI程序并不是已经存在多年的症状检查程序,这些程序出于谨慎(或出于对医疗法律责任的担忧),会在患者有微乎其微概率患严重疾病时将其转诊到医师处。相反,我们应该评估的是功能强大的生成式AI程序,它们在医疗领域应用广泛,并且已在试验中与不同能力的医师进行过比较,包括那些在特定领域具有深厚专业知识的医师。而且这些大语言模型(LLM)(如GPT-4、Gemini和Claude 3)正被患者广泛使用,尽管它们在准确性和偏倚方面存在很大问题。


由临床医师、AI应用程序和患者(及其看护人或代理人)组成的新的临床决策组合可能会对许多假设提出挑战。例如,在最近一项研究中,使用AI辅助工具的临床医师在执行某些任务时的准确性比不使用AI工具的临床医师要低。将AI引入临床医师与患者之间,将对治疗效果、医疗错误、偏倚以及干预的及时性和成本产生难以预料的影响。然而,公众不会等到严格评估完成之后才使用这些工具,而且即使工具不完善,公众也会使用,而且已经在使用,因为初级诊疗服务的缺口越来越大,造成了信息空白。


与许多专门用于医院的信息技术产品不同,面向消费者的生成式AI产品(包括所有领先LLM)并不以临床能力为主要重点;相反,临床能力是产品在获取大量且不断增多的人类生成文本过程中附带实现的能力。鉴于面向消费者的公司正在进行大规模技术投入,这些工具在医学和其他人类专业领域的性能很可能会继续大幅提高。如果假设初级诊疗服务缺口将持续存在,而AI能力将继续迅速扩展,那么研究人员应该考虑哪些问题和进行哪些比较(见表格)?如何组织试验,使患者(而非临床医师)成为专家决策的第一核心?


在医疗服务有缺口的背景下,与AI评估相关的问题*

分类

问题

患者和临床医疗特征

哪些患者最有可能使用AI?患者的健康知识水平如何影响AI的效果?在某些任务中,患者-AI团队是否比临床医师-AI团队更有效?哪些初级诊疗医师最有可能使用AI?

商业、教育和监管环境

哪些激励措施可以使临床医师最大限度地有效使用AI工具,哪些激励措施可以使患者最大限度地有效使用AI工具?

与快速发展、可公开获取的通用AI模型相比,受监管的医疗专用AI工具具有的临床专业知识是否更少、实用性是否更低?
在临床工作中的应用

与在急诊科采用规避风险的分诊系统或让患者等待约诊相比,回答患者咨询时依赖AI工具做出的即时决策(包括药物处方和剂量更改)会在健康和社会层面产生什么影响?为应对人们关于副作用和疗效的担忧而开发的面对患者的AI工具是否会影响患者对治疗方案的依从率?患者到初级诊疗机构就诊前使用的AI工具是否有助于减轻医师每次诊治时因为考虑大量医疗指南而面临的负担?患者就诊前接受由AI主导的患者调查是否有助于以相关问题为导向,更有效地利用临床医师的宝贵时间?考虑到有限的医师队伍,AI在疾病预防和慢性病治疗领域对结局的影响更大,还是在急性病治疗领域对结局的影响更大?

使用AI开具某些药物处方可否在不增加相关风险的情况下提高药物治疗的效果?

* AI表示人工智能。

如果否认此类试验的必要性,那就是故意忽视越来越多患者所面临的状况,进而忽视改善患者健康的机会,因为通过客观评估将AI作为决策辅助工具应用于医疗所产生的影响,我们将拥有改善患者健康的机会。对AI与现有医疗系统开展比较试验是当务之急,但也面临挑战。


不断扩大的初级诊疗服务缺口并非美国所特有。在英国,大量初级诊疗医师正在离职或计划离职,而且整个欧洲都面临类似挑战。在中低收入国家,初级诊疗服务缺口可能比高收入国家大得多。如果AI能够安全有效地填补或弥补这些缺口,哪怕是其中的一部分,那么世界各地的医疗系统和其他组织都应立即开展试验,以确定实现这一目标的最佳方式。作为这一过程的一份子,研究人员应谨慎地将使用AI所实现的结局与使用现有医疗系统所实现的结局进行比较,而不是与我们心中期望的医疗系统所实现的结局进行比较。

版权信息

本文由嘉会医学研究和教育集团(J-Med)与《新英格兰医学杂志》(NEJM)联手打造的《NEJM医学前沿》翻译、编写或约稿。中译全文及所含图表等由NEJM集团独家授权。如需转载,请留言或联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为,版权方保留追究法律责任的权利。

NEJM医学前沿
《NEJM医学前沿》由《新英格兰医学杂志》(NEJM)与嘉会医学研究和教育集团(J-Med)联手打造,通过精品内容、线下培训、在线课程和学术会议等方式,助力中国医生,提升中国临床科研水平。NEJM内容由NEJM集团独家授权。
 最新文章