AI干家庭医生的活，靠谱吗？| NEJM

学术健康 2024-11-07 12:56 北京

让AI加入家庭医生队伍、缓解医生短缺问题之前，一定要开展临床试验进行严格评估。然而，这类试验的对照组是什么？

上周，《新英格兰医学杂志》（NEJM）观点栏目刊登NEJM AI主编、哈佛医学院教授Isaac S. Kohane的文章，指出有必要对广泛应用的大语言模型（如GPT-4、Gemini和Claude 3）开展试验，评估其表现。试验中的比较对象应该是现有医疗系统，尤其是面临初级诊疗医师短缺等问题的系统，而不是理想化的医疗体系。文章还列出了评估AI时应关注的三类关键问题。

由NEJM集团、嘉会医学研究和教育集团（J-Med）和漕河泾开发区联合举办的AIMS 2024年会——"AI赋能医疗：创新与实践，无缝衔接"将于2024年11月10日在上海漕河泾开发区举行。了解详情及报名，请见文末海报。

评估AI，应将现有医疗系统作为比较对象

Compared with What? Measuring AI against the Health Care We Have

Kohane IS

DOI: 10.1056/NEJMp2404691

我所在的系新近招聘了一位人工智能（AI）专家，他问我能否推荐一位初级诊疗医师。我向这位同事保证，尽快提供几位优秀医师的名单供其选择。于是，我联系了几位当年与我同时接受医学训练的医师，却得知他们都已经退休了。这件事情并非完全出人意料，于是我又尝试了另一种方法：联系了几位我担任主管时认识的年轻医师。其中一位乐呵呵地告诉我，他已经不在哈佛医学院附属教学医院从事初级诊疗工作了。当我问他能否推荐几家高质量诊所时，他的语气变了，说他想不到有哪家诊所还在接收新患者。我惊呆了，于是进一步扩大了搜索范围。我发现当地一些医院（如麻省总医院及布莱根和妇女医院）的初级诊疗诊所正在拒收新患者。我最终没能帮到这位新同事，只好提议他向医疗保险公司寻求建议。

马萨诸塞州是美国人均医师数量最多的州之一，这意味着，在美国大部分地区，可能更难以将患者转诊到初级诊疗医师处。美国医学院协会（Association of American Medical Colleges）最近发布的一份关于医师队伍的报告明确指出，这一问题不可能在短期内得到解决，而且这方面的大多数证据都表明，未来初级诊疗医师队伍缺口将进一步扩大。在这种情况下，人们正认真考虑使用AI辅助临床医师（包括医师、执业护士和医师助理）工作的可能性。然而，减轻临床医师负担的AI工具很可能只是AI对医学领域所产生影响的冰山一角。不管是出于绝望、无奈还是好奇，大量患者已经在通过AI获取医疗建议，包括第二诊疗意见，有时甚至会产生出人意料的治疗效果。但是，个例并不能取代系统性评估。对于任何新的临床干预措施，严格试验都是医学领域推动建立临床规范的最佳途径。就AI而言，我们难道不应该将患者使用这些程序所实现的健康结局与我们目前严重匮乏初级诊疗医师的系统所实现的健康结局进行比较吗？

在我来看，应该评估的AI程序并不是已经存在多年的症状检查程序，这些程序出于谨慎（或出于对医疗法律责任的担忧），会在患者有微乎其微概率患严重疾病时将其转诊到医师处。相反，我们应该评估的是功能强大的生成式AI程序，它们在医疗领域应用广泛，并且已在试验中与不同能力的医师进行过比较，包括那些在特定领域具有深厚专业知识的医师。而且这些大语言模型（LLM）（如GPT-4、Gemini和Claude 3）正被患者广泛使用，尽管它们在准确性和偏倚方面存在很大问题。

由临床医师、AI应用程序和患者（及其看护人或代理人）组成的新的临床决策组合可能会对许多假设提出挑战。例如，在最近一项研究中，使用AI辅助工具的临床医师在执行某些任务时的准确性比不使用AI工具的临床医师要低。将AI引入临床医师与患者之间，将对治疗效果、医疗错误、偏倚以及干预的及时性和成本产生难以预料的影响。然而，公众不会等到严格评估完成之后才使用这些工具，而且即使工具不完善，公众也会使用，而且已经在使用，因为初级诊疗服务的缺口越来越大，造成了信息空白。

与许多专门用于医院的信息技术产品不同，面向消费者的生成式AI产品（包括所有领先LLM）并不以临床能力为主要重点；相反，临床能力是产品在获取大量且不断增多的人类生成文本过程中附带实现的能力。鉴于面向消费者的公司正在进行大规模技术投入，这些工具在医学和其他人类专业领域的性能很可能会继续大幅提高。如果假设初级诊疗服务缺口将持续存在，而AI能力将继续迅速扩展，那么研究人员应该考虑哪些问题和进行哪些比较（见表格）？如何组织试验，使患者（而非临床医师）成为专家决策的第一核心？

在医疗服务有缺口的背景下，与AI评估相关的问题*
分类	问题
患者和临床医疗特征	哪些患者最有可能使用AI？患者的健康知识水平如何影响AI的效果？在某些任务中，患者-AI团队是否比临床医师-AI团队更有效？哪些初级诊疗医师最有可能使用AI？
商业、教育和监管环境	哪些激励措施可以使临床医师最大限度地有效使用AI工具，哪些激励措施可以使患者最大限度地有效使用AI工具？与快速发展、可公开获取的通用AI模型相比，受监管的医疗专用AI工具具有的临床专业知识是否更少、实用性是否更低？
在临床工作中的应用	与在急诊科采用规避风险的分诊系统或让患者等待约诊相比，回答患者咨询时依赖AI工具做出的即时决策（包括药物处方和剂量更改）会在健康和社会层面产生什么影响？为应对人们关于副作用和疗效的担忧而开发的面对患者的AI工具是否会影响患者对治疗方案的依从率？患者到初级诊疗机构就诊前使用的AI工具是否有助于减轻医师每次诊治时因为考虑大量医疗指南而面临的负担？患者就诊前接受由AI主导的患者调查是否有助于以相关问题为导向，更有效地利用临床医师的宝贵时间？考虑到有限的医师队伍，AI在疾病预防和慢性病治疗领域对结局的影响更大，还是在急性病治疗领域对结局的影响更大？使用AI开具某些药物处方可否在不增加相关风险的情况下提高药物治疗的效果？

* AI表示人工智能。

如果否认此类试验的必要性，那就是故意忽视越来越多患者所面临的状况，进而忽视改善患者健康的机会，因为通过客观评估将AI作为决策辅助工具应用于医疗所产生的影响，我们将拥有改善患者健康的机会。对AI与现有医疗系统开展比较试验是当务之急，但也面临挑战。

不断扩大的初级诊疗服务缺口并非美国所特有。在英国，大量初级诊疗医师正在离职或计划离职，而且整个欧洲都面临类似挑战。在中低收入国家，初级诊疗服务缺口可能比高收入国家大得多。如果AI能够安全有效地填补或弥补这些缺口，哪怕是其中的一部分，那么世界各地的医疗系统和其他组织都应立即开展试验，以确定实现这一目标的最佳方式。作为这一过程的一份子，研究人员应谨慎地将使用AI所实现的结局与使用现有医疗系统所实现的结局进行比较，而不是与我们心中期望的医疗系统所实现的结局进行比较。

由NEJM集团、嘉会医学研究和教育集团（J-Med）和漕河泾开发区联合举办的AIMS 2024年会——"AI赋能医疗：创新与实践，无缝衔接"将于2024年11月10日在漕河泾开发区举行。

《新英格兰医学杂志》（NEJM）主编Eric Rubin教授、副主编肖瑞平教授和黄永坚教授，NEJM AI常务主编Charlotte Haug博士、高级责任编辑Arjun (Raj) Manrai博士、责任编辑赵剑飞博士等NEJM集团编辑将莅临现场。医学AI领域知名医生学者、科研人员、企业高管和法律专家将在本次会议上介绍最新科研成果，分享产业前沿。

<左右滑动查看嘉宾阵容>

联系我们

商务合作：Mark mark.ji@jiahui.com

媒体合作：Erin yiting.liu@jiahui.com

版权信息

本文由嘉会医学研究和教育集团（J-Med）与《新英格兰医学杂志》（NEJM）联手打造的《NEJM医学前沿》翻译、编写或约稿。中译全文及所含图表等由NEJM集团独家授权。如需转载，请留言或联系nejmqianyan@nejmqianyan.cn。未经授权的翻译是侵权行为，版权方保留追究法律责任的权利。

http://mp.weixin.qq.com/s?__biz=MzIxNTc4NzU0MQ==&mid=2247548945&idx=1&sn=2218b7a9c32a521b119c0baaee5214ec

NEJM医学前沿

《NEJM医学前沿》由《新英格兰医学杂志》（NEJM）与嘉会医学研究和教育集团（J-Med）联手打造，通过精品内容、线下培训、在线课程和学术会议等方式，助力中国医生，提升中国临床科研水平。NEJM内容由NEJM集团独家授权。

最新文章

NEJM中国病例：夜间的埃菲尔铁塔

汇聚医道智慧，共谋医疗服务高质量发展——NEJM Catalyst医管特刊项目巡讲首站（西安）

NEJM发表郭玉明、李珊珊综述：洪水的健康影响和应对策略

NEJM主编行 | 临床与转化研究，高影响力是关键

NEJM发表毛颖、刘建民团队研究：栓塞术治疗非急性硬膜下血肿

EGFR Ex20ins突变晚期NSCLC的排兵布阵：靶向治疗成为一线优选

NEJM主编面对面：肺癌研究亮点纷呈，助力高水平论文发表

非特异性发热，呼吸衰竭，鉴别诊断何从下手？| 麻省总医院病例

2024年度“医学的温度”医学人文征文活动典礼：弘扬医者仁心，传递人文关怀

NEJM发表王卫庆、毕宇芳、徐瑜团队研究，高血压合并糖尿病强化降压目标有望确定

肺移植 | NEJM综述

2分钟NEJM：继发性二尖瓣反流治疗：经导管修复术 vs. 外科手术

第二期 NEJM 高水平临床研究培训认证项目在中山大学附属第一医院隆重启动

育见前沿 | 靳镭教授团队研究成果发表：改良灵活GnRH拮抗剂方案可提高新鲜周期活产率

减肥药替尔泊肽，不仅治疗，更可预防糖尿病 I NEJM

2024年11月14日 |《新英格兰医学杂志》英文音频和中英文摘要

生还是不生，是个难题 | 家国的未来与个人的选择

在炎热潮湿的天气里，这个简单的小窍门就能降低致命的心脏风险

意识错乱、肾衰竭、肺实变，哪一个才是主要矛盾？| 麻省总医院病例

2分钟NEJM：老年心肌梗死患者的有创治疗

全球医学AI领域翘楚再度聚首，共议智能化医疗新格局

周四广州见！｜前任 NEJM 主编推荐的临床科研课程是怎样的？

吴一龙述评：局限期小细胞肺癌治疗新格局

老车教我共情 | NEJM

子宫肌瘤 | NEJM

震“罕”开启！罗氏携手各界打造SMA诊疗一体化生态圈

陈子江、颜磊述评：未明确宫内妊娠，能否启动药物流产？| NEJM

诊断+制药双擎驱动，推动免疫治疗再升级

下周广州见！｜为什么 NEJM 主编推荐医生加入这个培训项目？

AI干家庭医生的活，靠谱吗？| NEJM

罗氏血液群星闪耀“进”益求“精”，诊疗一体化引领中国血液疾病诊疗新篇章

CLEAP 中国中青年肝癌科创学院——菁瑞营（第六期）

2024年11月7日 |《新英格兰医学杂志》英文音频和中英文摘要

人畜共患病毒垂直传播，致胎儿死亡

NEJM：美国医疗失效，今日大选定未来

2分钟NEJM：髋关节置换术治疗重度髋关节骨关节炎

2024年度获奖名单 | 2024-2025 “医学的温度”医学人文征文活动

10年随访出炉，青少年肥胖手术后体重减轻20%

不遵医嘱的患者 | NEJM

NEJM发表背靠背研究，CPR骨内血管通路未能战胜静脉通路

铅中毒 | NEJM综述

NEJM AI副主编警告：大语言模型，可能毁了病历系统

邢念增教授：从“邢氏膀胱”到前沿临床研究，创新推动泌尿肿瘤突破 | NEJM推广

RCT表明全髋关节置换术优于抗阻训练，但骨科医生这么说 | NEJM

2024年10月31日 |《新英格兰医学杂志》英文音频和中英文摘要

中国首篇NEJM科学解读：神经发育疾病的lncRNA机制

医学人工智能AIMS年会，NEJM及子刊6位编辑参会，11月10日上海

无症状重度主动脉瓣狭窄，先行TAVR风险降低50%

卢铀述评：从“姑息”到“治愈”，局限期小细胞肺癌获突破，免疫+放疗未来怎么走？

反转！30年随访发现，局限性前列腺癌根治术优于观察等待

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉