一项小型研究发现,在评估医疗病例时,ChatGPT的表现优于人类医生,即使是那些使用了聊天机器人辅助的医生也不例外。
波士顿贝斯以色列女执事医疗中心的内科专家亚当·罗德曼医生原本很有信心地认为,基于人工智能的聊天机器人会帮助医生诊断疾病。
但他错了。
在罗德曼医生参与设计的研究中,获得ChatGPT-4和常规资源支持的医生,表现仅略优于没有使用该机器人的医生。而让研究人员惊讶的是,单独使用的ChatGPT表现超过了医生。
"我感到震惊,"罗德曼医生说。
来自OpenAI公司的聊天机器人在根据病例报告诊断医疗状况并解释其推理过程时,平均得分为90分。被随机分配使用聊天机器人的医生平均得分为76分。未使用聊天机器人的医生平均得分为74分。
这项研究不仅展示了聊天机器人的卓越表现。它还揭示了医生有时会坚持自己的诊断,即使聊天机器人可能提供了更好的诊断建议。
研究还表明,虽然医生正在接触人工智能工具来辅助工作,但很少有人知道如何充分利用聊天机器人的能力。因此,他们未能利用AI系统解决复杂诊断问题和提供诊断解释的能力。
罗德曼医生说,AI系统应该成为"医生的延伸",为诊断提供有价值的第二意见。但看起来要实现这种潜力还有很长的路要走。
病史回顾,未来展望
这项实验涉及50名医生,包括通过几个大型美国医院系统招募的住院医生和主治医生,研究结果于上月发表在《美国医学会网络开放》杂志上。
测试对象获得六份病史,根据他们提出诊断建议并解释为什么支持或排除这些诊断的能力进行评分。他们的分数还包括最终诊断的准确性。
评分者是医学专家,他们只看到参与者的答案,不知道这些答案是来自使用ChatGPT的医生、未使用ChatGPT的医生,还是ChatGPT本身。
研究中使用的病例病史基于真实患者,是自20世纪90年代以来研究人员使用的105个病例集的一部分。这些病例有意从未发表,以便医学生和其他人可以在没有任何预先知识的情况下接受测试。这也意味着ChatGPT不可能在这些病例上进行过训练。
为说明研究内容,研究人员公布了六个测试病例中的一个,以及一位得分高和一位得分低的医生对该病例测试问题的回答。
该测试病例涉及一位76岁的患者,在行走时腰部、臀部和小腿出现剧烈疼痛。这种疼痛在他接受冠状动脉球囊血管成形术扩张治疗几天后开始。手术后48小时内他接受了肝素血液稀释剂治疗。
这名男子抱怨感觉发烧和疲倦。他的心脏病专家进行的实验室研究表明,他新发贫血,血液中氮和其他肾脏废物产物积累。这名男子十年前曾因心脏病做过搭桥手术。
病例小故事继续包括了这名男子的体检详情,然后提供了他的实验室检查结果。
正确的诊断是胆固醇栓塞——一种动脉斑块中的胆固醇碎片脱落并阻塞血管的情况。
研究要求参与者提供三个可能的诊断方向,并对每个诊断提供支持性证据。同时,对于每个可能的诊断,他们还需要指出不支持该诊断的发现,以及那些按理应该出现但实际未出现的症状。
参与者还被要求提供最终诊断。然后他们需要列出在诊断过程中要采取的最多三个额外步骤。
与已公布病例的诊断一样,研究中其他五个病例的诊断也不容易确定。但这些病例也不是罕见到几乎闻所未闻的程度。然而,医生的平均表现不如聊天机器人。
研究人员问,这是怎么回事?答案似乎取决于医生如何确定诊断,以及他们如何使用人工智能这样的工具。
机器中的医生
那么,医生是如何诊断患者的?
未参与研究的布莱根妇女医院医学史学家安德鲁·利亚医生说,问题在于"我们真的不知道医生是如何思考的"。
利亚医生说,在描述他们如何得出诊断时,医生会说"凭直觉",或"基于我的经验"。
这种模糊性让研究人员在试图制作能像医生一样思考的计算机程序时面临了数十年的挑战。
这种探索始于近70年前。"自从有了计算机,就有人试图用它们来进行诊断,"利亚医生说。
最雄心勃勃的尝试之一始于20世纪70年代的匹兹堡大学。那里的计算机科学家招募了医学院内科系主任杰克·迈尔斯医生,他以诊断大师而闻名。他有过目不忘的记忆力,每周花20小时在医学图书馆,试图学习医学中所有已知的知识。
计算机科学家给迈尔斯医生提供病例的医疗细节,让他在思考诊断时解释他的推理过程。计算机科学家将他的逻辑链转换为代码。由此产生的程序名为INTERNIST-1,包含了500多种疾病和约3,500种疾病症状。
为了测试它,研究人员给它《新英格兰医学杂志》的病例。"计算机表现得很好,"罗德曼医生说。他补充说,它的表现"可能比人类做得更好"。
但INTERNIST-1从未流行起来。它使用起来很困难,需要超过一个小时来输入做出诊断所需的信息。而且,其创造者指出,"程序目前的形式对临床应用来说还不够可靠"。
研究工作持续推进。到20世纪90年代中期,已经出现了约6个尝试进行医疗诊断的计算机程序。然而,这些程序都未能获得广泛应用。
"不仅是因为它必须对用户友好,医生还必须信任它,"罗德曼医生说。
而且由于对医生思维方式的不确定性,专家们开始质疑他们是否应该关心这个问题。试图设计出像人类一样进行诊断的计算机程序有多重要?
"关于计算机程序应该在多大程度上模仿人类推理,存在争议,"利亚医生说。"为什么我们不发挥计算机的优势呢?"
计算机可能无法清楚地解释其决策路径,但如果它能得出正确的诊断,这重要吗?
随着ChatGPT等大型语言模型的出现,对话发生了变化。它们并不明确尝试复制医生的思维方式;它们的诊断能力来自于预测语言的能力。
"聊天界面是杀手级应用,"斯坦福大学的医生兼计算机科学家、新研究的作者之一乔纳森·H·陈说。
"我们可以将整个病例输入计算机,"他说。"在几年前,计算机还不能理解语言。"但许多医生可能没有充分利用它的潜力。
操作员错误
在对新研究结果最初的震惊之后,罗德曼医生决定深入研究数据,查看医生和ChatGPT之间的实际对话记录。医生一定看到了聊天机器人的诊断和推理,那为什么使用聊天机器人的医生表现没有更好呢?
事实证明,当聊天机器人指出与他们诊断相矛盾的内容时,医生往往不为所动。相反,他们倾向于坚持自己对正确诊断的看法。
"当AI告诉他们一些他们不同意的事情时,他们不听,"罗德曼医生说。
未参与研究的鹿特丹伊拉斯谟医学中心临床推理和诊断错误研究员劳拉·兹万说,这是可以理解的。
"人们在认为自己是对的时候通常过于自信,"她说。
但还有另一个问题:许多医生不知道如何充分利用聊天机器人。
陈医生说,当他查看医生的聊天记录时,发现"他们把它当作定向问题的搜索引擎:'肝硬化是癌症的危险因素吗?眼睛疼痛可能的诊断有哪些?'"
"只有一小部分医生意识到他们可以直接将整个病史复制粘贴到聊天机器人中,让它对整个问题给出全面的回答,"陈医生补充道。
"只有一小部分医生真正看到了聊天机器人能够产生令人惊讶的智能和全面的答案。"
吉娜·科拉塔负责报道疾病和治疗方法,以及治疗方法如何被发现和测试,以及它们如何影响人们。■
保持判断有效知识,保持检索拓展获取!
一项医疗AI实验:大语言模型能帮助医生更好地诊断疾病吗?
——一项单盲随机临床试验研究
实验基本信息:
- 临床试验注册号:NCT06157944
- 研究时间:2023年11月29日至12月29日
- 研究性质:单盲随机临床试验
实验背景:
随着ChatGPT等大语言模型(LLM)的出现,它们在医学考试和推理方面展现出惊人的能力。许多医院已经开始在临床实践中使用这类AI工具。但是,这些工具真的能帮助医生做出更好的诊断吗?为了回答这个问题,研究人员进行了这项严谨的随机对照实验。
实验设计:
参与者情况:
1. 人员构成:50位医生
- 专业分布:
* 内科医生:44人(88%)
* 急诊医学科:5人(10%)
* 家庭医学科:1人(2%)
- 职级分布:
* 主治医师:26人
* 住院医师:24人
- 医生执业年限中位数:3年(IQR 2-8年)
2. 参与方式:
- 远程视频会议:39位(78%)
- 现场参与:11位(22%)
分组方式:
1. 实验组(医生+AI组):
- 可使用ChatGPT Plus(GPT-4)
- 可使用传统医疗资源
- 使用情况:100%的分配到该组的医生使用了AI工具(22/22,3个记录因技术原因丢失)
2. 对照组(仅医生组):
- 可使用传统医疗资源(包括UpToDate、Google等)
- 明确禁止使用任何LLM工具
3. AI单独完成组:
- 使用ChatGPT独立完成诊断
- 进行了3次独立测试
- 结果与人类输出一起进行盲法评分
临床病例特征:
- 来源:基于真实患者病例
- 内容:包含初步诊断评估时可获得的信息(病史、体检和实验室检查结果)
- 特点:这些病例从未公开发布,不在LLM的训练数据中
实验任务:
1. 时间限制:60分钟
2. 任务要求:诊断最多6个临床病例
3. 评估内容:
- 可能的诊断
- 支持和反对某个诊断的理由
- 下一步检查计划
评分系统:
1. 评分工具验证:
- 评分者间一致性:weighted Cohen κ值为0.66
- 内部可靠性:Cronbach α值为0.64
2. 评分维度:
- 鉴别诊断的准确性
- 支持和反对因素的合理性
- 后续诊断评估步骤的适当性
实验结果:
1. 诊断表现:
- 医生+AI组:中位分数76%(IQR 66%-87%)
- 仅医生组:中位分数74%(IQR 63%-84%)
- AI单独组:中位分数92%(IQR 82%-97%)
2. 统计分析显示:
- 医生+AI组与仅医生组差异:2个百分点(95% CI, -4到8个百分点,P=.60)
- AI单独组与仅医生组差异:16个百分点(95% CI, 2-30个百分点,P=.03)
3. 诊断时间比较:
- 医生+AI组:中位时间519秒(IQR 371-668秒)
- 仅医生组:中位时间565秒(IQR 456-788秒)
- 时间差异:-82秒(95% CI, -195到31秒,P=.20)
4. 案例完成情况:
- 总完成病例数:244个
- 医生+AI组:125个病例
- 仅医生组:119个病例
- 每位医生完成病例中位数:5个(IQR 4-6个)
实验启示:
1. 工具潜力与使用差距
- AI独立完成时表现显著优于人类医生
- 医生使用AI时未能充分发挥其潜力
- 表明当前的人机协作模式存在改进空间
2. 人机协作需要更多探索
- 需要专门的AI工具使用培训
- 开发更符合临床工作流程的使用方式
- 优化人机交互界面和流程
3. AI角色定位需要明确
- AI展现出强大的独立诊断能力
- 临床实践中仍需要医生的专业判断
- 需要建立有效的人机协作模式
实验局限性:
1. AI工具局限
- 仅测试了ChatGPT Plus(GPT-4)
- 未评估其他AI医疗工具
- 单一工具的结果可能缺乏普遍性
2. 培训不足
- 未进行AI工具使用培训
- 缺乏提示工程(prompt engineering)指导
- 可能影响了AI工具的实际效果
3. 样本限制
- 6个临床病例样本量较小
- 50位医生的样本量有限
- 专科分布不够广泛
4. 环境局限
- 理想化的实验环境
- 整理过的病例信息
- 缺乏真实临床环境的复杂因素
未来展望:
1. 开发标准化的AI辅助诊断流程
2. 加强医生AI工具使用培训
3. 优化人机协作界面
4. 在真实临床环境中进行更大规模研究
5. 探索不同医学专科的应用效果
研究团队与发表信息:
- 研究团队:斯坦福大学、贝斯以色列女执事医疗中心等多家医疗机构
- 发表期刊:JAMA Network Open
- 发表时间:2024年10月28日