ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

文摘 2024-11-19 21:44 江苏

克雷西发自凹非寺
量子位 | 公众号 QbitAI

用ChatGPT诊断疾病，准确率已经超过了人类医生？！

斯坦福大学等机构进行了一轮随机临床试验，结果人类医生单独做出诊断的准确率为74%。

在ChatGPT的辅助之下，这一数字提升到了76%。

有意思的是，如果完全让ChatGPT“自由发挥”，准确率直接飙到了90%。

据纽约时报说，面对这一结果，参与实验的内科专家Adam Rodman博士表示非常震惊。

有人评价，在这样的案例中，人类的干预，反而是给大模型的表现“拖了后腿”。

OpenAI总裁Brockman也转发了这则消息，表示看来AI还有巨大的潜力，但在和人类合作这件事上，还需要再加强。

50名医生挑战经典病例

研究团队随机从斯坦福大学、弗吉尼亚大学等机构招募到了50名医生，其中包括44名内科医生、5名急诊医生和1名家庭医生。

如果按照职称划分，这50名医生包括26名主治医生和24名住院医生，工作年限中位数为3年。

主治医生和住院医生分别被随机分配到实验组和对照组，区别是在诊断中是否允许使用ChatGPT。

另外，研究人员还对参与者的大模型使用经验进行了统计。

结果有8人从未使用过ChatGPT，6人只用过一次，15人使用频率少于每月一次，13人每月多于一次但少于每周一次，8人每周至少使用一次。

病例方面，研究团队从上世纪90年代以来的105个经典病例中进行了选择和改编。

所有病例均来源于真实病人，包含病史、体检和实验室检查结果等初步诊断评估信息，但最终诊断结果从未公开。

这意味着，人类医生无法预先知晓答案，ChatGPT的训练数据中也没有相应的诊断结果。

四名专业医生每人独立审阅其中至少50个病例，确定至少10个满足纳入标准的候选病例，需要排除过于简单或过于罕见的病例。

最终四人小组讨论达成一致，确定6个最终入选病例，预计受试者完成时间为1个小时。

入选的病例还要经过编辑，改写成现代化实验室数据报告的格式，并用将专业术语替换为通俗描述（如将“网状青斑”替换为“紫色、红色、蕾丝状皮疹”）。

在评估方法上，研究团队设计了一个基于“结构化反思”的评估工具。

具体来说，参与者需要填写一个结构化的表格，其中包含以下关键要素：

最可能的三个鉴别诊断（3分）：参与者需要根据病例信息，列出他们认为最有可能的三个诊断，每个正确的诊断可以获得1分，最多3分；
支持和反对每个诊断的因素（12分）：对于每个鉴别诊断，参与者需要列出病例中支持和反对该诊断的具体证据。每个因素的评分采用0-2分的等级，0分表示错误或缺失，1分表示部分正确，2分表示完全正确；
最终诊断（2分）：在综合考虑各鉴别诊断的支持和反对证据后，参与者需要给出最终诊断。最佳诊断得2分，次佳但合理的诊断得1分，错误诊断不得分；
后续步骤（2分）：参与者需要列出最多三个他们认为必要的后续诊断措施,以进一步确认或排除某些诊断。每个步骤的评分也采用0-2分的等级，0分表示错误，1分表示部分正确，2分表示完全正确。

在正式实验之前，研究团队招募了13名医生，收集了共65个试点病例的结构化反思表格，并邀请3名临床评估专家进行盲评，从而对评分量表进行了优化。

最终，50名参与者需要在1个小时时间内，完成6个病例的结构化反思表格。

每个病例会被2名评分员独立盲评，如果两名评审员评分相差不超过10%，则直接取平均值；

如果差异超过10%，则认为两名评审员存在分歧，需要进行讨论直至达成共识。

ChatGPT表现超过人类

为了更清晰地展示研究的内容，研究人员公布了六个病例中的一个，以及对应得分高和得分低的医生的答案。

一名76岁的男性患者，走路时腰部、臀部和小腿剧烈疼痛。在他接受球囊血管成形术以扩大冠状动脉后几天，疼痛开始出现。手术后，他接受了48小时的血液稀释剂肝素治疗。
该男子称他感到发烧和疲倦。他的心脏病医生所做的实验室研究表明，他的贫血症再次发作，并且氮和其他肾脏废物在血液中积聚。该男子十年前曾因心脏病接受搭桥手术。

案例中还包括该男子体检的详细信息以及他的实验室测试结果，正确的诊断是“胆固醇栓塞”，两名医生以及GPT-4给出的回答如下（中间理由和后续操作略）。

最终，实验组（使用ChatGPT）的诊断得分中位数为76%，对照组为74%。

由于每个参与者完成了多个病例，因此病例之间可能存在相关性，所以为了妥善处理这种嵌套结构，作者使用了混合效应模型。

这类模型不仅考虑了干预的固定效应（即是否使用大模型的影响），还考虑了参与者和病例的随机效应。

根据混合效应模型估计，两组的差异为2个百分点，95%置信区间为-4到8个百分点，p值为0.60。

这意味着，尽管实验组的得分略高于对照组，但这种差异可能仅仅是由于随机误差所致，不具有统计学意义。

如果单纯看最终诊断结果，以及完成测试所花费的时间，两组之间同样没有体现出明显的差别。

除此之外，作者还补充了单独使用ChatGPT进行诊断的实验。

研究团队使用近期提出的提示工程框架，迭代开发了一个最优的0样本提示。

其中包含了任务细节、背景、指令等关键要素，且每个病例使用相同的提示。

一名研究者会将优化后的提示，连同病例内容输入ChatGPT，每个病例独立运行三次。

研究者会不对ChatGPT的输出做任何人工修改，直接交给评分者一同盲评，而且评分员也不知道哪些结果由ChatGPT生成。

结果，单独使用ChatGPT得到的诊断得分，中位数高达92%，明显高于对照组，且p值为0.03，具有统计学意义。

需要注意的是，这些病例是经过人类临床医生精心筛选和总结的，人类已经对其中的关键信息进行过提取。

实际临床工作中，从病人那里获取信息、收集数据的过程更加复杂，因此实验结果并不代表大模型能在临床场景中取代人类。

但同时，“人类+ChatGPT”与ChatGPT“自由发挥”结果之间的巨大差异，也说明了人类的使用方式，还远远不能发挥出大模型的最大效能。

所以，就像开头Brockman说的一样，这个实验预示着，人类和AI之间，还需要进一步加强合作。

论文地址：
https://jamanetwork.com/journals/jamanetworkopen/fullarticle/2825395
参考链接：
[1]https://www.nytimes.com/2024/11/17/health/chatgpt-ai-doctors-diagnosis.html
[2]https://x.com/gdb/status/1858337346514485362

— 完 —

http://mp.weixin.qq.com/s?__biz=MzI1ODU2Njk2OA==&mid=2247498343&idx=1&sn=92261dec8710db45e4d88dd298dcd981

麻醉新超人

介绍麻醉学专业知识，面向麻醉医生、麻醉学本科生和住培生。

最新文章

美国一麻醉医生故意向注射袋中注入其他药品，被判 190 年监禁

《Pediatric Anesthesia》 2024年11月刊

规培笔记：选择性α-肾上腺素能受体激动剂及β₂-肾上腺素能受体激动剂

规培笔记：α-肾上腺素能受体拮抗剂

指南共识:住院医师规范化培训麻醉科专业教学查房实施指引(2024年版)

规培笔记：肾上腺素药物之内源性儿茶酚胺

规培笔记：合成的儿茶酚胺及非儿茶酚胺拟交感胺类药物

我国麻醉学科高质量发展研讨会在徐州举办！

文献精读丨急诊剖腹手术术前大剂量地塞米松(1mg/kg)治疗：随机临床试验

《Anesthesiology》2024年11月刊，第141卷第5期

规培笔记：自主神经系统的解剖

规培笔记：动脉二氧化碳分压增高的鉴别诊断及呼吸力学

《Minerva Anestesiologica》 2024年11月刊

规培笔记：呼吸控制

有着五十年之约的中国麻醉学本科教育

规培笔记：高碳酸血症、动脉二氧化碳分压的决定因素、重吸收、无效腔增加

规培笔记：低氧性肺血管收缩、肺栓塞、肺动脉增厚、肺的分区、肺水肿

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

科技部：对短期内发表多篇论文、取得多项专利等成果的，开展实证核验！

规培笔记：静脉混合、肺内分流、通气灌注比失调、弥散障碍

规培笔记：多波长脉搏血氧饱和度、肺泡氧分压的决定因素

国家卫生健康委就介绍“学习推广三明医改经验”有关情况举行新闻发布会（文字实录）

非升即走！所有麻醉医师将何去何从？

规培笔记：心血管的调节系统

规培笔记：肺循环的生理机制

AI写的综述:添加地塞米松以延长外周神经阻滞时间:ChatGPT 创建的叙述性综述

规培笔记：低血压的生理学机制

规培笔记：心脏的前负荷、心肌收缩力、后负荷

全球各国期刊数量（前三十）

复旦版《2023年度中国医院排行榜》发布，首次采取分级制

《Anaesthesia Critical Care & Pain Medicine》2024年11月刊，第43卷第6期

规培笔记：静脉、吸入麻醉药在肥胖人群中的药理学改变

规培笔记：年龄对麻醉药物药理学的影响

《Regional Anesthesia & Pain Medicine》2024年11月刊，第49卷第11期

规培笔记：麻醉药物相互作用

规培笔记：肥胖对麻醉药物的影响

综述:糖尿病患者围手术期管理的现状-叙述性综述

BMJ:二甲双胍、达格列净和司美格鲁肽，可能是未来糖尿病的一线用药

规培笔记：糖尿病患者的麻醉

规培笔记：围术期糖尿病概述

规培笔记：糖尿病病人的麻醉注意事项

规培笔记：糖尿病的急性并发症（糖尿病酮症酸中毒DKA和高血糖高渗透压综合征HHS）

国家卫健委：支持医务人员合规参加中外医药企业学术会议，合规领取讲课费

四川一麻醉医生为失眠女友注射20多次麻醉药致其身亡，获刑2年半

规培笔记：生物相

规培笔记：药效动力学定义、效能和功效

欧洲围手术期静脉血栓栓塞 (VTE) 预防指南：首次更新

规培笔记：房室模型和多室模型

规培笔记：前端动力学和终末动力学

规培笔记：药代动力学定义和分布容积（关于房室模型讲解最好的）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ChatGPT击败50名人类医生！疾病诊断准确率达90%，OpenAI总裁：人机合作还得加强

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

50名医生挑战经典病例

ChatGPT表现超过人类

克雷西发自凹非寺
量子位 | 公众号 QbitAI