提供准确的诊断在医疗保健中至关重要,是获得适当和及时治疗的途径。虽然最近的大型语言模型(LLM)已经在少量或零量学习中表现出令人印象深刻的能力,但是它们在临床诊断中的有效性仍然未经证实。2025年1月8日,北京邮电大学Wang Guangyu、北京大学Song Chunli、三峡大学Yang Jian共同通讯在Nature Medicine(IF=58.7)在线发表题为“A generalist medical language model for disease diagnosis assistance”的研究论文,该研究介绍了MedFound,这是一个具有1760亿个参数的通用医学语言模型,在来自不同医学文本和真实世界临床记录的大规模语料库上进行预训练。研究人员进一步微调了MedFound,通过基于自引导策略的思维链方法来学习医生的推理诊断,并引入了统一的偏好对齐框架,使其与标准临床实践保持一致。大量实验表明,医疗LLM在八个专业的分布内(常见疾病)、分布外(外部验证)和长尾分布(罕见疾病)场景中优于其他基线LLM和专业模型。进一步的消融研究表明了医疗LLM培训方法中关键部分的有效性。研究人员对LLMs用于诊断的临床适用性进行了全面评估,涉及人工智能(AI)与医生比较、AI辅助研究和人类评估框架。该研究结果证明了该模型在辅助医生进行疾病诊断作为临床工作流程的一部分方面的可行性。
提供准确的诊断在医疗保健领域发挥着至关重要的作用,也是所有医生的一项基本技能。诊断过程通常包括通过分析症状、体征和调查结果的扩展推理过程来识别疾病,以形成诊断和鉴别诊断。尽管经过广泛的医学培训,诊断仍容易出错,在初级保健级别估计有20%的误诊率,这导致了医疗实践中约17%的不良事件。几十年来,人们已经做出了相当大的努力来提高疾病诊断的准确性和可及性,包括传统的基于规则的临床决策支持系统(CDSSs)5和提取结构化特征以开发临床预测模型的机器学习技术。然而,对结构化投入和专门培训的依赖是复杂和资源密集型的。主要医疗预测算法的开发和它们在不同医疗保健环境中的实际临床部署之间仍然存在巨大差距。近年来,预训练语言模型的出现极大地推动了自然语言处理领域的发展。这些模型首先通过自我监督的学习任务在大规模语料库上进行预训练,然后在特定的下游任务上进行微调。进一步的研究表明,当模型大小、数据集大小和计算资源足够大时,大型语言模型(LLM)可以在多个NLP任务中表现出新兴的少镜头和零镜头特性。机理模式图(图源自Nature Medicine)PLM和LLM的最新进展吸引了人们对使用这些针对生物医学领域定制的预训练语言模型的兴趣,如ClinicalBERT、NYUTron、GatorTron和BioGPT。这些模型展示了转变特定任务范式和解决医疗预测分析中“最后一英里”挑战的潜力,从而实现了多功能临床应用的开发。尽管LLM技术在生物医学方面有潜力,但对其实用性的开发仍处于初级阶段。大多数研究集中于医学中LLM的用例报告,尤其是ChatGPT。目前缺乏设计良好的、可公开获得的、专门为现实世界临床环境定制的LLM。在这项研究中,研究人员开发了MedFound-DX-PA,这是一种用于一般诊断的大规模医疗辅助工具,以接近临床医生的专业知识跨越各种医疗保健场景。当在MedDX-Bench上进行评估时,MedFound-DX-PA显示了跨专业和条件的卓越诊断性能,包括常见疾病和罕见疾病的ID和OOD设置。此外,还进行了涉及MedFound-DX-PA与专家的比较研究和一项AI辅助研究,这表明它有可能提高初级或中级医生的诊断能力。此外,LLMs的人体评估研究表明,MedFound-DX-PA有可能成为整合到临床工作流程中的多面手。
参考消息:
https://www.nature.com/articles/s41591-024-03416-6#Sec31
—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!