Nat. Med. | AI医生来了!新一代医疗语言模型Med-PaLM2展现专家级诊疗能力

学术   2025-01-29 00:01   韩国  

DRUGAI

今天为大家介绍的是来自谷歌研究团队的一篇论文。大语言模型(LLMs)在医学问答领域展现出巨大潜力,Med-PaLM率先在美国医师执照考试类型的问题中取得了"及格"分数。但在长答案医学问答和处理真实场景工作流程方面仍面临挑战。作者推出了Med-PaLM 2,通过结合基础LLM改进、医学领域微调以及通过集成优化和检索链提升推理和数据支撑的新策略来解决这些问题。Med-PaLM 2在MedQA数据集上的得分高达86.5%,比Med-PaLM提升了超过19%,并在MedMCQA、PubMedQA和MMLU临床主题数据集上都展现出显著的性能提升。作者详细的人工评估框架显示,在九个临床评估维度中的八个方面,医生更倾向于选择Med-PaLM 2的回答而不是其他医生的回答。Med-PaLM 2在所有评估指标上都显著优于其前身,特别是在专门用于测试LLM局限性的对抗性数据集上(P < 0.001)。在使用真实医学问题的试点研究中,专科医生在65%的情况下更倾向于选择Med-PaLM 2的回答而不是全科医生的回答。虽然总体上专科医生的回答仍然是最受欢迎的,但专科医生和全科医生都认为Med-PaLM 2的安全性与医生的回答相当,这展示了它在真实医疗应用中日益增长的潜力。

transformer和大语言模型的出现重新激发了AI在医学问答任务方面的可能性探索——这一直是一个重大挑战。大多数方法都使用领域特定数据来训练较小的语言模型(如BioLinkBert、DRAGON、PubMedGPT、PubMedBERT、BioGPT),在MedQA(美国医师执照考试(USMLE))、MedMCQA和PubMedQA等基准数据集上取得了稳步的性能提升。


像GPT-3和Flan-PaLM这样在海量计算基础设施上使用互联网规模语料库训练的大型通用大语言模型的兴起,在几个月内就在这些基准测试上实现了跨越式进步(图1)。具体而言,GPT-3.5在MedQA(USMLE)数据集上达到了60.2%的准确率,Flan-PaLM达到了67.6%的准确率,而GPT-4-base达到了86.1%。

图 1


研究人员评估了GPT-3在48个经过验证的常见和严重病例简介中的诊断和分诊准确性,并与普通人和医生进行了比较。研究发现GPT-3的诊断能力优于普通人,接近医生水平。在分诊方面,其表现则不太理想,更接近普通人水平。类似地,研究人员也分别研究了GPT-3在遗传学、外科和眼科领域的表现。其他研究比较了ChatGPT和医生对195个从社交媒体论坛随机抽取的患者问题的回答,发现ChatGPT的回答在质量和共情方面都获得了更高的评分。


在之前关于Med-PaLM的工作中,作者展示了广泛的医学问答基准测试、模型答案的详细人工评估以及医学领域对齐策略的重要性。作者推出了MultiMedQA,这是一个涵盖医学考试、消费者健康和医学研究的多样化医学问答基准。作者提出了一个人工评估标准,使医生和普通人能够对模型答案进行详细评估。作者的初始模型Flan-PaLM在多项选择基准测试中取得了优异的表现。然而,人工评估显示,在这个对安全至关重要的领域中,还需要进一步的工作来确保事实性的长答案能够与人类的价值观和期望相一致(这个过程通常被称为"对齐")。作者开发了Med-PaLM,相比Flan-PaLM获得了医生显著改善的评价。但是,这些基准测试评估作为衡量真实工作流程中实用性的标准还很有限,与医生的回答相比仍存在重要不足。


作者通过Med-PaLM 2弥补了这些差距并进一步提升了大语言模型在医学领域的能力。作者使用改进的基础大语言模型(PaLM 2)、医学领域特定的微调以及新的提示策略(包括集成优化和检索链)来提升推理和数据支撑能力。如图1所示,Med-PaLM 2在MedQA上比Med-PaLM提升了超过19%,并在MedMCQA、PubMedQA和MMLU临床主题数据集上接近或超越了此前的最优性能。


各项基准测试结果

表 1


表1总结了Med-PaLM 2在MultiMedQA多项选择基准测试上的结果。除非另有说明,Med-PaLM 2指的是在扩展数据表1中混合数据上训练的统一模型。作者还包括了与GPT-4的比较。作者指出与GPT-4的比较并不直接,因为它是专有系统,作者无法像在表2中对Med-PaLM 2那样测量评估数据与模型训练数据的重叠度。


使用集成优化(ER)作为提示策略,作者的统一Med-PaLM 2模型达到了85.4%的准确率。在这个数据集上的最佳结果是86.5%,这来自于一个没有针对消费者医学问答进行对齐,而是仅在MedQA上进行指令微调的Med-PaLM 2版本。


在MedMCQA上,Med-PaLM 2获得了72.3%的分数,超过了Flan-PaLM 14%以上,但略低于此前的最优性能(GPT-4-base的73.66%)。


在PubMedQA上,Med-PaLM 2获得了75.0%的分数。这低于最优性能(BioGPT-Large的81.0%),可能是因为指令微调时没有包含这个数据集的数据。然而,在开发集上进一步探索提示策略后,统一模型在单次运行中达到了79.8%的准确率,使用自一致性(11×)达到了81.8%。后者是最优结果,但需要注意的是PubMedQA的测试集很小(500个样本),Med-PaLM 2和其他强大模型剩余的失误似乎主要归因于数据集本身的标签噪声(特别是考虑到人类表现为78.0%)。


在MMLU临床主题上,Med-PaLM 2显著超越了Med-PaLM此前报告的结果,并在六个主题中的三个上超过了之前的最优性能,而在其他三个主题上GPT-4-base报告了更好的数据。作者注意到,如扩展数据表1所示,每个主题的测试集都很小。


作者观察到GPT-4-base和对齐后的GPT-4模型在这些多项选择基准测试上的性能有所下降(表1)。相比之下,Med-PaLM 2在专门针对长答案医学问答需求进行对齐的同时,在多项选择基准测试上表现出色。虽然多项选择基准测试是衡量这些模型中编码知识的有效方法,但作者认为,沿着临床相关维度对模型回答进行人工评估对于评估它们在真实临床应用中的实用性是必要的。


重叠度分析

表 2


重叠百分比从MedQA的0.9%到MMLU医学遗传学的48.0%不等。在九个数据集中的六个中,Med-PaLM 2在有重叠的问题上表现略好,但由于大多数数据集中重叠问题数量相对较少,这种差异仅在MedMCQA上具有统计学意义(准确率差异4.6%,[1.3,7.7])(表2)。当作者将重叠片段长度从512个字符减少到120个字符(方法部分)时,重叠百分比增加了(从MedQA的11.15%到MMLU医学遗传学的56.00%),但在重叠问题上的性能差异相似(补充表2),并且差异仍然只在一个数据集上具有统计学意义。这些结果与之前的研究类似,该研究也发现在重叠数据上测试时性能差异很小。


这项分析的一个局限性在于,由于不同文档中正确答案的呈现方式存在差异,作者无法完全识别出同时明确提供了正确答案的重叠问题子集。如果将重叠分析限制在有答案的问题上,虽然可能会导致观察到更大的性能差异,但会降低重叠百分比。


独立评估


图 2


在MultiMedQA 140数据集上,医生评价Med-PaLM 2的回答在评估维度上与医生生成和Med-PaLM生成的回答总体相当(图2)。考虑到观察到的效应大小(差异),该分析的统计效能较低,在对多重比较应用Bonferroni校正后没有显著差异。这促使作者对扩展样本(MultiMedQA 1066)进行了下文介绍的成对排名分析。


在对抗性数据集上,医生评价Med-PaLM 2的回答在所有维度上都显著优于Med-PaLM的回答(所有维度P < 0.001)。这种模式在对抗性数据集的一般子集和健康公平子集中都成立。


普通人评价认为Med-PaLM 2对MultiMedQA 140数据集中问题的回答比Med-PaLM的回答更有帮助和相关性(两个维度均P ≤ 0.002)。


值得注意的是,Med-PaLM 2的回答比Med-PaLM和医生的回答更长。例如,在MultiMedQA 140中,Med-PaLM 2的回答中位长度为794个字符,而Med-PaLM为565.5个字符,医生为337.5个字符。对抗性问题的回答通常更长,Med-PaLM 2的中位回答长度为964个字符,Med-PaLM为518个字符,这可能反映了这些问题的更高复杂性。


成对排序评估

成对排序评估更明确地评估了Med-PaLM 2、Med-PaLM和医生的相对表现。这项评估涵盖了扩展集MultiMedQA 1066和对抗性测试集。

图 3


在MultiMedQA测试中,在九个评估维度中的八个方面,Med-PaLM 2的回答质量被评为高于医生的回答(所有单独比较的P值均<0.001;图1)。例如,Med-PaLM 2的回答更好地反映了医学共识,表现出更好的阅读理解能力,较少出现重要信息遗漏或存在潜在危害的情况。但在"包含不准确或无关信息"这一维度上,Med-PaLM 2的表现不如医生的回答。在相同的八个维度上,Med-PaLM 2的回答质量也高于Med-PaLM(图3);Med-PaLM 2包含不准确或无关信息的比例低于Med-PaLM(Med-PaLM 2为18.4%,Med-PaLM为21.5%),但这一差异并不显著(P=0.12)。在对抗性问题上,Med-PaLM 2在所有评估维度上的排名都优于Med-PaLM(图3),且在许多维度上都有显著优势。 


三方效用排名

图 4


图4a展示了模型、全科医生和专科医生回答的三方排名结果。对于全科医生的排名,基于每个问题的11个评分,作者确定了不同评分者对每个问题的多数排名。结果显示,专科医生的回答在全科医生和专科医生评分者中都表现最佳,但Med-PaLM 2的回答在两组评分者中的表现与全科医生相当或更好,获得最优和次优评价的回答比例高于全科医生。


图4b展示了两组评分者对模型与全科医生、模型与专科医生之间的成对排名平均结果。两组评分者都更偏好专科医生的回答而非模型回答(偏好度约60%),但专科医生更偏好模型回答而非全科医生回答(偏好度65%)。全科医生对模型回答和全科医生回答的偏好程度大致相当,这表明随着模型表现接近人类水平,通过高度专业化的专家评估可能对区分模型表现和人类表现很重要。


个体伤害评估

表 3

表 4


表3和表4展示了模型、全科医生和专科医生回答的个体伤害评估结果。大多数全科医生认为所有三类来源的回答都没有伤害性,但在80%无害性一致性阈值下,每个来源都有少数问题被标记。在这个阈值下,Med-PaLM 2的20个回答中有16个无害,全科医生的20个回答中有17个无害,专科医生的20个回答中有15个无害。对于专科医生评分者(每个回答一位评分者),20个模型回答中有17个无害,20个全科医生回答中有19个无害,20个专科医生回答中有18个无害。


有趣的是,在两组评分者中,一些医生的回答也被标记为可能有害,这表明评估伤害性是一项具有挑战性且主观性的工作。总体而言,结果并未显示模型、全科医生和专科医生回答之间在伤害性方面存在实质性差异。

编译|黄海涛

审稿|王梓旭

参考资料

Singhal, K., Tu, T., Gottweis, J., Sayres, R., Wulczyn, E., Amin, M., ... & Natarajan, V. (2025). Toward expert-level medical question answering with large language models. Nature Medicine, 1-8.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章