近年来,人工智能(AI),特别是大语言模型(Large Language Models, LLMs)的迅速发展,正在深刻改变医学影像解读的格局。大语言模型不仅在自然语言处理领域展现出卓越的能力,其多模态处理能力使其在放射学中的应用潜力愈加显著。本文旨在系统探讨多模态大语言模型在放射学中的应用,比较其与人类放射科医生的诊断准确性,并深入分析影响其准确性的关键因素,重点突出技术前沿及专家见解。
一、背景
初级放射科医生(5名):具有3-5年临床经验。 在培训放射科医生(3名):正在接受放射学专科培训。 临床医师(2名):非放射学背景,具有5年以上临床经验。 医学学生(1名):处于临床前期教育阶段。
输入类型:分为短文本(2005-2015年案例)和长文本(2016-2024年案例)两种。 影像模态:评估不同影像类型(CT、MRI、超声)对诊断准确性的影响。 评估标准:采用准确率、敏感性、特异性等指标衡量诊断性能。
4. 数据分析:使用统计分析方法对大语言模型与人类读者的诊断结果进行比较,采用卡方检验和t检验评估差异的显著性。同时,运用多变量回归分析探讨影响大语言模型准确性的因素。
四、研究结果
1. 大语言模型的准确性
医学学生:47.1%准确率,显著低于GPT-4o(p<0.05)。 初级放射科医生:80.9%准确率,显著高于GPT-4o(p<0.001)。 在培训放射科医生:70.2%准确率,高于GPT-4o(p<0.01)。
表2:使用广义估计方程按亚专业划分的大语言模型与人类的准确性
大语言模型在长文本输入(2016年至2024年)中的表现(65.3%)明显优于短文本输入(2005年至2015年,54.1%),显示出文本长度对其准确性有显著影响(p<0.01)。而人类读者的准确性则不受文本长度的显著影响(p>0.05)。
图2:柱状图展示了大语言模型(LLMs)与人类读者在各亚专业中的准确性比较:所使用的大语言模型包括OpenAI的GPT-4 Omni(GPT-4o),首次发布于2024年5月13日;GPT-4 Turbo with Vision(GPT-4v),首次发布于2023年9月25日;Google DeepMind的Gemini 1.5 Pro(Gemini),首次发布于2023年2月6日;以及Anthropic的Claude 3(Claude),首次发布于2024年3月14日。CH = 胸部,CV = 心血管,GI = 胃肠,GU = 泌尿生殖,MSK = 肌骨,NR = 神经放射,PED = 儿科。
3. 模态的影响
MRI影像:72.5%准确率,显著高于CT(58.3%)和超声(55.7%)影像(p<0.01)。 CT影像:58.3%准确率。 超声影像:55.7%准确率。
临床经验缺乏:大语言模型依赖于训练数据,缺乏临床实践中的实时反馈和经验积累。 复杂病理理解不足:某些复杂病变需要综合多种临床信息和影像特征进行判断,大语言模型在这方面尚显不足。 图像理解能力有限:尽管具备多模态处理能力,但大语言模型在高复杂度影像的细致解读上仍需提升。
2. 影响因素分析
图3:柱状图展示了根据文本输入长度和图像输入存在与否的准确率比较:大语言模型(LLMs)在长文本输入下表现出显著更高的准确率(所有P < 0.001)。然而,对于人类读者来说,准确率并无显著差异。在没有图像输入的情况下,Anthropic的Claude 3(Claude;首次发布于2024年3月14日)在41.5%(272个案例中的113个)情况下无法提供输出。Google DeepMind的Gemini 1.5 Pro(Gemini;首次发布于2023年2月6日)(P = 0.44)、OpenAI的GPT-4 Turbo with Vision(GPT-4v;首次发布于2023年9月25日)(P = 0.16)以及GPT-4 Omni(GPT-4o;首次发布于2024年5月13日)(P = 0.59)在有无图像输入的情况下表现出相似的准确率,而Claude在没有图像输入时表现出更高的准确率(与有图像时相比:74.2% 对 57.0%;P < 0.001)。
3. 临床应用的潜在风险与伦理考量
误诊风险:模型的诊断错误可能导致误导性治疗决策。 责任归属:在诊断失误情况下,责任归属尚不明确。 隐私与数据安全:大语言模型的应用涉及大量患者数据,需确保数据的隐私和安全。
六、未来的发展方向
1. 模型性能优化
增强训练数据:扩大高质量、多样化的训练数据集,涵盖更多影像类型和临床场景。 算法改进:优化多模态融合算法,提升模型对复杂影像特征的理解能力。 实时学习:引入实时反馈机制,使模型能够从临床实践中不断学习和优化。