顶刊速递:001.大语言模型在放射影像解读中的应用

文摘   2024-12-11 21:02   内蒙古  

近年来,人工智能(AI),特别是大语言模型(Large Language Models, LLMs)的迅速发展,正在深刻改变医学影像解读的格局。大语言模型不仅在自然语言处理领域展现出卓越的能力,其多模态处理能力使其在放射学中的应用潜力愈加显著。本文旨在系统探讨多模态大语言模型在放射学中的应用,比较其与人类放射科医生的诊断准确性,并深入分析影响其准确性的关键因素,重点突出技术前沿及专家见解。

一、背景

随着OpenAI的GPT-4 Turbo与视觉能力(GPT-4V)、Google DeepMind的Gemini 1.5 Pro以及Anthropic的Claude 3等多模态大语言模型的问世,这些模型不仅能够处理文本信息,还具备处理图像、音频和视频数据的能力。在放射学领域,这些多模态大语言模型的应用日益增多,尤其是在生成和结构化放射学报告、辅助诊断以及教育培训等方面展现出巨大的潜力。传统上,放射科医生依赖丰富的临床经验和专业知识对影像进行解读,而大语言模型的引入为影像解读提供了新的工具和方法,可能改变现有的诊断流程和效率。
二、目的
本文的主要目的是评估大语言模型在解读《新英格兰医学杂志》(IF=96.2,一区Q1)影像挑战案例中的准确性,比较其与不同经验水平的人类读者(包括初级放射科医生、临床医师和医学学生)的表现,并分析影响大语言模型准确性的因素。具体目标包括:
1.准确性评估:量化大语言模型在不同影像解读任务中的表现。
2.比较分析:将大语言模型的表现与人类读者进行对比,评估其相对优势与不足。
3.影响因素探讨:识别并分析影响大语言模型诊断准确性的关键因素,如输入文本长度、影像模态等。
三、研究方法
1. 数据收集:研究回顾了2005年至2024年间发表在《新英格兰医学杂志》上的放射影像案例,共收集了272个具有代表性的影像解读案例。这些案例涵盖了多种影像模态,包括CT、MRI和超声等,确保研究结果的全面性和代表性。
2. 参与者:研究参与者包括多种大语言模型(如GPT-4 Omni、GPT-4V等)和11位人类读者,具体包括:
  • 初级放射科医生(5名):具有3-5年临床经验。
  • 在培训放射科医生(3名):正在接受放射学专科培训。
  • 临床医师(2名):非放射学背景,具有5年以上临床经验。
  • 医学学生(1名):处于临床前期教育阶段。

3. 实验设计:通过使用文本和影像输入,评估大语言模型在各种情况下的准确性。具体设计包括:
  • 输入类型:分为短文本(2005-2015年案例)和长文本(2016-2024年案例)两种。
  • 影像模态:评估不同影像类型(CT、MRI、超声)对诊断准确性的影响。
  • 评估标准:采用准确率、敏感性、特异性等指标衡量诊断性能。


4. 数据分析:使用统计分析方法对大语言模型与人类读者的诊断结果进行比较,采用卡方检验和t检验评估差异的显著性。同时,运用多变量回归分析探讨影响大语言模型准确性的因素。


四、研究结果


1. 大语言模型的准确性

在272个案例中,GPT-4 Omni(GPT-4o)表现出59.6%的总体准确率,具体表现如下:
  • 医学学生:47.1%准确率,显著低于GPT-4o(p<0.05)。
  • 初级放射科医生:80.9%准确率,显著高于GPT-4o(p<0.001)。
  • 在培训放射科医生:70.2%准确率,高于GPT-4o(p<0.01)。
值得注意的是,GPT-4o在有无图像输入的情况下,准确性差别不大,分别为60.2%和59.0%,表明其在图像解读方面的能力相对稳定,但仍需进一步提升。

表2:使用广义估计方程按亚专业划分的大语言模型与人类的准确性

2. 文本长度的影响

大语言模型在长文本输入(2016年至2024年)中的表现(65.3%)明显优于短文本输入(2005年至2015年,54.1%),显示出文本长度对其准确性有显著影响(p<0.01)。而人类读者的准确性则不受文本长度的显著影响(p>0.05)。

图2:柱状图展示了大语言模型(LLMs)与人类读者在各亚专业中的准确性比较所使用的大语言模型包括OpenAI的GPT-4 Omni(GPT-4o),首次发布于2024年5月13日;GPT-4 Turbo with Vision(GPT-4v),首次发布于2023年9月25日;Google DeepMind的Gemini 1.5 Pro(Gemini),首次发布于2023年2月6日;以及Anthropic的Claude 3(Claude),首次发布于2024年3月14日。CH = 胸部,CV = 心血管,GI = 胃肠,GU = 泌尿生殖,MSK = 肌骨,NR = 神经放射,PED = 儿科。

3. 模态的影响

在不同的影像模态中,大语言模型的表现如下:
  • MRI影像:72.5%准确率,显著高于CT(58.3%)和超声(55.7%)影像(p<0.01)。
  • CT影像:58.3%准确率。
  • 超声影像:55.7%准确率。
这表明,影像类型可能是影响大语言模型解读能力的重要因素,尤其在高分辨率和复杂结构的MRI影像中表现更佳。
五、讨论
1. 大语言模型的优势与局限
大语言模型在处理复杂文本信息和多模态数据方面展现出显著优势,尤其是在长文本输入和高分辨率影像(如MRI)解读中表现较好。然而,与经验丰富的放射科医生相比,其诊断准确性仍存在明显差距。这主要归因于以下几点:
  • 临床经验缺乏:大语言模型依赖于训练数据,缺乏临床实践中的实时反馈和经验积累。
  • 复杂病理理解不足:某些复杂病变需要综合多种临床信息和影像特征进行判断,大语言模型在这方面尚显不足。
  • 图像理解能力有限:尽管具备多模态处理能力,但大语言模型在高复杂度影像的细致解读上仍需提升。


2. 影响因素分析

研究发现,文本长度和影像模态是影响大语言模型诊断准确性的关键因素。长文本输入为模型提供了更多上下文信息,提升了其理解和判断能力。而不同影像模态的复杂性和细节程度直接影响了模型的解读效果。此外,模型训练数据的多样性和质量、算法优化程度以及多模态融合技术的发展水平也是影响其性能的重要因素。

图3:柱状图展示了根据文本输入长度和图像输入存在与否的准确率比较大语言模型(LLMs)在长文本输入下表现出显著更高的准确率(所有P < 0.001)。然而,对于人类读者来说,准确率并无显著差异。在没有图像输入的情况下,Anthropic的Claude 3(Claude;首次发布于2024年3月14日)在41.5%(272个案例中的113个)情况下无法提供输出。Google DeepMind的Gemini 1.5 Pro(Gemini;首次发布于2023年2月6日)(P = 0.44)、OpenAI的GPT-4 Turbo with Vision(GPT-4v;首次发布于2023年9月25日)(P = 0.16)以及GPT-4 Omni(GPT-4o;首次发布于2024年5月13日)(P = 0.59)在有无图像输入的情况下表现出相似的准确率,而Claude在没有图像输入时表现出更高的准确率(与有图像时相比:74.2% 对 57.0%;P < 0.001)。

3. 临床应用的潜在风险与伦理考量

尽管大语言模型在放射影像解读中展现出潜力,但其在临床应用中仍需谨慎。主要风险包括:
  • 误诊风险:模型的诊断错误可能导致误导性治疗决策。
  • 责任归属:在诊断失误情况下,责任归属尚不明确。
  • 隐私与数据安全:大语言模型的应用涉及大量患者数据,需确保数据的隐私和安全。
因此,在临床实践中,必须将大语言模型作为辅助工具,结合人类专家的判断,确保诊断的准确性和可靠性。

六、未来的发展方向


1. 模型性能优化

未来的研究应致力于提升大语言模型在放射影像解读中的准确性和可靠性。具体方向包括:
  • 增强训练数据:扩大高质量、多样化的训练数据集,涵盖更多影像类型和临床场景。
  • 算法改进:优化多模态融合算法,提升模型对复杂影像特征的理解能力。
  • 实时学习:引入实时反馈机制,使模型能够从临床实践中不断学习和优化。


2. 多模态与跨学科融合

结合其他医学领域的数据(如基因组学、电子健康记录等),构建综合性的大语言模型,以实现更全面的疾病预测和诊断。

3. 临床验证与标准化

开展大规模、多中心的临床验证研究,评估大语言模型在不同临床环境中的表现,并制定相应的使用标准和规范,确保其在实际应用中的一致性和可靠性。

4. 人机协作模式探索

探索大语言模型与放射科医生的协作模式,优化工作流程,提高诊断效率和准确性。例如,模型可作为初筛工具,筛选出潜在异常影像,辅助医生集中精力处理复杂和疑难病例。

5. 伦理与法律框架建设

建立完善的伦理和法律框架,规范大语言模型在临床中的应用,确保数据隐私、责任归属等关键问题得到有效解决。

结论

大语言模型在医学影像解读中展现出良好的应用前景,能够在一定程度上辅助放射科医生的工作,提高诊断效率和准确性。然而,其在准确性、复杂病理理解和图像解读能力方面仍存在显著差距,需结合人类专家的判断进行应用。随着技术的不断进步和研究的深入,未来大语言模型有望在放射学领域发挥更大的作用,推动医学影像解读的智能化和精准化。医生和研究人员应充分理解大语言模型的原理与应用,紧跟技术前沿,推动其在临床实践中的广泛应用,从而为患者提供更加精准和个性化的医疗服务。
参考文献:
Suh PS, Shim WH, Suh CH, Heo H, Park KJ, Kim PH, Choi SJ, Ahn Y, Park S, Park HY, Oh NE, Han MW, Cho ST, Woo CY, Park H. Comparing Large Language Model and Human Reader Accuracy with New England Journal of Medicine Image Challenge Case Image Inputs. Radiology. 2024 Dec;313(3):e241668. doi: 10.1148/radiol.241668. PMID: 39656125.

CT Clinical Evidence
To support clinical application by finding evidence from NCBI
 最新文章