Radiology| Llama 3在放射学委员会风格考试问题中挑战专有的最先进大型语言模型
科技
科学
2024-11-15 08:30
重庆
德国慕尼黑工业大学诊断和介入放射科、德国亚琛工业大学附属医院放射科、德国柏林夏洛特医学院附属医院放射科和德国慕尼黑德国心脏中心放射科和核医学科等单位2024年在Radiology (JCR Q1, IF: 12.1) 杂志上发表了Llama 3在放射学委员会风格考试问题中挑战专有的最先进大型语言模型。Llama 3在放射学委员会风格考试问题中挑战专有的最先进大型语言模型
大型语言模型(LLMs)已显示出在医疗保健中,包括放射学中的各种应用潜力。然而,大多数研究都集中在如OpenAI的ChatGPT、Anthropic的Claude和谷歌DeepMind的Gemini等专有模型上。这些模型已显示出在改善医疗保健各个方面,包括放射学中的希望,但它们的专有状态是一个显著的限制。它们需要使用应用程序编程接口(API),这涉及到将数据发送到医院外,引发了全球范围内的隐私问题。此外,更新可能导致不稳定的行为并破坏工作流程。在医疗保健中,可靠性至关重要,这是一个主要风险。开发开源LLMs提供了一个解决方案,允许在医院内部操作,提高了隐私和稳定性,当LLM系统不是由员工维护和手动更新时。从历史上看,开源模型在性能上落后于专有模型。然而,Meta在2024年4月发布的开源Llama 3以其700亿参数,在自然语言处理基准测试中显示出强大的结果,使其成为医疗保健领域一个有前景的工具。本研究比较了Llama 3、其他开源LLMs和领先的专有模型的性能,使用的是美国放射学院(ACR)2022年培训测试和额外的85个放射学委员会风格考试问题,不包括图像。
材料和方法
从公开可用的ACR 2022年培训测试中获得了50个多项选择题。然而,使用公开可用数据存在这些题目可能已经包含在LLMs的训练数据集中的固有风险。为了减轻这一点,开发了85个新的放射学委员会风格的考试问题,不包括图像,以确保这些模型以前未见过这些问题。这些问题被逐字输入到几个LLMs中,包括GPT-4 Turbo和GPT-3.5 Turbo(OpenAI 、Claude 3 Opus(Anthropic )、Gemini Ultra(Google DeepMind)和Llama 3 70B和Llama 3 8B的指导版本(Meta )以及Mixtral 8 × 7B和Mixtral 8 × 22B(Mistral AI )。通过在三次运行中评估响应来评估模型的准确性,只有在至少三次中的两次与官方答案键一致时才考虑答案正确。为了统计比较性能,使用了Cochran Q检验和成对McNemar检验,P < .05被认为是统计学上显著差异的指标。进行了事后功效分析(功效为0.8,显著性水平为0.05/28),以计算效应大小(ω)。
结果
在ACR培训测试问题(P < .001)和放射学委员会风格考试问题(P < .001)上,所有模型之间存在显著差异。事后功效分析显示,ACR培训测试问题(效应大小,ω = 0.56)中模型之间存在较大差异,放射学委员会风格考试问题(效应大小,ω = 0.42)中存在中等差异。
对于50个ACR培训测试问题,Llama 3 70B以74%的准确率(50个中的37个)领先于开源模型。Mixtral 8 × 7B(52%,50个中的26个;P = .015)和Llama 3 8B(42%,50个中的21个;P = .002)的得分都显著低于Llama 3 70B。对于85个放射学委员会风格问题,Llama 3 70B实现了80%的准确率(85个中的68个),显著优于GPT 3.5 Turbo的61%(85个中的52个,P = .005)、Mixtral 8 × 7B的61%(85个中的52个,P = .003)和Llama 3 8B的58%(85个中的49个,P < .001)。比较了包括GPT-4 Turbo、GPT-3.5 Turbo、Claude 3 Opus和Gemini Ultra在内的最先进的封闭大型语言模型(LLMs)与包括Llama 3 70B、Llama 3 8B、Mixtral 8 × 22B和Mixtral 8 × 7B在内的开源LLMs的性能,按准确性从高到低排序。误差条表示每个准确性测量的95% CI。顶部:水平条形图显示LLM在回答50个公开可用的美国放射学院诊断培训测试问题时的性能。Llama 3 70B实现了74%的准确率(50个中的37个),与GPT-4 Turbo(78%,50个中的39个,P = .83)、Claude 3 Opus(78%,50个中的39个,P = .79)、Gemini Ultra(72%,50个中的36个,P = 1.0)、Mixtral 8 × 22B(64%,50个中的32个,P = .36)和GPT-3.5 Turbo(58%,50个中的29个,P = .08)的性能差异不显著。Mixtral 8 × 7B(52%,50个中的26个;P = .015)和Llama 3 8B(42%,50个中的21个问题;P = .002)的得分都显著低于Llama 3 70B。底部:水平条形图显示LLM在回答85个放射学委员会风格考试问题时的性能。Llama 3 70B实现了80%的准确率(85个中的68个),与GPT-4 Turbo(82%,85个中的70个;P = .83)和Claude 3 Opus(76%,85个中的65个;P = .63)表现相当。虽然Llama 3 70B的得分在数字上高于Gemini Ultra(72%,85个中的61个;P = .17)和Mixtral 8 × 22B(72%,85个中的61个;P = .15),但这些差异在统计上不显著。然而,Llama 3 70B显著优于GPT-3.5 Turbo(61%,85个中的52个,P = .005)、Mixtral 8 × 7B(61%,85个中的52个,P = .003)和Llama 3 8B(58%,85个中的49个,P < .001)。Meta的Llama 3,一个拥有700亿参数的开源大型语言模型(LLM),在放射学委员会风格考试问题的子集上与领先的专有LLMs,如OpenAI的ChatGPT和Anthropic的Claude,表现出了匹配的性能。这展示了开源LLMs的能力正在增长,它们提供了与专有模型相当的隐私、定制化和可靠性,但参数数量要少得多,在使用量化等优化技术时可能降低了运营成本。
尽管表现出色,但重要的限制仍然存在。多项选择格式只测试特定知识,错过了更广泛的临床复杂性。需要更精细的基准来评估LLM在放射学的技能,包括疾病和治疗知识、指南遵循和现实世界案例的模糊性。开源模型在以图像为中心的放射学领域缺乏多模态是一个关键的不足。此外,所有LLMs都面临着产生不可靠输出的挑战,包括假阳性发现和幻觉。然而,开源LLMs为放射学提供了重要的优势,允许深度定制架构和训练数据。这种适应性使得能够创建可以胜过通用专有模型的专业模型,支持开发定制的临床助手和决策支持工具。
总之,Llama 3在放射学委员会风格考试问题的子集上的表现突显了开源大型语言模型在医疗保健中的潜力和日益增长的竞争力,特别是考虑到今年晚些时候将发布一个更大的Llama 3版本,拥有4000亿参数,预计性能会更好。开源模型的成熟度和竞争力的增长使它们成为未来放射学研究和应用的有希望的候选者。
Radiology 2024; 312(2):e241191 • https://doi.org/10.1148/radiol.241191 .
如您觉得内容不错,对您有帮助,希望能够点赞、在看、分享、打赏!感谢您的支持。