近年来,随着多模态大语言模型的发展,研究者们逐渐发现它们在医疗数据挖掘中展现出潜力。医疗图像和放射学报告是医生进行疾病诊断的重要依据,但其多样性和异质性对数据挖掘方法的普适性提出了巨大挑战。为应对这一挑战,西北工业大学医学研究院张欣团队在《Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports》一文中,通过系统评估Gemini和GPT系列模型在不同医疗任务中的表现,验证了多模态大模型在医学领域的应用潜力。
本研究涵盖了14种医疗数据集,包括皮肤病、放射学、牙科、眼科和内镜检查等医学图像类别以及放射学报告数据集,任务类型涵盖疾病分类、病灶分割、解剖定位、疾病诊断和报告生成等。结果表明,Gemini系列在报告生成和病灶检测方面表现出色,而GPT系列则在病灶分割和解剖定位上具有优势。研究指出,这些多模态模型有望通过减轻医生工作负担和促进AI与临床实践的融合来缓解医疗资源的压力,但在临床应用之前仍需进一步优化和验证。
本研究展示了多模态大语言模型在医疗诊断和数据挖掘中的前景,强调了它们在提升诊断效率和支持医疗决策中的潜力。这一工作为进一步开发和应用多模态AI系统提供了基准,为未来医学影像与文本分析的多模态集成研究奠定了基础。
张欣
张欣,工学博士,西北工业大学医学研究院副教授,陕西省生物医学工程学会理事、脑机接口产业联盟专家委员会专家、医学图像计算青年研讨会委员。主要研究方向为脑成像数据分析与脑认知研究、机器学习与医学图像分析等。发表学术论文30余篇,主持国家自然科学基金项目2项、陕西省自然科学基金项目1项,参与国家自然科学基金重点国合项目等多项国家、省部级课题。
张雨桐
张雨桐,男,硕士研究生在读,本科毕业于太原理工大学,2023年9月进入西北工业大学攻读工学硕士学位。主要研究方向是多模态大语言模型、机器学习和医学图像处理。
Zhang Y, Pan Y, Zhong T, et al. Potential of multimodal large language models for data mining of medical images and free-text reports[J]. Meta-Radiology, 2024: 100103.
长按/扫描获取全文(网页全文二维码)
编辑:欧漫
审核:赵伟