微软重磅发布!“全能”AI模型MedImageInsight - 从超声到多模态影像的多领域医疗影像处理平台

文摘   2024-10-13 18:20   上海  


"怀长期主义,聊医工科技"

欢迎添加超哥微信加入交流群,获取前沿,合作等资讯
添加微信时请备注姓名,单位,从事方向等讯息



不错过医工超人文章三部曲:1. 关注公众号 2. 经常点击“在看” 3. 点击公众号右上方设置“星标” 每篇文章都会按时推送不错过

本篇文章大概2700字,深度阅读需要12分钟
      今天的文章中,超哥为大家介绍MedImageInsight ,这个平台是一个专为医疗影像设计的开源嵌入模型,旨在提高诊断效率和临床决策支持。该模型采用双塔架构,结合图像和文本编码器,支持跨越多种医疗影像模式(如X光、CT、MRI、超声波等)的分类、图像搜索和报告生成。通过在14个医疗影像子领域的300多万张图像上进行训练,MedImageInsight 在多项任务中实现了与人类专家相当甚至超越的表现,特别是在胸部X光和3D医疗图像检索等任务中达到SOTA(最先进)水平。该模型能够生成ROC曲线,支持临床敏感性与特异性的调整,满足监管合规需求。其基于KNN的图像检索提供了透明的决策过程。此外,与轻量级文本解码器结合后,MedImageInsight 可用于高效的报告生成,表现接近大型模型但计算成本较低。通过开源发布,MedImageInsight 希望推动医疗影像AI的合作与创新,改善全球医疗健康结果。
超哥之前介绍的开源软件相关文章:

开源方案 | EchoLocator - 为超声人工智能"铺路"的多中心超声图像标准化解决方案

“免费且好用“的超声数据处理与产品开发平台MITK-US : 一种用于超声应用的开源框架

开源平台 | 解决无创神经调控定位难题 - 一种全新精准靶向LIFU开源仿真平台


超哥有话说:微软Health and life sciences重磅发布开源平台MedImageInsight,为广大临床医生提供一个专为医疗影像设计的开源嵌入模型,旨在提高诊断效率和临床决策支持。该模型采用双塔架构,结合图像和文本编码器,支持跨越多种医疗影像模式(如X光、CT、MRI、超声波等)的分类、图像搜索和报告生成。

这篇文章超哥为大家介绍了MedImageInsight,这是一个专为医疗影像设计的开源嵌入模型,旨在解决医疗领域中日益增长的影像数据分析需求与专业人员短缺的问题。通过人工智能(AI),MedImageInsight可提高诊断的准确性,并通过自动化常规任务、支持临床决策来提升工作流程效率。该模型能够在不需要为每个特定任务进行微调的情况下,跨多个医疗影像子领域进行扩展。

现有的AI模型横向性能比对

       AI基础模型在各个领域展现了强大的泛化能力,能够在多个任务和领域中表现出色,减少了对单一专用模型的依赖。然而,之前的模型在扩展性和透明度方面往往存在局限,特别是在医疗环境中,透明、基于证据的决策对于临床工作至关重要。MedImageInsight正是为了解决这些问题而开发的,提供了一个广泛适用、透明的通用模型,支持多种医疗影像模式。

MedImageInsight基础模型概述:a) 数据集和用于训练与评估的影像模式的弦图。b) MedImageInsight在MIMIC-CXR数据集上,利用单张影像进行报告生成的表现,比较了多种方法(带有下标“multi”的表示多张影像的基准测试)。c) 单一模型(无微调)在多个数据集上的分类性能的雷达图。所有指标均为mAUC(曲线下面积),除了SD-198和OCT2018,它们显示的是准确率。参考值为SOTA(最先进技术)。d) 3D-MIR基准测试的3D检索结果(固有能力,无需微调)。TP = 肿瘤存在,TS = 肿瘤分期,P@N = Precision @ N(前N个结果的精确率)。e) 3个胸部X光报告生成的预测示例。f) 大约1000个类别的广泛医疗影像分类的10个示例(固有能力,无需微调)。

方法论

       MedImageInsight采用了双塔架构,类似于CLIP模型,其中图像编码器和文本编码器共同工作,生成用于分类、搜索和报告生成任务的表示。该模型在14种不同的医疗影像模式下训练了超过300万张医疗图像,包括X光、CT、MRI、超声波、皮肤科影像等。它支持图像-图像搜索、图像-文本搜索和分类任务,能够生成受试者工作特性(ROC)曲线以满足监管合规需求,并通过K最近邻(KNN)搜索提供透明的决策依据。

MedImageInsight采用了双塔架构,类似于CLIP模型,其中一个塔处理图像编码,另一个塔处理文本编码。图像编码器使用的是DaViT架构,语言编码器则为一个252M参数的模型。这两个编码器通过UniCL(Unified Contrastive Learning)作为预训练的目标函数进行优化。

结果与表现

       MedImageInsight在多个基准测试中进行了评估,并与其他前沿模型(如BiomedCLIPCXR FoundationLLaVA-Med)进行了对比。该模型在多个任务中实现了最先进的(SOTA)或达到人类专家级别的表现,包括:

  • 图像分类:在胸部X光、皮肤科影像和眼科影像数据集上,AUC(曲线下面积)评分超过0.9。

  • 3D医疗影像检索:在肝脏、胰腺、肺部和结肠的3D图像检索中,表现优于其他模型。

  • 图像-图像搜索:在骨龄估计等任务中表现出色,其准确性与人类专家相匹敌甚至更优。

  • 报告生成:通过与轻量级文本解码器结合,MedImageInsight在医疗图像生成报告的任务中,表现接近大型专用模型,但计算成本大幅减少。

       该模型能够生成ROC曲线,调整不同临床需求下的灵敏度和特异性,适用于真实的医疗环境。此外,其基于KNN的搜索能力提供了透明的决策过程,非常适合临床集成和监管合规。

生成能力

       MedImageInsight可以与轻量级的文本解码器结合,生成从单张医疗图像到临床报告的文本。MIMIC-CXR数据集上,该模型在生成临床报告时表现与GPT-4等大型模型相当,尽管在语言生成方面稍逊一筹。该模型更加专注于临床有效性,而不是自然语言生成,因此它在生成相关医疗信息的同时,参数量显著减少。

挑战与未来工作

       尽管MedImageInsight的表现出色,但仍存在一些挑战。当前的生成模型,尽管具备多样的任务支持能力,往往缺乏关联分类决策与置信度评分的功能,而这对于生成ROC曲线和满足监管要求至关重要。另一项挑战是大多数生成模型缺乏内置的透明性,而这在临床工作流程中是不可或缺的。MedImageInsight通过提供基于KNN的图像检索机制,提供了一种透明的分类方法。

结论

       MedImageInsight在医疗影像AI领域中代表了重要的一步,提供了一个可以在多个领域扩展的通用模型,而不需要针对任务进行特定的微调。其生成ROC曲线、调整临床灵敏度的能力以及在多个任务中达到人类专家水平的表现,使其成为医疗行业中不可或缺的工具。通过开源发布,作者希望推动整个医学影像AI领域的合作与创新,最终改善全球的医疗健康结果。

参考文献

Codella, Noel CF, Ying Jin, Shrey Jain, Yu Gu, Ho Hin Lee, Asma Ben Abacha, Alberto Santamaria-Pang et al. "MedImageInsight: An Open-Source Embedding Model for General Domain Medical Imaging." arXiv preprint arXiv:2410.06542 (2024).    


"怀长期主义,聊医工科技"


我是超哥,超声行业17年老伙计,做过研发,搞过生产,趟过市场,开过(在开)公司;越野跑爱好者;工作狂;沟通粗暴直接;严苛完美主义者;起伏皆为过往;信奉长期主义和第一性原则;欢迎来聊来组局...


 我是超哥,下期见...

*医工超人·招聘求职群:定期发布超声招聘,求职信息

*医工超人资料群:定期更新超声行业书籍,论文,专利

*免责声明*

  本公众号注明原创的内容权利属于本服务或本服务权利人所有,未经本服务或本服务权利人授权,任何人不得擅自使用(包括但不限于复制、传播、展示、镜像、上载、下载、转载、摘编等)或许可他人使用上述知识产权的。已经本服务或本服务权利人授权使用作品的,应在授权范围内使用,并注明作者来源。否则,将依法追究其法律责任。

医工超人
超声医工交叉领域最新技术的搬运工,介绍超声医学,生物领域医工结合,AI,数字化和医技方向最新进展
 最新文章