"怀长期主义,聊医工科技"
不错过医工超人文章三部曲:1. 关注公众号 2. 经常点击“在看” 3. 点击公众号右上方设置“星标” 每篇文章都会按时推送不错过
今天的文章中,超哥为大家介绍TV-SAM是一种创新的零样本分割算法,通过集成GPT-4、GLIP(视觉语言模型)和SAM(Segment Anything Model)来提高医学图像的分割性能。与传统方法不同,TV-SAM无需人工标注或额外的训练数据,就能自动生成描述性文本和视觉提示,进行高效的分割。研究使用了七个公开医学数据集,涵盖了多种影像模式,如内镜图像、皮肤病变、白血球图像、超声图像等,结果表明,TV-SAM在非放射学数据集上的表现优于现有的零样本方法,如SAM AUTO和GSAM,在某些数据集上与SAM BBOX(使用边界框提示的SAM)性能相当。TV-SAM的关键创新在于,利用GPT-4生成详细的描述性提示,帮助VLM识别图像中的重要区域,从而优化SAM的分割效果。尽管TV-SAM在处理放射学图像(如CT和MRI)时表现稍逊,但它仍展示了零样本学习在医学图像中的巨大潜力。未来,TV-SAM有望在放射学图像分割上取得更大进展,为自动化医学图像分析提供更加高效的解决方案。 |
Elastography vs 人工智能:弹性成像与AI辅助S-Detect在甲状腺结节诊断中的对比分析
“超全”AI在腹部超声应用文献汇总!人工智能如何改变腹部超声诊断的未来?——最新技术与应用
新英格兰NEJM AI | 多模态融合超声AI模型在精准眼科诊断的联合创新应用
在医学影像学中,图像分割在疾病检测和诊断中扮演着至关重要的角色。传统的分割方法依赖于大量标注数据,而这些数据的获取既费时又昂贵。Segment Anything Model(SAM)的出现对零样本学习产生了显著影响,使得无需训练即可对图像中的物体进行分割。然而,SAM依然依赖于人工标注或手动提供的提示,这使得它在现实应用中未能完全发挥其潜力。
用于医学图像分割的提出的零样本算法框架
本研究提出了一种名为TV-SAM的新型零样本分割算法,通过GPT-4生成的描述性提示和视觉语言模型(VLM)来增强SAM在医学图像中的分割能力。通过集成GPT-4、VLM和SAM,TV-SAM可以自主生成文本和视觉提示,从而在没有人工标注或预训练数据的情况下进行医学图像的分割。
主要贡献:
开发TV-SAM:核心创新在于集成了GPT-4、GLIP(视觉语言模型)和SAM,自动生成医学图像分割任务所需的描述性和视觉提示。
零样本能力:TV-SAM能够对未见过的数据进行分割,利用其从输入医学图像中生成有意义的提示。
跨模态评估:该算法在七个公开的医学图像数据集上进行了评估,显示了其强大的性能。
与现有方法的比较:与SAM AUTO(无提示的SAM)、SAM BBOX(使用边界框提示的SAM)和GSAM(SAM与GLIP结合)的对比结果表明,TV-SAM具有更优越或相当的性能,特别是在非放射学数据集上。
阶段1:使用GPT-4生成文本提示TV-SAM的第一阶段涉及使用GPT-4生成详细的文本提示。给定输入的医学图像,GPT-4利用视觉编码器从图像中提取特征,并使用文本编码器生成描述性提示。该提示包括形状、颜色和位置等属性,这些都是准确分割所必需的。
阶段2:使用GLIP生成视觉提示在第二阶段,GLIP作为预训练的视觉语言模型,处理来自GPT-4的文本提示,并生成视觉边界框提示。这些提示帮助确定医学图像中需要分割的区域,作为传递给SAM之前的中间步骤。
阶段3:使用SAM进行分割最后,GLIP生成的边界框作为视觉提示传递给SAM,后者执行分割任务。SAM利用这些提示集中注意力于图像中的正确区域,从而提高了分割准确性,无需人工标注或预定义的训练数据。
TV-SAM算法的临床应用案例。描述性文本中的黄色区域表示颜色信息,蓝色区域表示形状信息,绿色区域表示位置位置信息
实验
使用的数据集为了评估TV-SAM的有效性,作者使用了七个公开的医学图像数据集,包括:
Polyp基准数据集(结肠镜图像中的息肉)
ISIC 2018(皮肤病变如黑色素瘤和基底细胞癌)
WBC(白血球图像)
BUSI(乳腺超声图像)
TN3K(甲状腺超声图像)
COVID-19数据集(X光图像)
CHAOS数据集(CT和MRI图像,用于肝脏、脾脏和肾脏的分割)
这些数据集涵盖了多种影像学模式,代表了TV-SAM旨在改进的医学图像应用的多样性。
对比实验TV-SAM的性能与几种其他零样本方法进行了比较:
SAM AUTO:无提示的SAM。
SAM BBOX:使用来自真实数据集的边界框提示的SAM。
GSAM:SAM与GLIP结合进行分割。
结果显示,TV-SAM在Dice系数(评估图像分割准确性的指标)上显著优于SAM AUTO和GSAM。TV-SAM的性能在几个数据集上与SAM BBOX相当,特别是在非放射学数据集上。
结果与讨论
跨模态的性能TV-SAM在非放射学数据集上表现出色。例如,在ISIC 2018和WBC数据集上,TV-SAM超越了现有的最先进方法(SOTA)。相比之下,对于放射学图像(如CT和MRI),性能稍差,这表明当前模型在处理放射学数据时面临独特挑战。
GPT-4的贡献实验结果表明,GPT-4在生成富有表现力的提示中起着至关重要的作用,能够显著增强VLM和SAM的性能。GPT-4提供的丰富描述性提示使得SAM能够聚焦于医学图像中的相关特征,从而提高分割准确性。通过将GPT-4的通用知识与SAM和GLIP等领域特定模型结合,TV-SAM在零样本分割中表现得更加出色。
边界框选择策略研究还探讨了如何优化GLIP生成的边界框提示。作者测试了基于置信度的不同边界框选择策略。结果表明,选择多个边界框(TOP-k策略)可以改善分割性能,尤其是在图像中包含多个对象或目标区域时。
多模态医学影像中跨多个器官的零样本分割性能概览
结论
TV-SAM提出了一种突破性的医学图像零样本分割方法。通过利用GPT-4生成提示,并结合GLIP和SAM,TV-SAM无需人工标注即可进行医学图像分割。该算法在多个数据集上的表现优异,尤其是在非放射学图像中,与最先进的方法相比具有竞争力。
虽然TV-SAM在放射学图像上的表现仍需改进,但它在医学图像分割领域代表了一个重要的进步,尤其是在数据有限的领域。未来的研究将着重于提高TV-SAM在放射学图像中的分割性能,并进一步完善边界框提示选择策略。
参考文献
Jiang, Zekun, Dongjie Cheng, Ziyuan Qin, Jun Gao, Qicheng Lao, Abdullaev Bakhrom Ismoilovich, Urazboev Gayrat et al. "TV-SAM: Increasing Zero-Shot Segmentation Performance on Multimodal Medical Images Using GPT-4 Generated Descriptive Prompts Without Human Annotation." Big Data Mining and Analytics 7, no. 4 (2024): 1199-1211.
"怀长期主义,聊医工科技"
我是超哥,超声行业17年老伙计,做过研发,搞过生产,趟过市场,开过(在开)公司;越野跑爱好者;工作狂;沟通粗暴直接;严苛完美主义者;起伏皆为过往;信奉长期主义和第一性原则;欢迎来聊来组局...
*免责声明*
本公众号注明原创的内容权利属于本服务或本服务权利人所有,未经本服务或本服务权利人授权,任何人不得擅自使用(包括但不限于复制、传播、展示、镜像、上载、下载、转载、摘编等)或许可他人使用上述知识产权的。已经本服务或本服务权利人授权使用作品的,应在授权范围内使用,并注明作者来源。否则,将依法追究其法律责任。