"怀长期主义,聊医工科技"
不错过医工超人文章三部曲:1. 关注公众号 2. 经常点击“在看” 3. 点击公众号右上方设置“星标” 每篇文章都会按时推送不错过
今天的文章中,超哥为大家介绍一种创新的提示学习方法,该框架旨在提升生物医学图像分类的效果,尤其在数据稀缺的情况下,通过少样本学习优化视觉-语言模型(VLMs)。该框架结合了 BiomedCLIP 模型和 大语言模型(LLMs),利用 语义一致性学习 和 知识蒸馏 策略,优化文本提示以增强模型对医学图像中特定病变的理解和泛化能力。BiomedCoOp通过生成多样化的文本提示来改进模型在少样本学习场景下的表现,且不需要全模型微调,从而减少了计算成本。实验结果表明,BiomedCoOp在 少样本学习 和 基类到新类泛化 任务中表现优异,尤其在处理包含 CT、MRI、超声 和 X光 等多种成像模式的11个数据集时,明显优于现有的最先进方法。在基于 LLMs 的提示集成和选择性提示蒸馏的支持下,BiomedCoOp能够准确识别新的疾病类别,并在多样化的临床任务中保持高准确性。 |
OpenAI震撼发布“GPT-o1”档口,聊聊大模型在医学中的潜力及该如何充分利用GPT
如何通过自研大模型实现高效乳腺超声分析?BURExtract-Llama:乳腺超声大模型的开发与应用
创新未来 | 超声医生的AI大模型助手LLaVA-Ultra : 基于超声图像的多模态大语言中文模型
今天的文章中超哥为大家介绍一种小样本学习的模型:BiomedCoOp 框架,这是一个为生物医学视觉-语言模型(VLMs)量身定制的创新型提示学习方法。该方法旨在通过 少样本学习 技术,优化生物医学图像分类的表现,特别是在标注数据稀缺的情况下。该框架结合了 大语言模型(LLMs) 和 BiomedCLIP 模型,在不需要进行全模型微调的情况下,有效地提升了医学图像分类任务的准确性和泛化能力。
BiomedCoOp框架概述
BiomedCoOp的主要创新在于它通过优化文本提示(prompt),为生物医学图像分类任务提供了一个高效的解决方案。与传统的 全模型微调 方法不同,BiomedCoOp专注于优化文本提示,使得模型能够在 少样本学习 的情况下高效地进行生物医学图像分类。这种方法不仅节省了计算资源,还能够保持 BiomedCLIP 预训练模型的基础知识。
核心技术
语义一致性:BiomedCoOp框架通过使用大语言模型(如 GPT-4)生成多样化且符合生物医学领域的文本描述,增强了提示的语义一致性。这种多样化的提示生成有助于提升模型对医学图像中特定病变或疾病的理解。
知识蒸馏:为了进一步优化模型,BiomedCoOp采用了知识蒸馏策略。这一策略通过 选择性提示(Selective Prompting)机制,剔除不相关或偏离正确医学特征的提示,从而提升了模型对医学知识的掌握并减少了过拟合的风险。
提示学习优化:该框架创新性地通过 提示集成(prompt ensembling)技术,将来自大语言模型的不同提示进行融合,从而获得更具代表性的医学知识。这使得模型能够捕捉到更复杂、更细致的医学特征。
实验与结果
BiomedCoOp在多个生物医学图像数据集上进行了全面验证。这些数据集涵盖了10种不同的器官和9种成像模式,包括 CT、MRI、X光、超声等。通过这些实验,BiomedCoOp展示了在 少样本学习 场景下,特别是在只有很少标注样本的情况下,优于其他现有技术的方法。
在 1-shot(1个样本)和 2-shot(2个样本)等低样本设置下,BiomedCoOp的表现优于其他最先进的少样本学习方法,如CoOp、ProGrad、KgCoOp等。
在 基于基类到新类的泛化(Base-to-Novel Generalization)任务中,BiomedCoOp也展现了出色的泛化能力,即能够有效识别在训练时没有出现的新疾病类别。它的泛化能力优于其他方法,特别是在处理CT肾脏影像和Kvasir内镜数据集时表现突出。
框架的关键贡献
语义一致性学习(SCCM):通过确保提示与生物医学知识的一致性,BiomedCoOp能够使模型学习到更准确的医学知识。
知识蒸馏与选择性提示(KDSP):该策略通过剔除不相关的提示,使得模型能够避免“遗忘”关键的医学模式,同时保持对新病变特征的敏感性。
大规模数据验证:在11个不同的医学数据集上进行了综合评估,验证了BiomedCoOp在不同成像模式下的效果,展示了其跨数据集的鲁棒性。
少样本学习与基于类的泛化
BiomedCoOp在少样本学习的场景下表现优异,尤其是在每类只有1个或2个标注样本时,它能够较好地适应和学习新的疾病类别。在基于基类到新类的泛化任务中,BiomedCoOp能够保持较高的准确性,甚至在一些困难的数据集上,超过了其他最先进的模型。
框架的可解释性与应用
BiomedCoOp还通过 视觉显著性图(Visual Saliency Maps)验证了不同提示对医学图像的影响。结果表明,在复杂的医学影像(如MRI和超声图像)中,BiomedCoOp能够更加准确地聚焦于关键的医学区域,提升了模型的 可解释性,这对于医学领域尤其重要,因为医疗图像的可解释性直接关系到临床决策。
未来的潜力
BiomedCoOp的优势不仅体现在 少样本学习 和 新类别泛化 上,还体现在其 跨数据集 和 跨疾病 的鲁棒性。这为未来在临床医学中的广泛应用奠定了基础,特别是在医学图像的快速诊断和辅助诊疗领域。
总结
BiomedCoOp框架的提出,标志着生物医学视觉-语言模型的一个重要进步。通过结合 大语言模型 和 生物医学图像的优势,BiomedCoOp在少样本学习和新类别泛化方面提供了高效的解决方案。其出色的 语义一致性 和 知识蒸馏 技术,不仅提升了模型的准确性和泛化能力,还为医学领域的图像分类任务提供了更加可靠的工具,具有广泛的应用前景。
参考文献
Koleilat, Taha, Hojat Asgariandehkordi, Hassan Rivaz, and Yiming Xiao. "BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models." arXiv preprint arXiv:2411.15232 (2024).
"怀长期主义,聊医工科技"
我是超哥,超声行业17年老伙计,做过研发,搞过生产,趟过市场,开过(在开)公司;越野跑爱好者;工作狂;沟通粗暴直接;严苛完美主义者;起伏皆为过往;信奉长期主义和第一性原则;欢迎来聊来组局...
*免责声明*
本公众号注明原创的内容权利属于本服务或本服务权利人所有,未经本服务或本服务权利人授权,任何人不得擅自使用(包括但不限于复制、传播、展示、镜像、上载、下载、转载、摘编等)或许可他人使用上述知识产权的。已经本服务或本服务权利人授权使用作品的,应在授权范围内使用,并注明作者来源。否则,将依法追究其法律责任。