CVPR2024|通过扩散模型调优增强的“SAM”

文摘   2024-11-15 07:57   天津  


关注+标星 邂逅每一篇经典


投稿或寻求报道:qunfunction@163.com


01






工作速览



在计算机视觉不断发展的领域中,基础模型作为关键工具出现,展现出对众多任务的卓越适应性。在这些模型中,Meta AI的SAM在图像分割方面脱颖而出。

然而,像它的同类一样,SAM在特定的细分应用中遇到了局限性,这促使人们寻求增强策略,这些策略不会损害其固有的能力。

本文介绍了ASAM,这是一种通过对抗性调优增强SAM性能的新方法。作者利用自然对抗样本的潜力,这些样本在自然语言处理中的成功应用启发了作者。通过使用稳定的扩散模型,增强了SA-1B数据集的一个子集(1%),生成的对抗实例更能代表自然变化,而不是传统的不可见扰动。该方法保持了对抗样本的照片真实性,并确保与原始掩码注释保持一致,从而保持了分割任务的完整性。

经过微调的ASAM在多种分割任务中显示出显著的改进,而无需额外的数据或架构修改。广泛的评估结果证实,ASAM在分割任务中建立了新的基准,从而促进了计算机视觉中基础模型的进步。

02








匠心独运


由于促炎巨噬细胞向抗炎巨噬细胞的复极化受损,传统的骨组织工程材料难以在糖尿病期间恢复生理性骨重塑。

基础模型的概念在推进自然语言处理(NLP)领域以及最近在计算机视觉领域中发挥了关键作用。起源于NLP的有影响力的模型,如BERT、GPT系列、LLaMA和PaLM,这些模型展示了对未见任务的显著零样本泛化能力。这一成功促使了在计算机视觉中开发类似的范式转换模型。这些视觉基础模型,如DINOv2、CLIP、BLIP、SAM和Stable Diffusion,展示了显著的零样本能力和在各种任务中的广泛泛化。其中,任何事物分割模型(SAM)作为专门从事图像分割的开创性视觉基础模型脱颖而出。SAM在超过10亿个掩码的大型视觉语料库上训练,以其能够分割各种场景中的多样化对象和结构的能力,彻底改变了该领域。

尽管SAM表现出令人印象深刻的性能,但像任何基础模型一样,它也有可以进一步增强的领域。一个重要的研究方向是识别SAM在某些下游任务上的局限性,并开发技术以提升其性能。许多技术已经探索了微调和适配器模块来为特定下游任务专门化SAM。虽然微调可以为特定任务解锁SAM的潜力,但它会损害模型的固有泛化能力。替代方法保留了SAM的原始参数,添加了适配层或后处理模块。这些方法虽然有效,但需要额外的参数和标注训练数据,限制了其可扩展性和效率。

上述挑战使作者面临这项工作的核心动机:如何在不依赖大量额外数据、改变其基础架构或损害其零样本能力的情况下,进一步提升SAM作为基础视觉模型的泛化能力?现有的解决方案虽然在特定情境中有效,但并未解决在多样化场景中增强SAM固有性能的根本挑战。为了应对这一挑战,转向NLP领域寻求灵感,特别是其在基础模型研究中的开创性进展。与视觉领域不同,标准对抗性训练通常需要在鲁棒性和模型性能之间做出妥协,NLP中的对抗性训练不仅加强了模型的鲁棒性,同时也增强了泛化和准确性。这种差异被认为归因于自然语言中的对抗样本与现实世界文本场景的更接近。作者推测NLP中对抗训练的成功源于其生成的对抗样本的“真实性”和“自然性”。这一洞察使探索将NLP中成功的对抗训练技术适应到像SAM这样的视觉基础模型的可能性。这种方法旨在创新性地应用跨学科的洞察力,以改善计算机视觉中的特定任务。

将上述概念应用于SAM,该方法旨在利用NLP中发现的“自然”对抗样本来提升视觉基础模型。受到NLP中有效调整方法的启发,提出使用这些更“自然”的对抗样本微调SAM,从而避免了传统对抗训练通常伴随的高成本。生成视觉对抗样本的传统方法通常遵循lp范数约束,导致扰动并不完全自然,并从现实世界噪声中发生领域偏移。这导致这些对抗样本与现实世界场景中遇到的真正具有挑战性的例子之间的差异。

为了生成既自然又逼真的对抗样本以调整SAM,作者受到最近对抗性攻击的启发,并假设自然图像可以通过生成模型投影到低维流形上。这个在自然图像上训练的流形确保了内容的照片真实性和丰富性。通过将图像映射到这个流形上,然后在流形内沿着对抗方向移动,可以产生既自然又逼真的对抗样本。为了在反向映射过程中保持对象形状与原始掩码标签的一致性,在生成模型中加入了额外的掩码提示分支。这种整合确保了对抗样本不仅真实对齐,而且准确地对应于其原始掩码标签。最终,通过对大型视觉模型中的一小部分参数使用这些自然逼真且准确对齐的对抗样本进行微调,实现了性能的显著提升。

总之,作者工作做出了几个关键贡献:

1.引入了一个新框架,称为对抗性调优,旨在增强像SAM这样的视觉基础模型的泛化能力。这种方法代表了跨学科洞察力在解决计算机视觉任务中特定挑战的创新应用。

2.通过使用生成模型将自然图像投影到低维流形上,生成了既自然又逼真的对抗样本。通过在生成模型中集成掩码提示分支进一步增强了这种方法,确保对抗样本在对象形状方面与原始掩码标签保持一致。

3.利用该方法,使用来自SA-1B数据集仅1%的“自然”对抗样本对SAM进行微调,得到了一个增强版本,称为ASAM。为了验证ASAM的有效性,进行了广泛的定量和定性分析。ASAM在各种分割数据集和各种下游任务中实现了SAM性能的显著提升。

图1. 在不同下游任务中,ASAM与SAM在多样的分割数据集上的性能比较。

图2. 提出的ASAM框架的架构。在第一步中,将输入图像投影到潜在空间,然后使用对抗性技术优化潜在空间。在第二步中,使用优化后的潜在空间,通过掩码控制生成对抗样本。最后,使用生成的“自然”对抗样本对SAM进行微调。

03






卓越性能



图3. 提出的ASAM与其他方法的定性比较。黄色框代表框提示。

参考:

https://arxiv.org/pdf/2405.00256



关注+标星 邂逅每一篇经典


投稿或寻求报道:qunfunction@163.com


群函数
分享前沿的开源技术以及有趣的科普知识。敬请关注!
 最新文章