Segment Anything (SAM) 开发了一个用于收集11M图像掩码数据的精细数据引擎,并训练了一个强大的分割基础模型,称为SAM。其首先定义了一种新的可提示分割范式,即将手工制作的提示作为输入,并返回期望的掩码。SAM可接受的提示类型足够通用,包括点、框、掩码以及文本,这允许在视觉上下文中分割出任何内容。然而,SAM在本质上失去了细分特定视觉概念的能力。对于每张图像,SAM需要在不同的姿势或上下文中定位目标对象,然后将其激活并提供精确的提示才能进行精确分割。
本工作主要贡献如下:
提出了PerSAM以及PerSAM-F两种方法,允许通过微调将一个通用的分割模型SAM定制到个性化的场景中;
提出了一个新的用于评估个性化分割效果的数据集PerSeg;
该方法在各种任务上取得了竞争性的结果,包括PerSeg基准测试,单样本的部分和语义分割,以及视频对象分割。此外,PerSAM可以用于增强DreamBooth,更好地个性化文本到图像的生成过程。
通过计算测试图像和参考图像掩码部分的相似度,PerSAM将计算得到一个位置置信图。PerSAM再通过计算得到的映射,得到图像上的两个点作为正负对,并将其编码作为SAM的位置先验。随后,在SAM的解码器中通过两种方法将对象的视觉语义注入,得到SAM的个性化能力。
原无训练的PerSAM可以在大多数情况取得令人满意的分割精度。然而,当一些目标对象包含层次结构时,PerSAM可能会分割出多个个不同尺度的掩模,这种现象在SAM中也是存在的。SAM的解决方案是同时生成三个尺度的掩码,分别对应于一个对象的整体、部分和子部分,随后用户需要手动选择自己期望的掩码。PerSAM-F借鉴了这种方法,引入两个可学习的参数w_1,w_2,并通过对三个掩码的加权求和计算得到最终的掩码。始的SAM只接受低级的提示,比如点或者矩形框。为了能够给SAM的解码器提供更高层次的提示,PerSAM将目标图像提取得到的视觉特征作为额外的高级语义提示,通过低级提示与高级提示相结合的方法,为解码器提供更丰富的视觉信息。PerSAM通过对不同局部特征之间的平均池化,得到目标对象在参考图像中的全局嵌入:
为了得到更精细的分割结果,PerSAM分两步进行了后处理的优化。PerSAM首先会通过上述的方法得到粗略预测的掩码,随后计算得到粗略掩码区域对应的包围盒,并将包围盒作为额外提示输入到解码器中进行进一步的分割。在这个过程中,因为PerSAM仅仅是将掩码信息输入到轻量的解码器中,所以只需要额外花费100ms的时间就可以得到更加精细的掩码。
PerSAM-F
无训练的PerSAM可以在大多数情况取得令人满意的分割精度。然而,当一些目标对象包含层次结构时,PerSAM可能会分割出多个个不同尺度的掩模,这种现象在SAM中也是存在的。SAM的解决方案是同时生成三个尺度的掩码,分别对应于一个对象的整体、部分和子部分,随后用户需要手动选择自己期望的掩码。PerSAM-F借鉴了这种方法,引入两个可学习的参数
其中
表1比较了不同的方法在PerSeg数据集上的表现,其中比较指标包括mIoU,bIoU以及可学习的参数量。可以看到微调之后的PerSAM-F在PerSeg数据集上达到了最优的效果,相对于PerSAM在mIoU,bIoU指标上分别提高了+2.7%和+5.9%。图2可视化了PerSAM-F对于PerSAM的提升效果。
视频对象分割
PerSAM和PerSAM-F同样在DAVIS 2017的验证集上实现了具有竞争力的目标分割和跟踪性能。与没有视频数据集训练的方法相比,无训练的PerSAM在很大程度上超过了其他方法。同时,PerSAM-F相比于通过大量视频数据训练的方法也有提升,这说明该方法对于视频数据和复杂场景具有强泛化能力,这些场景包含多个相似或者被遮挡的对象,如图3所示:
单样本语义/部分分割
如表2所示,实验评估了本文方法在四个不同数据集上的图像分割效果,其中包括对于语义分割以及部分分割的评估。实验结果表明PerSAM-F始终能够获得比Painter更好的分割结果,并且其性能也与SegGPT相当。实验很好地证明了PerSAM不仅仅局限于对象级的分割,在语义分割以及部分分割上同样能够取得相当不错的效果。
图4 PerSAM辅助DreamBooth的结果
-- End--
[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo. Segment anything. International Conference on Computer Vision (ICCV). 4015-4026, 2023.
[2] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. Conference on Computer Vision and Pattern Recognition (CVPR). 22500-22510, 2023.
[3] Amir Bar, Yossi Gandelsman, Trevor Darrell, Amir Globerson, Alexei Efros. Visual prompting via image inpainting. Advances in Neural Information Processing Systems (NeurIPS). 25005-25017, 2022.
[4] Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, and Tiejun Huang. Images speak in images: A generalist painter for in-context visual learning. Conference on Computer Vision and Pattern Recognition (CVPR). 6830-6839, 2023.
[5] Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee. Segment everything everywhere all at once. Advances in Neural Information Processing Systems (NeurIPS). 19769-19782, 2024.
[6] Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla. Segnet: A deep convolutional encoderdecoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2481-2495, 2017.
[7] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, Rohit Girdhar. Maskedattention mask transformer for universal image segmentation. Conference on Computer Vision and Pattern Recognition (CVPR). 1290-1299, 2022.
[8] Zhengkai Jiang, Yuxi Li, Ceyuan Yang, Peng Gao, Yabiao Wang, Ying Tai, Chengjie Wang. Prototypical contrast adaptation for domain adaptive semantic segmentation. European Conference on Computer Vision (ECCV). 36-54, 2022.