论文一起读 | 通过单样本个性化分割一切模型

文摘   科技   2024-11-14 11:00   广东  
导读
本文是VCC刘俊麟同学对论文 Personalize Segment Anything Model With One Shot 的解读,该工作来自香港中文大学多媒体实验室、上海人工智能实验室并已被发表在计算机视觉顶级会议CVPR 2023上。

项目主页: 
https://github.com/ZrrSkywalker/Personalize-SAM

该工作提出了一种无训练的个性化方法PerSAM,只需一个样本即可定制Segment Anything Model(SAM)。该方法仅需用户给定具有参考掩码的单个图像,即可将其分割到其他图像或者视频中。通过这种方式,我们可以有效地自定义通用SAM以供私人使用,而无需任何训练。为了进一步缓解分割尺度的模糊性,该方法还提出了一种有效的一次性微调变体PerSAM-F,只在10秒内调整2个参数,以提高性能。

注:本文图片均来自原论文与其项目主页。



I


 引言 

Segment Anything (SAM) 开发了一个用于收集11M图像掩码数据的精细数据引擎,并训练了一个强大的分割基础模型,称为SAM。其首先定义了一种新的可提示分割范式,即将手工制作的提示作为输入,并返回期望的掩码。SAM可接受的提示类型足够通用,包括点、框、掩码以及文本,这允许在视觉上下文中分割出任何内容。然而,SAM在本质上失去了细分特定视觉概念的能力。对于每张图像,SAM需要在不同的姿势或上下文中定位目标对象,然后将其激活并提供精确的提示才能进行精确分割。


本导读论文介绍了一种无训练的SAM个性化方法,称为PerSAM。用户只需要使用一次拍摄数据,即用户提供的图像和指定个性化概念的粗略掩码,就可以有效地定制SAM。该方法通过计算测试图像和参考图像掩码部分的相似度得到两个点作为正负对,并将其编码作为SAM的位置先验,随后在SAM的解码器中注入对象的视觉语义以此释放SAM的个性化能力。同时,为了解决SAM分割层级上的模糊性,该工作进一步引入了PerSAM方法的微调变体PerSAM-F,在冻结整个SAM情况下,只通过调整两个参数即可得到最佳分割尺度。

II


 技术贡献 

本工作主要贡献如下:

  • 提出了PerSAM以及PerSAM-F两种方法,允许通过微调将一个通用的分割模型SAM定制到个性化的场景中;

  • 提出了一个新的用于评估个性化分割效果的数据集PerSeg;

  • 该方法在各种任务上取得了竞争性的结果,包括PerSeg基准测试,单样本的部分和语义分割,以及视频对象分割。此外,PerSAM可以用于增强DreamBooth,更好地个性化文本到图像的生成过程。


III


 方法介绍 

图1 PerSAM 整体方法框架

通过计算测试图像和参考图像掩码部分的相似度,PerSAM将计算得到一个位置置信图。PerSAM再通过计算得到的映射,得到图像上的两个点作为正负对,并将其编码作为SAM的位置先验。随后,在SAM的解码器中通过两种方法将对象的视觉语义注入,得到SAM的个性化能力。


位置置信图
对于用户给定的图片  以及掩码 PerSAM首先获得目标对象在新测试图像I中的位置的置信图。通过图像编码器提取中I_R和I的视觉特征,随后利用用户提供的掩码信息去裁剪得到前景像素的特征  和  得到一组n个的局部特征组  通过计算局部特征和测试图像特征之间的余弦相似度,为每一个前置像素计算得到  个置信图: 每一个置信图都表示目标对象在测试图像中不同局部位置的分布概率。最后将  个局部通过平均池化得到总置信图: 为了提供位置先验,PerSAM选择两个置信值最高以及最低的点作为提示输入到解码器中得到token: 目标引导的注意力
PerSAM通过计算得到的位置置信图S来引导生成SAM解码器中的每个交叉注意层中的注意力映射:
其中  表示经过softmax之后的注意力映射  是平衡系数。通过目标引导的注意力使得prompt tokens主要集中在前景目标区域,以实现有效的特征交互,有助于在注意机制中更高效地聚集特征,并通过无训练的方式提高了PerSAM的最终分割精度。

标语
义提

无训练的PerSAM可以在大多数情况取得令人满意的分割精度。然而,当一些目标对象包含层次结构时,PerSAM可能会分割出多个个不同尺度的掩模,这种现象在SAM中也是存在的。SAM的解决方案是同时生成三个尺度的掩码,分别对应于一个对象的整体、部分和子部分,随后用户需要手动选择自己期望的掩码。PerSAM-F借鉴了这种方法,引入两个可学习的参数w_1,w_2,并通过对三个掩码的加权求和计算得到最终的掩码。始的SAM只接受低级的提示,比如点或者矩形框。为了能够给SAM的解码器提供更高层次的提示,PerSAM将目标图像提取得到的视觉特征作为额外的高级语义提示,通过低级提示与高级提示相结合的方法,为解码器提供更丰富的视觉信息。PerSAM通过对不同局部特征之间的平均池化,得到目标对象在参考图像中的全局嵌入: 随后将全局嵌入添加到SAM解码器的输入中作为提示: 通过语义的叠加,PerSAM同时将低级语义和高级语义作为SAM编码器的输入,以此获得更加完整的视觉信息。


级联后处理细化

为了得到更精细的分割结果,PerSAM分两步进行了后处理的优化。PerSAM首先会通过上述的方法得到粗略预测的掩码,随后计算得到粗略掩码区域对应的包围盒,并将包围盒作为额外提示输入到解码器中进行进一步的分割。在这个过程中,因为PerSAM仅仅是将掩码信息输入到轻量的解码器中,所以只需要额外花费100ms的时间就可以得到更加精细的掩码。


PerSAM-F

无训练的PerSAM可以在大多数情况取得令人满意的分割精度。然而,当一些目标对象包含层次结构时,PerSAM可能会分割出多个个不同尺度的掩模,这种现象在SAM中也是存在的。SAM的解决方案是同时生成三个尺度的掩码,分别对应于一个对象的整体、部分和子部分,随后用户需要手动选择自己期望的掩码。PerSAM-F借鉴了这种方法,引入两个可学习的参数  并通过对三个掩码的加权求和计算得到最终的掩码:

其中  的初始值为1/3,并将用户给定的掩码视为真实值对参数进行学习优化。通过这种方式,PerSAM-F有效地学习到了不同视觉概念的最佳掩模尺度,并表现出比无训练的PerSAM更强、更精准的分割性能。


IV


 部分结果展示 
个性化分割

表1比较了不同的方法在PerSeg数据集上的表现,其中比较指标包括mIoU,bIoU以及可学习的参数量。可以看到微调之后的PerSAM-F在PerSeg数据集上达到了最优的效果,相对于PerSAM在mIoU,bIoU指标上分别提高了+2.7%和+5.9%。图2可视化了PerSAM-F对于PerSAM的提升效果。

表1 在PerSeg数据集上分割结果

图2 PerSAM-F提升的可视化结果

视频对象分割

PerSAM和PerSAM-F同样在DAVIS 2017的验证集上实现了具有竞争力的目标分割和跟踪性能。与没有视频数据集训练的方法相比,无训练的PerSAM在很大程度上超过了其他方法。同时,PerSAM-F相比于通过大量视频数据训练的方法也有提升,这说明该方法对于视频数据和复杂场景具有强泛化能力,这些场景包含多个相似或者被遮挡的对象,如图3所示:

图3 PerSAM-F在视频对象分割中的结

单样本语义/部分分割

如表2所示,实验评估了本文方法在四个不同数据集上的图像分割效果,其中包括对于语义分割以及部分分割的评估。实验结果表明PerSAM-F始终能够获得比Painter更好的分割结果,并且其性能也与SegGPT相当。实验很好地证明了PerSAM不仅仅局限于对象级的分割,在语义分割以及部分分割上同样能够取得相当不错的效果。

表2 语义分割以及部分分割实验结果

V


 总结与展望 
本文提出了针对特定的视觉概念进行个性化的分割任意模型PerSAM以及微调的变体PerSAM-F。文中首先引入了PerSAM,其利用无需训练的技术将高级的目标语义注入到SAM中从而实现单样本的精确个性化分割。随后提出了尺度模糊的问题,并因此提出了一种尺度感知的微调变体PerSAM-F。PerSAM-F只有2个可学习的参数,通过权重的加权求和得到特定尺度的掩膜,有效地缓解了掩模尺度的模糊性,并在各种基准指标上取得了领先的性能。此外,本文通过实验验证了其方法对于视频分割、语义分割以及部分分割都具有领先的效果。未来的工作希望能扩大SAM的适用性,使其能够在更加复杂的场景中发挥好的效果。

VI


 思考与讨论 
Q: PerSAM方法可以与其他方法进行结合使用吗? 
A: 可以。比如说可以辅助DreamBooth进行图像的生成。PerSAM不仅可以帮助DreamBooth通过更准确的视觉对应关系来生成目标对象,还可以在输入文本提示中增加新背景的多样性,减轻了背景对于生成的干扰。结果如下图所示:

图4 PerSAM辅助DreamBooth的结果


Q: PerSAM可否用于多目标分割?
A: 可以。可以先利用PerSAM或者PerSAM-F对掩码进行预测,然后将原图中预测的掩码部分置为黑色。随后不断重复上述的步骤,直到掩码的数量达到最大数量的限制,或者掩码与已有结果重叠过大。

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 我们可否在PerSAM的decoder输入中加入更多的语义信息,比如文本信息,让分割的结果更加精确呢?

-- End--



导 读 | 刘俊麟
审 核 | 熊卫丹
编 辑 | 申金、余鑫泉

参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo. Segment anything. International Conference on Computer Vision (ICCV). 4015-4026, 2023. 

[2] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. Conference on Computer Vision and Pattern Recognition (CVPR). 22500-22510, 2023. 

[3] Amir Bar, Yossi Gandelsman, Trevor Darrell, Amir Globerson, Alexei Efros. Visual prompting via image inpainting. Advances in Neural Information Processing Systems (NeurIPS). 25005-25017, 2022. 

[4] Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, and Tiejun Huang. Images speak in images: A generalist painter for in-context visual learning. Conference on Computer Vision and Pattern Recognition (CVPR). 6830-6839, 2023. 

[5] Xueyan Zou, Jianwei Yang, Hao Zhang, Feng Li, Linjie Li, Jianfeng Gao, Yong Jae Lee. Segment everything everywhere all at once. Advances in Neural Information Processing Systems (NeurIPS). 19769-19782, 2024. 

[6] Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla. Segnet: A deep convolutional encoderdecoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI). 2481-2495, 2017. 

[7] Bowen Cheng, Ishan Misra, Alexander G Schwing, Alexander Kirillov, Rohit Girdhar. Maskedattention mask transformer for universal image segmentation. Conference on Computer Vision and Pattern Recognition (CVPR). 1290-1299, 2022. 

[8] Zhengkai Jiang, Yuxi Li, Ceyuan Yang, Peng Gao, Yabiao Wang, Ying Tai, Chengjie Wang. Prototypical contrast adaptation for domain adaptive semantic segmentation.  European Conference on Computer Vision (ECCV). 36-54, 2022.



深圳大学可视计算研究中心
Visual Computing Research Center
----------------------------------
https://vcc.tech


中心以计算机图形学、计算机视觉、可视化、机器人、人工智能、人机交互为学科基础,致力促进多个学科的深入交叉与集成创新,重点推进大规模静动态数据获取与优化融合、多尺度几何建模与图像处理、可视内容生成与仿真渲染、复杂场景重建与识别理解、三维移动协同感知与人机交互、智能模拟学习与强化认知、海量信息可视化与可视分析等方面的科学研究。

📫
转载及合作:szuvcc@gmail.com


深圳大学可视计算研究中心
深圳大学可视计算研究中心致力于大力提升可视计算科学研究与高等教育水平,以计算机图形学、计算机视觉、人机交互、机器学习、机器人、可视化和可视分析为学科基础,促进多个学科的深入交叉和集成创新。详见官网: vcc.tech
 最新文章