点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种名为GlocalCLIP的创新方法,用于零样本异常检测(ZSAD)。GlocalCLIP通过显式地分离全局和局部提示,并结合全局对比学习(GCL)和对象无关的语义提示设计,提升了模型在各种领域(如医疗和工业)中的异常检测能力。实验结果表明,GlocalCLIP在多个数据集上超越了现有的最先进方法,特别是在检测细粒度异常和提升泛化能力方面表现出色。文章还探讨了全局与局部提示分离的有效性,以及对比学习在异常检测中的重要作用,为异常检测方法的发展提供了新的视角和思路。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:GLOCALCLIP: OBJECT-AGNOSTIC GLOBAL-LOCAL PROMPT LEARNING FOR ZERO-SHOT ANOMALY DETECTION
作者:Jiyul Ham, Yonggon Jung,等
作者机构:Korea University
论文链接:https://arxiv.org/pdf/2411.06071
2. 摘要
零样本异常检测(ZSAD)对于在没有训练样本的情况下检测目标数据集中的异常模式至关重要,特别是在目标领域与训练数据之间存在分布差异或因访问受限而导致数据稀缺的情况下。尽管最近的预训练视觉-语言模型在各种视觉任务中展示了强大的零样本性能,但它们侧重于学习类别语义,这使得它们在ZSAD中的直接应用面临挑战。为了解决这一问题,我们提出了GlocalCLIP,该方法独特地将全局和局部提示分开,并共同优化。这种方法使得目标无关的全局-局部语义提示设计能够有效捕捉一般的正常和异常模式,而不依赖于图像中的特定物体。我们通过在文本编码器中利用深度文本提示调优,精细调整文本提示以实现更精确的调整。在视觉编码器中,我们应用了V-V注意力层,以捕捉图像的详细局部特征。最后,我们引入了全局-局部对比学习,促进全局和局部提示的互补学习,有效地检测各种领域中的异常模式。GlocalCLIP在ZSAD中的泛化性能在来自工业和医疗领域的15个真实世界数据集上得到了验证,且相较于现有方法表现优越。
3. 效果展示
工业和医疗领域ZSAD结果对比。第一行显示来自工业领域(如榛子、瓶子、金属板、皮革、Pcb1、斑点、和电气互感器)和医疗领域(如头部CT、脑MRI、内窥镜)的输入图像。第二行展示每张图像的真实异常区域。其余行展示了不同模型生成的异常热图:CLIP、WinCLIP、CoOp、AnomalyCLIP、AdaCLIP和GlocalCLIP。
使用全局提示(global prompts)带有和不带GCL(全局局部对比学习)的异常定位图可视化。第一行显示来自工业领域的样本图像,第二行提供了真实的异常区域。第三行展示了没有使用GCL生成的定位图,在这种情况下,全局提示难以精确定位像素级的异常。最后一行显示了使用GCL生成的定位图,在这种情况下,模型在检测全局和局部异常方面有所改善,能够有效地定位细粒度的异常区域。
4. 主要贡献
我们提出了一种新颖的ZSAD方法——GlocalCLIP,这是第一个通过目标无关的全局-局部语义提示设计明确分离全局和局部提示的框架。该设计使得提示可以跨越各种正常和异常模式进行泛化,而不依赖于特定的物体类别,从而使模型能够有效地检测细粒度的视觉异常。推荐课程:工业视觉检测如何检测低对比度缺陷? 我们通过引入全局-局部对比学习方法,解决了全局和局部提示之间互补性不足的问题。通过共同优化全局和局部提示,该方法有效地将它们对齐,以捕捉全局和局部的视觉特征,从而增强了ZSAD的鲁棒性。 综合实验验证了GlocalCLIP在15个真实世界数据集上的有效性和泛化能力,涵盖了来自工业和医疗领域的多种类别,展示了其强大的性能和在不同类别间的泛化能力。
5. 基本原理是啥?
GlocalCLIP 的基本原理是通过显式地分离全局和局部提示来进行异常检测。该方法的核心思想是利用全局提示和局部提示的互补学习,从而能够同时捕捉图像的整体信息和细粒度的局部特征。
全局和局部提示分离:GlocalCLIP通过将全局和局部提示分别训练,使得模型能够独立学习全局的视觉特征和局部的细节信息,从而在异常检测过程中更好地捕捉细微的异常变化。
对象无关的语义提示设计:模型采用对象无关的语义提示设计,即通过与特定对象类别无关的提示来进行训练,增强了模型的泛化能力,使其能够适应不同的异常检测任务。
全局对比学习(GCL):通过全局对比学习,模型不仅学习到图像的整体结构信息,还能学习到局部异常特征,从而提高异常检测的准确性和定位能力。全局对比学习有助于在全局和局部之间进行互补学习,改善模型的异常检测与定位表现。
强大的泛化能力:通过上述方法,GlocalCLIP能够在医疗和工业等多个领域的数据集上进行零样本异常检测(ZSAD),并且比现有的最先进方法表现出更好的效果。
6. 实验结果
定量比较在工业和医学领域的多个数据集上,GlocalCLIP表现出色,特别是在零样本异常检测(ZSAD)任务中。具体结果如下:
工业数据集:在包括MVTec AD、VisA、MPDD、SDD等在内的六个工业缺陷数据集上,GlocalCLIP的ZSAD性能优于其他现有方法(如CLIP、CoOp、WinCLIP等)。这些数据集包含了各种对象、背景和异常类型,GlocalCLIP在检测不同类型的异常时均表现出较高的准确率。 医学数据集:在医学领域,GlocalCLIP在九个不同的数据集(如HeadCT、BrainMRI、Br35H、ISIC、CVC-ColonDB、TN3K等)上取得了最高或接近最高的性能。特别是在皮肤癌、结肠息肉、甲状腺结节等任务中,GlocalCLIP能够准确地区分正常与异常区域,表现出优越的定位能力。
这些结果表明,GlocalCLIP在工业和医学领域的零样本异常检测中展现了强大的泛化能力和高性能。
定性比较通过可视化异常定位图,展示了GlocalCLIP与其他方法(如CLIP、CoOp、WinCLIP、AnomalyCLIP等)在异常检测上的表现:
工业领域:在各种缺陷类型的图像(如榛子、牙刷、瓶子、金属板、皮革、电路板等)中,GlocalCLIP能够准确地检测到异常区域,且与真实标注的异常区域高度一致。相比之下,CLIP和其他方法在局部异常的捕捉上存在困难,尤其是在细粒度的异常检测中表现不佳。 医学领域:在HeadCT、BrainMRI、Endo等数据集上的可视化结果表明,GlocalCLIP的异常定位精度高于其他方法,能够有效地区分正常和异常区域。虽然AdaCLIP在某些情况下表现良好,但在某些医学图像中未能完全捕捉到细微的缺陷。
GlocalCLIP通过显式地分离全局和局部提示,使得模型能够在学习过程中独立地学习全局信息和局部细节,从而避免了因缺乏互补信息而导致的性能折衷,最终实现了更好的异常检测与定位效果。
消融实验为进一步验证GlocalCLIP的关键模块,我们进行了模块对比实验,结果表明每个模块在提高ZSAD性能方面发挥了重要作用:
F1(V-V attention与多层结构):显著提高了对局部区域异常的检测性能。 F2(语义提示设计与深度文本提示调优):通过提示学习,提升了异常检测的精准度。 F3(全局与局部提示分离):通过分别学习全局和局部信息,提升了性能。 F4(全局对比损失用于互补学习):提高了模型在全局和局部嵌入之间的互补学习,增强了泛化能力。
提示设计对比我们还评估了对象无关的全局语义提示设计对异常检测性能的影响。实验结果表明,全局语义提示设计能够更准确地学习正常与异常样本之间的多样化视觉模式,从而提升了异常检测性能。相较于单一提示设计,全局语义提示设计在工业和医学领域的像素级和图像级别均取得了更好的效果。
全局与局部对比学习通过可视化全局对比学习(GCL)的效果,实验结果表明,采用GCL的全局提示能够有效提高异常定位精度。相比之下,未使用GCL的结果虽然能够捕捉一些局部特征,但主要集中在整个图像上,导致异常定位不够精确。GCL的加入使得全局和局部特征能够互补学习,从而在异常检测与定位上取得了更好的效果。
7. 总结 & 未来工作
在本研究中,我们提出了一种新颖的零样本异常检测方法——GlocalCLIP,该方法通过明确分离全局和局部提示来检测异常。通过以互补的方式训练这些提示,GlocalCLIP有效地捕捉了细粒度特征。使用面向对象无关的全局语义提示设计和全局对比学习训练的提示,在多个领域展示了强大的泛化性能,在医疗和工业领域均取得了令人印象深刻的成果。来自15个不同图像数据集的实验结果证明,GlocalCLIP在零样本异常检测(ZSAD)中优于现有的最先进模型,并超越了基于CLIP的现有模型。尽管本研究主要集中于视觉异常检测,但扩展该方法以适应更广泛的异常场景,包括逻辑错误,是必要的。未来的研究应着重于解决图像和文本之间的模态差距。GlocalCLIP所引入的新视角预计将为该领域的进展做出重要贡献。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~