点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信号:CVer2233,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection
论文地址:https://arxiv.org/abs/2409.17330
创新性
提出 VL4AD
模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题,避免额外的数据收集和模型训练。VL4AD
将视觉-语言(VL
)编码器纳入现有的异常检测器,利用语义广泛的VL
预训练来增强对离群样本的感知,还加入max-logit
提示集成和类别合并策略用于丰富类别描述。提出了一种新的评分函数,可通过文本提示实现无数据和无训练的离群样本监督。
VL4AD
视觉文本编码器
视觉编码器 是与文本编码器 共同预训练,解码器 处理多尺度的视觉和文本嵌入,生成两种类型的输出:掩码预测分数 和掩码分类分数 ,其中 表示对象查询的数量。
对象查询是可学习的嵌入,类似于目标检测网络中的先验框。掩码预测分数以类别无关的方式识别物体,而掩码分类分数计算掩码属于特定语义类别的概率。
基于编码后的视觉嵌入 ( )和ID
类别文本嵌入 ( )之间的余弦相似性计算掩码分类分数:
在架构上, 和 ,以及 和 是相当相似的,区别在于 在预训练后保持不变,仅对视觉-语言解码器 进行微调。通过这种方式,将零样本CLIP
在图像级别的竞争性OOD
检测性能转移到像素级任务中。
Max-Logit
提示集成于类合并
优化ID
类文本嵌入可以使其更好地与相应的ID
视觉嵌入对齐,提高ID
和OOD
类别之间的可分离性,但盲目地微调文本编码器可能导致灾难性遗忘。
为此,论文通过max-logit
提示集成在文本提示中引入概念词汇多样性和具体化,显著提高模型对OOD
输入的敏感性。词汇多样性包括同义词和复数形式,而具体化涉及更好地与CLIP
预训练对齐的分解概念。例如,使用概念{vegetation
, tree
, trees
, palm tree
, bushes
}来表示类vegetation
。
max-logit
集成考虑给定类 的所有替代概念,替换内容为视觉嵌入 与所有 个替代文本嵌入 的最大余弦相似度:
此外,单靠在 类维度上的最大像素级得分可能导致次优性能,因为在两个ID
类之间的边缘像素的不确定性较高,尤其是当类别数量增加时。
为了解决这个问题,将相关的ID
类合并为超类。通过在测试期间将各个语义类的文本提示作为不同的替代概念连接到超类中来实现,而无需重新训练。然后,可以使用max-logit
方法获得超类的不确定性。
通过OOD
提示实现无数据、无训练异常监督
通过视觉-语言预训练,通常能够很好地检测到与ID
类不同的语义OOD
类(远OOD
类)。但当OOD
类与ID
类非常相似的情况(近OOD
类),则更具挑战性。例如,在CityScapes
类别中,OOD
类大篷车在城市驾驶场景中可能在视觉上与ID
类卡车相似。
利用视觉-语言模型的开放词汇能力,论文引入了一种新的评分函数,旨在更好地检测这些近OOD
类,而不需要额外的训练或数据准备。
为了在测试时整合 个新的OOD
概念,需要通过 个额外的项 扩展公式1
中的掩码分类得分 。遵循公式2
,即通过将 的前 个通道与掩码预测得分 进行组合,获得最终的不确定性得分 :
通过这一整合, 类中的OOD
对象将(在大多数情况下)正确分配到其相应的类别。如果没有这一整合,它们可能会被错误地分配到与其实际OOD
类别相似的ID
类。相反,如果输入中不存在OOD
对象,额外的 类的影响将保持微不足道。
主要实验
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ECCV 2024 论文和代码下载
在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看