ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

科技 2024-11-12 13:05 上海

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和医学影像】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

转载自：晓飞的算法工程笔记

论文: VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection

论文地址：https://arxiv.org/abs/2409.17330

创新性

提出VL4AD模型用于解决语义分割网络难以检测来自未知语义类别的异常的问题，避免额外的数据收集和模型训练。
VL4AD将视觉-语言（VL）编码器纳入现有的异常检测器，利用语义广泛的VL预训练来增强对离群样本的感知，还加入max-logit提示集成和类别合并策略用于丰富类别描述。
提出了一种新的评分函数，可通过文本提示实现无数据和无训练的离群样本监督。

VL4AD

视觉文本编码器

视觉编码器是与文本编码器共同预训练，解码器处理多尺度的视觉和文本嵌入，生成两种类型的输出：掩码预测分数和掩码分类分数，其中表示对象查询的数量。

对象查询是可学习的嵌入，类似于目标检测网络中的先验框。掩码预测分数以类别无关的方式识别物体，而掩码分类分数计算掩码属于特定语义类别的概率。

基于编码后的视觉嵌入（）和ID类别文本嵌入（）之间的余弦相似性计算掩码分类分数：

在架构上，和，以及和是相当相似的，区别在于在预训练后保持不变，仅对视觉-语言解码器进行微调。通过这种方式，将零样本CLIP在图像级别的竞争性OOD检测性能转移到像素级任务中。

`Max-Logit`提示集成于类合并

优化ID类文本嵌入可以使其更好地与相应的ID视觉嵌入对齐，提高ID和OOD类别之间的可分离性，但盲目地微调文本编码器可能导致灾难性遗忘。

为此，论文通过max-logit提示集成在文本提示中引入概念词汇多样性和具体化，显著提高模型对OOD输入的敏感性。词汇多样性包括同义词和复数形式，而具体化涉及更好地与CLIP预训练对齐的分解概念。例如，使用概念{vegetation, tree, trees, palm tree, bushes}来表示类vegetation。

max-logit集成考虑给定类的所有替代概念，替换内容为视觉嵌入与所有个替代文本嵌入的最大余弦相似度：

此外，单靠在类维度上的最大像素级得分可能导致次优性能，因为在两个ID类之间的边缘像素的不确定性较高，尤其是当类别数量增加时。

为了解决这个问题，将相关的ID类合并为超类。通过在测试期间将各个语义类的文本提示作为不同的替代概念连接到超类中来实现，而无需重新训练。然后，可以使用max-logit方法获得超类的不确定性。

通过`OOD`提示实现无数据、无训练异常监督

通过视觉-语言预训练，通常能够很好地检测到与ID类不同的语义OOD类（远OOD类）。但当OOD类与ID类非常相似的情况（近OOD类），则更具挑战性。例如，在CityScapes类别中，OOD类大篷车在城市驾驶场景中可能在视觉上与ID类卡车相似。

利用视觉-语言模型的开放词汇能力，论文引入了一种新的评分函数，旨在更好地检测这些近OOD类，而不需要额外的训练或数据准备。

为了在测试时整合个新的OOD概念，需要通过个额外的项扩展公式1中的掩码分类得分。遵循公式2，即通过将的前个通道与掩码预测得分进行组合，获得最终的不确定性得分：

通过这一整合，类中的OOD对象将（在大多数情况下）正确分配到其相应的类别。如果没有这一整合，它们可能会被错误地分配到与其实际OOD类别相似的ID类。相反，如果输入中不存在OOD对象，额外的类的影响将保持微不足道。

主要实验

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！
ECCV 2024 论文和代码下载
在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。

一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer2233，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看

http://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247610875&idx=3&sn=46340aead94b1ddc0d89e2eff0bf2818

CVer

一个专注于计算机视觉方向的公众号。分享计算机视觉、深度学习、人工智能、自动驾驶和高校等高质量内容。

最新文章

又一篇AI顶会！这个idea“简直杀疯了 ” ...

NeurIPS 2024 | 浙江大学提出SINE：通用分割新模型

哈佛大学 & MIT 招收实习生

ICASSP 2025 投稿交流群成立！

最大ReID和目标跟踪微信群来了！

巨星陨落！北京大学发讣告

超越YOLOv8还不够！这些目标检测开源项目又上新了

顶刊TPAMI 2024！清华黄高团队提出：高效图像识别的统一动态网络

重磅！CVPR 2025、ICLR 2025和AAAI 2025投稿微信群成立！

快加入！最大的目标检测和图像分割微信群来了！

打破纪录！中国科学家让薛定谔的猫活了23分钟

这6个岗位，大厂抢疯了！！

NeurIPS 2024 | CMU提出RLT：加速视频Transformer新方法

中国团队斩获EMNLP 2024最佳论文奖！主办方：明年苏州见！

ICLR 2025 开始Rebuttal！AAAI 2025和CVPR 2025投稿微信群成立！

多模态和扩散模型微信群来了！

“16岁中学生获正高职称”，后续来了

月薪49k！字节跳动校招开奖！

LeCun团队新作DINO-WM：预训练视觉特征的世界模型，超强规划能力！

又一OpenAI研究员离职！不相信OpenAI能造福世界，AGI使命无比困难

CVPR 2025 正式截稿！ICLR 2025和AAAI 2025投稿微信群成立！

遥感和Mamba微信群成立！

已注销！985新校区，不建了

校长书记双院士！教育部副部长，任C9党委书记！

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

马斯克新官上任，再起诉OpenAI！称Ilya七年前就不放心奥特曼了

CVPR 2025 截稿！ICLR 2025和AAAI 2025投稿微信群成立！

长时间迟到、多次离席关闭摄像头…19位评审专家被处理！

导师放养，一个人偷偷发了顶会。。。

李飞飞团队新作：具身智能决策性能评价基准，o1-preview登顶！NeurIPS 2024

北大新作：让大模型来做peer-review结果会怎样？

CVPR 2025 即将截稿！ICLR 2025和CVPR 2025投稿微信群成立！

扩散模型和多模态微信群来了！

突发！中科院一区期刊eLife将被剥夺影响因子

残酷！中科院博士应聘某普通二本惨遭拒，开始思考人生。。。

周志华团队新作！打造更强的世界模型！WHALE来了！

NeurIPS'24 | Pcb-Merging：无需训练的多任务模型合并方案

ICLR 2025 分数出炉！ICLR 2025和CVPR 2025投稿微信群成立！

谷歌2024博士奖学金公布！KAN作者刘子鸣等数十位年轻华人学者入选

多校通知：大学教师，实行“坐班制”！

喜提 TPAMI 顶刊！

NeurIPS 2024 Oral | 量化和提升思维链的推理能力边界

Ilya认错，Scaling Law崩了？自曝SSI秘密技术路线取代OpenAI

ICLR 2025 出分了！ICLR 2025和CVPR 2025投稿微信群成立！

最大ReID和目标跟踪微信群来了！

211大学教授、博导，落马！

CV全新范式！LSTM在CV领域杀出一条血路！

GPT-5被曝不及预期！OpenAI员工：没什么科学突破了，接下来只需要工程

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

CVPR 2025 和 ICLR 2025投稿微信群来了！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ECCV 2024 | VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【Mamba和医学影像】交流群

添加微信号：CVer2233，小助手会拉你进群！扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

创新性

VL4AD

视觉文本编码器

Max-Logit提示集成于类合并

通过OOD提示实现无数据、无训练异常监督

主要实验

何恺明在MIT授课的课件PPT下载

ECCV 2024 论文和代码下载

CVPR 2024 论文和代码下载

AI/CV重磅干货，第一时间送达
点击进入—>【Mamba和医学影像】交流群

添加微信号：CVer2233，小助手会拉你进群！
扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

`Max-Logit`提示集成于类合并

通过`OOD`提示实现无数据、无训练异常监督