语义分割:自动驾驶的 “火眼金睛”,比孙悟空还厉害!

2024-11-25 12:16   安徽  

【Semantic Segmentation】——语义分割作为计算机视觉的核心领域之一,语义分割技术致力于识别并标记图像中每个像素的具体类别,进而深入理解图像内容。这一技术在自动驾驶、医学图像处理、机器人视觉等多个关键应用中扮演着至关重要的角色。随着深度学习技术的飞速进步,语义分割在准确性与效率上实现了重大突破,极大地增强了智能系统对复杂环境的解析能力。同时,多模态数据融合技术的引入,进一步提升了语义分割在多样化传感器数据和复杂场景下的鲁棒性和精确度。

为了帮助大家全面掌握【Semantic Segmentation】的方法并寻找创新点,本文总结了最近两年【Semantic Segmentation】相关的20篇顶会论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。

需要的同学扫码添加我

回复“语义分割”即可全部领取

一、SED: ASimple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

1.1

1.方法

这篇论文提出了一个名为SED(Simple Encoder-Decoder)的方法,用于开放词汇的语义分割任务。SED方法包括以下几个关键步骤:

1.1层次化编码器基础的成本图生成

使用层次化的编码器(而非简单的变换器)来预测像素级图像-文本成本图,以更好地捕获局部空间信息,并具有与输入大小成线性关系的计算复杂度。

1.2渐进融合解码器

采用自上而下的架构,结合成本图和不同层次的特征图进行分割预测。

1.3类别早期拒绝

在解码器中引入类别早期拒绝机制,以加速推理过程,通过在解码器的早期层拒绝许多不存在的类别,从而在不降低准确性的情况下实现高达4.7倍的加速。

1

2.创新点

2.1层次化编码器

与传统的变换器相比,层次化编码器能更好地捕获局部空间信息,并且计算复杂度与输入大小成线性关系,这对于处理大规模输入特别有益。

2.2渐进融合解码器

通过结合成本图和不同层次的特征图,SED能够生成高分辨率的特征图,从而提高分割质量。

2.3类别早期拒绝策略

这种策略显著提高了模型的推理速度,尤其是在类别数量众多的情况下,通过在解码器的早期阶段拒绝大多数不存在的类别,减少了计算负担。

2.4开放词汇语义分割

SED方法能够处理开放词汇的语义分割任务,这意味着它能够识别和分割任意类别的像素,而不仅仅是封闭集内的类别。

2.5性能与效率的平衡

SED在多个开放词汇语义分割数据集上展示了其有效性,实现了分割性能和速度之间的优越平衡。

总的来说,这篇论文的主要贡献在于提出了一种简单而有效的编码器-解码器架构,用于开放词汇的语义分割任务,并通过层次化编码和类别早期拒绝策略提高了模型的性能和推理速度。

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Xie_SED_A_Simple_Encoder-Decoder_for_Open-Vocabulary_Semantic_Segmentation_CVPR_2024_paper.pdf

二、Generative Semantic Segmentation

2

1.方法

这篇论文提出了一种名为生成式语义分割(Generative Semantic Segmentation, GSS)的方法,它将语义分割问题重新定义为一个图像条件下的掩码生成问题。这种方法通过引入一个潜在变量的变分后验分布来实现,其中分割掩码被表示为一种特殊类型的图像(称为maskige)。GSS方法包括两个主要步骤:

1.1潜在后验学习

学习给定分割掩码的潜在变量的后验分布,以便潜在变量能够模拟目标分割掩码。

1.2潜在先验学习

最小化潜在变量的后验分布与输入训练图像的潜在先验分布之间的差异,从而实现输入图像对语义掩码生成的条件化。

2.2

2.创新点

2.1 maskige概念

提出了maskige的概念,将分割掩码以RGB图像的形式表达,使得可以使用预训练的潜在后验分布(例如VQVAE)。

2.2两阶段优化

提出了一个两阶段优化过程,首先学习潜在变量的后验分布,然后学习潜在变量的先验分布,这一过程允许使用现成的生成模型,而无需对特定任务的架构和损失函数进行大量修改。

2.3跨域性能

在更具挑战性的跨域设置中,GSS方法不仅在标准语义分割设置中与现有技术竞争,而且实现了新的性能状态。

2.4高效的潜在后验学习

通过引入一个线性变换和一个逆变换,GSS能够以最小的成本优化潜在后验,使得模型能够利用预训练的VQVAE模型。

2.5未标记区域辅助

为了处理图像中未标记区域的问题,GSS引入了一个辅助头来预测每个未标记像素的标签,从而提高了模型的鲁棒性。

总的来说,这篇论文的主要贡献在于提出了一种新的生成式学习方法来处理语义分割问题,并通过创新的maskige概念和两阶段优化策略,在保持高效的同时,提高了分割的准确性和跨域性能。

2.3

论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Chen_Generative_Semantic_Segmentation_CVPR_2023_paper.pdf


需要的同学扫码添加我

回复“语义分割”即可全部领取

三、Side Adapter Network for Open-Vocabulary Semantic Segmentation

3

1.方法

这篇论文提出了一个名为Side Adapter Network (SAN)的新框架,用于开放词汇的语义分割。SAN将语义分割任务建模为一个区域识别问题,并通过对预训练的视觉-语言模型(如CLIP)进行扩展来实现。SAN的核心思想是将一个辅助网络附加到冻结的CLIP模型上,该网络有两个分支:一个用于预测掩码提议,另一个用于预测应用于CLIP模型以识别掩码类别的注意力偏差。这种方法允许整个网络端到端训练,使得辅助网络能够适应冻结的CLIP模型,从而使得预测的掩码提议具有CLIP意识。

3.1

2.创新点

2.1 CLIP意识的掩码预测

通过端到端训练,SAN能够使掩码预测适应于冻结的CLIP模型,提高了掩码提议的准确性。

2.2注意力偏差的应用

SAN引入了注意力偏差的概念,这些偏差被应用于CLIP的自注意力模块中,以改善掩码类别的识别。

2.3解耦的掩码预测和识别设计

SAN的设计允许掩码预测和识别在CLIP中使用不同的区域,提高了分割性能。

2.4轻量化和高效

SAN通过利用CLIP的特征和端到端训练,实现了轻量化和高效的开放词汇语义分割,显著减少了可训练参数的数量,并提高了推理速度。

2.5不对称输入分辨率

为了解决CLIP模型设计为低分辨率输入而语义分割需要高分辨率输入之间的冲突,SAN采用了低分辨率图像用于CLIP模型,高分辨率图像用于SAN模型,这种设计被证明是非常有效的。

2.6在多个基准数据集上的性能提升

SAN在多个语义分割基准数据集上取得了优于现有技术的性能,特别是在ADE-847数据集上,证明了其在跨领域开放词汇识别能力上的优势。

总的来说,SAN框架通过其创新的设计和方法,在开放词汇的语义分割领域实现了性能和效率的显著提升。

论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Xu_Side_Adapter_Network_for_Open-Vocabulary_Semantic_Segmentation_CVPR_2023_paper.pdf


需要的同学扫码添加我

回复“语义分割”即可全部领取



AI学术工坊
分享最新AI资源
 最新文章