【魔改UNet系列】IAUNet:实例感知的U-Net

科技   2024-11-20 10:05   中国香港  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

论文信息

题目:IAUNet: Instance-aware U-Net

IAUNet:实例感知的U-Net

本文为ICRL 2025的投稿论文,处在匿名评审阶段,因此暂时无作者信息

论文创新点

  1. 架构扩展:作者提出了IAUNet,通过将基于查询的方法与变换器解码器集成到U-Net架构中,使U-Net模型具备了实例感知能力。这是首次将U-Net与基于查询的方法结合,以提升医学图像中的实例分割性能。

  2. 像素解码器与并行双路径更新策略:作者引入了一个新颖的像素解码器,该解码器具有解耦的掩码和实例特征分支,并在变换器解码器中采用了Parallel Dual-Path Update策略,这允许模型在U-Net的层次结构中同时细化对象和像素特征。

摘要

实例分割在生物医学成像中至关重要,用于准确区分个体对象,如细胞,这些对象经常重叠且大小不一。最近的基于查询的方法——其中特定于对象的查询指导分割——在此任务中显示出了强大的性能。尽管U-Net一直是医学图像分割的首选架构,但它既不是专为实例分割而设计的,也没有在基于查询的方法中被探索。在这项工作中,作者提出了IAUNet,这是一种新颖的架构,它通过基于查询的机制将实例感知引入U-Net,以实现卓越的像素到实例的聚类。关键设计包括轻量级的实例激活(IA)层,它们通过突出显示语义重要区域来生成指导对象查询。此外,作者提出了一个并行双路径变换器解码器,它在多个尺度上细化特定于对象的特征,允许我们从不同尺度级别分配多个查询到特定对象。最后,作者介绍了2025年Revvity全细胞分割数据集,该数据集包含数百张来自明场图像的手动标记细胞。这个数据集在捕获重叠细胞质的复杂形态方面是独特的,具有前所未有的细节水平,使其成为推进生物医学成像中实例分割的宝贵资源和基准。实验在多个公共数据集和我们自己的数据集上表明,IAUNet超越了大多数最先进的全卷积、基于变换器和基于查询的模型,为医学图像实例分割任务设定了强有力的基线。

3 模型概述


实例分割是计算机视觉中的关键任务,特别是在生物医学成像中,识别复杂环境中的个体对象至关重要。实例分割可以被表述为对图像中定义的N个对象的每个对象进行相关像素分组的任务。这个过程可能类似于聚类,其中每个对象被表示为一个聚类中心,目标是根据特征相似性将相关像素特征分配给它们对应的对象。对象表示作为中心,属于同一对象的像素根据特征相似性被分组在一起。最近的工作,如DETR和Mask2Former,表明良好的实例表示对于准确的分割任务至关重要。受这些模型的启发,作者将每个对象表示为一个D维特征向量,形成实例嵌入,也称为实例查询。这些查询作为D维特征空间中的聚类中心,指导像素特征分配给特定实例。

为了有效地模拟掩码和实例特征,作者提出了一个具有解耦分支的卷积像素解码器。一个分支处理掩码特征,代表整个图像的每个像素的嵌入。另一个分支模拟实例特征,并输出相应的实例嵌入以供指导。类似于标准U-Net,作者的解码器包含跳跃连接,以丰富来自早期层的语义信息,确保像素和实例特征都受益于多尺度上下文信息。

变换器解码器通过迭代更新掩码和实例特征来解决聚类思想,并随后细化实例查询。与传统方法在解码之前执行多尺度特征融合不同,作者利用U-Net的层次解码结构,使过程迭代。在这种方法中,每个解码器层的特征依次传递到下一个层,允许实例查询在多个尺度上逐层细化。最终的实例掩码预测是从细化的掩码特征和对象查询中解码出来的。

4 像素解码器

多尺度和高上下文特征已经证明对于分割任务至关重要。在生物医学领域,U-Net及其所有变体仍然是最优越的网络,用于准确分割。这主要是因为U-Net解码器的设计,它通过跳跃连接保持高语义一致性,这些跳跃连接在层之间传输重要特征。

作者引入了一个简单的U-Net风格的像素解码器来传播特征图。作者的像素解码器使用三种类型的特征:主要特征、掩码特征和实例特征。主要特征在香草U-Net中扮演类似的角色,聚合图像的空间上下文。然而,实例和掩码特征专门设计用于支持实例分割,并与变换器解码器紧密集成。掩码特征作为每个像素的嵌入,捕获丰富的语义信息,而实例特征负责在每个级别生成对象查询。由于掩码和实例特征都是从主要特征图中派生出来的,它们保持对齐,确保像素级和对象级表示之间的并行信息流。

在每个像素解码器层,给定主要特征图X,作者将其与来自编码器的跳跃连接结合起来。合并后的特征然后通过一个简单的双深度可分离卷积传递,具有残差连接,以保持像素解码器的轻量级特性。结果是细化的主要特征图X,作者然后用来解耦掩码特征Xm和实例特征Xi。

为了在层之间保持全局一致性,作者分别处理主要特征图X和上一级的放大掩码特征X'm和实例特征X'i。具体来说,作者将X与X'm连接起来更新掩码特征,将X与X'i连接起来更新实例特征。这些连接后的特征由相应的分支处理。作者对实例和掩码分支都使用两个并行堆叠的3x3卷积块。作者使用简单的双线性插值将所有特征传递到下一个解码器层。

与其他直接使用像素解码器的特征图来产生分割掩码的方法不同,作者利用变换器解码器来进一步细化这些特征。这种设计减少了像素解码器对重上下文聚合的需求,并允许变换器解码器处理更复杂的实例分割细化。

5 引导实例查询

在细化过程中,引导实例查询是确保准确对象分割的核心。对象查询在变换器解码器中扮演着至关重要的角色。由于对象查询用于嵌入关于对象的信息,它们作为准确实例分割的基础。像DETR和Mask2Former这样的模型使用零初始化或可学习的嵌入来描述实例,而不依赖于图像语义的先验知识。

相比之下,作者引入了查询引导,以避免收敛到次优的局部最小值,并引导模型学习更信息丰富的对象表示。在解码器的每个级别,模型学习生成引导查询,这些查询捕获更密集、更准确的对象表示。这些实例嵌入在解码器中逐步细化,同时保留高分辨率对象特征。

在每个解码器阶段,实例激活(IA)层生成N个引导实例查询a ∈ RN×H×W。给定像素解码器的实例特征Xi,IA层通过突出显示每个对象的重要区域来产生激活图。形式上,IA可以定义为:

其中f(x)是一个简单的3x3卷积,后跟一个softmax函数来归一化激活。
在获得归一化实例激活图a ∈ RN×H×W后,作者从实例激活中选择N个具有高前景概率的对象查询。然后与Xi特征图进行逐元素乘法,以生成最终的对象查询:
因此,每个对象被编码为一个256维向量。

6 并行双路径变换器解码器

在IAUNet模型中,作者实现了一个并行双路径变换器解码器,它同时更新对象查询和像素特征。变换器解码器的关键组件包括双中心聚类,其中对象用两个查询表示。
在每个解码器层l,作者从实例特征Xi生成新的实例查询q,并将其与上一级的N个实例查询(“支持”查询)连接起来,以获得总共2N个实例查询。每个对象用两个查询表示(“两个聚类中心”)。总共2N个对象查询q ∈ R2N×256,与平坦的高分辨率掩码和实例特征Xm ∈ RL×256和Xi ∈ RL×256一起处理,其中L = Hl × Wl对于第l个解码器层。
并行双路径变换器同时更新掩码和实例特征以及查询。新的实例查询持有丰富的对象特征,并作为主要聚类中心。而之前的实例查询则作为支持中心。这种双重表示允许模型通过将像素特征与两个不同的查询关联起来,更好地捕获复杂的对象结构。

8 实验

9 限制和结论

在这项工作中,作者介绍了IAUNet,这是一种新颖的架构,结合了U-Net和基于查询的机制进行实例分割。该模型的实例激活层生成引导对象查询,而并行双路径变换器解码器在多个尺度上细化特征。IAUNet超越了领先的模型,特别是在处理中等和大型对象方面,并在2025年Revvity全细胞分割数据集上为生物医学成像任务设定了新的基线。
IAUNet面临着与其他基于查询的方法类似的小对象分割挑战。此外,IAUNet可以优化以处理每个图像中的更多实例。未来的研究应该专注于开发更有效的小对象分割解决方案。
受限于知识能力,本文对原文的理解可能存在偏差。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与作者联系,作者将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章