点击下方“计算机书童”卡片,每天获取顶刊论文解读
题目:Hybrid Open-Set Segmentation With Synthetic Negative Data使用合成负样本的混合开放集分割
作者:Matej Grcic,Sinisa Segvic----------------------------------------------------------------------------------------
摘要
开放集分割可以通过补充封闭集分类与异常检测来构想。许多现有的密集异常检测器通过生成模型对常规数据进行建模或与负数据进行区分。这两种方法优化了不同的目标,因此表现出不同的失败模式。因此,我们提出了一种新颖的异常得分,它融合了生成和判别的提示。我们的得分可以通过升级任何封闭集分割模型,以实现数据集后验和未归一化数据可能性的密集估计。我们得到的密集混合开放集模型需要负训练图像,这些图像可以从辅助负数据集、联合训练的生成模型或两者混合来源中进行采样。我们在密集异常检测和开放集分割的基准测试中评估了我们的贡献。实验表明,尽管计算开销微不足道,但开放集性能强大。
关键词
开放集分割,开放集识别,分布外检测,异常检测,语义分割,合成数据,混合模型。
1. 引言
现代神经网络的高准确度、快速推理和小内存占用不断扩大下游应用的范围。许多激动人心的应用需要由语义分割提供高级图像理解。这些模型将每个像素与预定义分类中的类别相关联,并且能够在低功耗硬件上实时处理两百万像素的图像。然而,标准的训练程序假设封闭世界设置,这可能会引起现实世界部署中的严重安全问题。例如,如果分割模型将未知物体(例如丢失的货物)错误分类为道路,自动驾驶汽车可能会遭遇严重事故。通过补充密集异常检测,可以减轻这种危险。由此产生的开放集模型更适合实际应用,因为它们能够拒绝对未知场景部分做出决定。
以前的密集异常检测方法要么假设生成性要么假设判别性视角。生成方法基于密度估计、对抗性学习或图像重合成。判别方法依赖于分类置信度、数据集后验或贝叶斯推断。然而,两种观点表现出不同的失败模式。生成异常检测器在概率体积上不准确,或者面临图像重合成的不适定性。另一方面,判别异常检测器在训练数据的任意距离上产生自信的预测。通过训练一些通用辅助数据集收集的负内容,可以缓解这一缺点。然而,这种训练可能涉及负数和验证异常之间的重叠。因此,评估可能导致过于乐观的估计和生产失败。我们通过补充封闭集分割与未归一化的密集数据可能性和密集数据集后验来结合这两种观点。这两种预测的融合产生了一个有效且高效的密集异常检测器,我们称之为DenseHybrid。我们的异常检测器的两个部分都需要用负内容进行训练,我们的实验评估了有无真实负数据的性能。本文通过允许我们的密集混合模型在没有真实负数据的情况下进行训练,扩展了我们初步的会议报告。我们通过联合训练的正规化流生成合成负样本来实现这一点。我们的新实验探索了没有真实负数据的开放集训练,验证了我们的未归一化密度对生成基线的评估,并比较了我们的合成负数与替代方法。此外,我们还在具有不同未知数的两个新设置PascalCOCO和COCO20/80上测试了我们的方法。我们综合的工作提出了以下贡献。首先,我们提出了第一个混合异常检测器,它允许像素级预测、平移等变性和与语义后验的端到端耦合。我们的检测器通过结合未归一化密度和判别性数据集后验来实现这些属性。请注意,在大多数密集预测设置中,平移等变性是一个非可选成分。如果我们通过在滑动窗口中评估作物宽度的生成模型来恢复未归一化密度估计,计算成本将大大超过封闭集语义分割的复杂性,从而排除了大多数实际应用。其次,我们通过将其扩展到仅在内联图像上学习来升级我们的方法。这种配置利用了联合训练的生成模型产生的合成负数据。第三,我们提出了开放mIoU作为开放集分割在安全关键应用中的新性能指标。新指标的主要优点是准确量化封闭集和开放集评估之间的差距。第四,我们的混合异常检测器可以轻松附加到任何优化像素级交叉熵的封闭集分割方法。产生的开放集分割模型在标准基准测试中具有竞争力,无论是否在真实负数据上进行训练。3. 混合开放集分割
我们通过用新的密集混合异常得分覆盖封闭集预测来表达开放集分割。我们的得分结合了建立在共享语义特征之上的判别和生成提示,使得高效的开放集推理成为可能。我们用随机变量表示输入图像。分类随机变量表示位置上的标签。二元随机变量模型给定像素是内联还是离群值。我们写表示内联,表示离群值。最后,我们用省略下划线的方式来表示随机变量的实现。因此,和是和的快捷方式。A. 混合异常检测
图2展示了2D玩具问题上的三种异常检测方法。判别方法对数据集后验进行建模。它经常在内联点很远的地方失败,因为有限的负训练数据集无法覆盖所有测试异常的模式。生成方法对数据可能性进行建模。它经常在内联流形的边界出错,因为过度泛化,但不会扩展到开放空间。我们结合这两种方法,因为它们倾向于承担不同的失败模式。我们的混合异常得分缓解了生成方法的粗糙性和判别方法的过度自信。这种协同作用有利于在负训练数据附近准确界定边界,同时减少开放空间中的假阴性异常。更正式地说,我们可以为混合集成比其两个组成部分表现更好提供充分条件。设是一个标准化异常得分,它为异常分配更高的值。我们可以将得分分解为正确的标签和错误:函数将异常标记为+1,内联标记为-1。然后期望的平方误差等于:我们的目标是展示混合异常得分优于其两个组成部分的条件:其中是两个组件错误之间的皮尔逊相关系数,表示两个组件的误差比,表示最小的期望误差,而和可以被视为常数。如果两个组件的错误是独立的并且是高斯的(和),那么我们的混合异常检测器即使在时也会有效。条件(4)甚至可以在我们实验中的中等相关性下得到满足。这为在共享特征之上构建高效的密集混合异常检测器提供了机会。B. 在语义分类器之上的有效实现
标准语义分割可以被视为一个两步过程。给定输入图像,深度特征提取器计算一个抽象表示,也称为前 logits。然后,计算出的前 logits 被投影到 logits 并由 softmax 激活。softmax 输出模型类别后验:在实践中,可以是任何适合语义分割的密集特征提取器,而是一个简单的投影。我们通过密集数据可能性和判别数据集后验来扩展这个框架。密集数据可能性可以在密集分类器之上表达,通过将 exponentiated logits 重新解释为未归一化的联合密度:因此,未归一化的可能性对应于。是仅依赖于模型参数的归一化常数。像往常一样,是有限的,但是由于需要对所有和的实现进行未归一化分布的聚合,所以是棘手的:在这项工作中,我们方便地避免了对的评估,以便能够进行高效的训练和推理。标准的判别预测(5)被一致地恢复为,根据贝叶斯规则:归一化常数出现在分子和分母中,因此被抵消。对 logits 的重新解释(6)使得在预训练的密集分类器之上方便地估计未归一化的每像素可能性。注意,向 logits 添加一个常数值不会影响标准分类,但会影响我们对数据可能性的公式化。我们利用额外的自由度来制定生成异常得分。我们定义数据集后验为前 logits 的非线性变换:判别异常得分。最后,我们将我们的混合异常得分实现为一个可能性比率,也可以解释为两个组件的集成:我们生成的得分可以忽略,因为排名性能对单调变换(如取对数或添加常数)是不变的。详细的推导和与两个组件集成的联系在附录中,在线可用。我们的得分非常适合密集预测,因为开销很小并且具有平移等变性。这种特殊公式使得两个组件的影响相等。当然,其他定义也可能是有效的,这是未来工作的一个有趣方向。C. 密集开放集推理
我们提出的混合异常检测器可以与封闭集输出结合起来,以恢复开放集预测,如图3所示。输入被馈送到一个密集特征提取器,产生前 logits 和 logits 。我们用 softmax 恢复封闭集后验,并用 log-sum-exp(指定为绿色)恢复未归一化数据 log 可能性 ln 。一个独立的头部将前 logits 转换为数据集后验(指定为黄色)。异常得分是数据集后验和密度之间的对数比率(9)。得到的异常图被阈值化,并与判别输出融合到最终的密集开放集输出中。我们通过微调预训练分类器来实现所需的密集混合开放集模型的行为,如下所述。4. 使用DenseHybrid进行开放集训练
我们的开放集方法补充了任意封闭集分割模型与DenseHybrid异常检测器。我们提出了一种新的训练设置,通过引入负数据到生成学习目标中来避免不可行的归一化常数。A. 使用真实负数据进行开放集训练
我们的混合开放集模型需要联合微调三个密集预测头:封闭集类别后验、未归一化数据可能性和数据集后验。相应的训练目标在以下段落中介绍。类别后验:封闭集类别后验头可以根据标准判别交叉熵损失对内联数据集进行训练:像以前一样,是计算的 logits,而代表 log-sum-exp,求和遍历类别。数据可能性:训练未归一化可能性可能是一个艰巨的任务,因为通过进行反向传播涉及对所有可能图像的不可行积分。以前的基于 MCMC 的解决方案在我们的设置中由于高分辨率输入和密集预测是不可行的。我们通过在内联和离群值像素上优化可能性来避免归一化常数:注意,由于训练涉及离群值,归一化常数被抵消,如附录中详细说明的。数据集后验:数据集后验头需要一个判别损失,以区分内联和离群值:实践中,我们对每个损失组件使用调制超参数。有关超参数的更多信息,以及完整推导,请参见在线附录。图4说明了我们开放集分割模型的训练。该图表明我们通过将负块粘贴到常规训练图像中来准备混合内容训练图像:二进制掩码标识混合内容图像中的负像素。负像素的语义标签设置为void。将混合内容图像馈送到分割模型,产生前 logits 和 logits 。我们按照第III-B节的说明恢复类别后验、未归一化可能性和数据集后验,并根据损失(14)进行训练。B. 使用合成负数据进行开放集训练
在真实负训练数据上训练异常检测器可能会导致过于乐观的性能估计,因为训练负数和测试异常之间的非空交集。这个问题可以通过用适合的生成模型的样本替换真实负训练数据来解决。生成模型可以被训练以生成涵盖内联分布的合成样本。所需的学习信号可以从判别预测中得到,也可以由对抗性模块提供。无论如何,用合成对应物替换真实负数据需要联合训练生成模型。我们选择正规化流,因为快速训练、良好的分布覆盖和快速生成不同空间维度的样本。我们根据数据项和边界吸引项训练正规化流。数据项对应于内联图像的随机裁剪的图像级负对数似然:裁剪符号与(15)中的填充符号相对应。随机裁剪在空间分辨率上变化。这个项将生成分布与训练数据的分布对齐。它鼓励覆盖内联分布,假设生成模型有足够的容量。边界吸引项对应于类后验和所有生成像素的均匀分布之间的负杰森-香农散度。这个项推动生成分布向内联分布的外围移动,在该位置类后验应该具有高熵。注意,这个项的梯度必须通过整个分割模型传播,以到达正规化流。因此,当生成的样本产生高 softmax 置信度时,正规化流会受到惩罚。这个信号推动生成分布远离输入空间的高密度区域。总的正规化流损失用超参数调节边界项的贡献:优化(17)强制生成分布涵盖内联分布。注意,我们的正规化流永远无法匹配像ADE20k这样的真实数据集的多样性。在交通场景上训练后,生成沙发是不合理的。然而,如果流成功学习了内联分布的边界,那么 DenseHybrid 将倾向于将所有离群值数据点与低关联起来。训练过程的详细信息如图4所示。我们通过i)选择一个随机的空间分辨率(H,W)从一个预定义的区间,ii)采样一个随机的潜在表示,iii)将馈送到流,以便来采样正规化流。我们再次通过(15)将合成负块粘贴到常规训练图像中,执行前向传播,确定、、和,并通过对数似然累积梯度,然后执行模型范围的参数更新。我们也可以从真实和合成样本的混合中提取负内容。然后,每个来源的数据量由超参数调节。采样真实负等于,而采样合成负等于。因此,混合负的分布是:采样首先选择来源,这对应于采样一个伯努利分布。然后,负是通过对选定的来源进行采样来生成的。5. 实验设置
评估密集异常检测和开放集分割需要专门的数据集和基准。A. 基准和数据集
我们在密集异常检测和开放集分割的基准上评估性能。Fishyscapes基准包括LostAndFound数据集的子集和带有粘贴异常的城市景观验证图像。SegmentMeIfYouCan数据集收集了来自现实世界的精心挑选的图像,并将它们分组到AnomalyTrack(大异常)和ObstacleTrack(道路上的小异常)。此外,基准包括一组来自LostAndFound的图像,其中丢失的对象不对应城市景观分类法。我们只在这些基准上报告异常检测性能,因为它们只提供二进制标签,因此排除了开放集评估。我们在考虑将子集的忽略类重新解释为未知类别时,验证了城市景观上的性能。StreetHazards数据集是一个合成数据集,它允许平滑异常注入和低成本标签提取。因此,该数据集包含K+1个标签,适合进行密集开放集评估。我们还在COCO验证集上的众包照片上验证开放集分割。我们将20个Pascal VOC类设置为内联,其余类视为未知。首先,我们在增强的VOC 2012上训练,将其余113个类视为未知未知。我们称这种设置为Pascal-COCO。其次,我们将其余60个COCO东西类设置为未知,并在至少包含一个已知类且没有未知类的COCO训练拆分上的图像上进行训练。此外,我们忽略了所有像素的实体类。我们称这种设置为COCO20/80。在这两种情况下,都观察到训练和测试数据集之间的协变量偏移,这使得这些设置相当具有挑战性。B. 衡量开放集性能
以前的工作通过异常检测和封闭集分割评估开放集分割。观察到的封闭集性能下降通常可以忽略不计,并解释为分配给异常检测的模型容量。然而,我们将展示异常对分割性能的影响只有在开放集设置中才能清楚地描述。更确切地说,我们应该考虑由于异常检测不完善而导致的假阳性和假阴性语义预测。我们提出了一种新的开放集分割评估程序。我们的程序首先阈值化异常得分,以便在留出数据上获得95%的TPR异常检测。然后,我们覆盖得分高于阈值的分类,得到一个具有K+1个标签的识别图。我们根据新的度量标准评估开放集分割性能,我们称之为开放mIoU。我们按如下方式计算第k个类别的开放IoU:与标准IoU公式不同,开放IoU考虑了由于异常检测不完善而导致的错误预测。具体来说,在异常像素处对类别k的预测(假阴性异常检测)被视为类别k的假阳性。此外,在标记为内联类别k的像素处对类别K+1的预测(假阳性异常检测)被视为类别k的假阴性。注意,我们仍然在K个内联类别上平均开放IoU。因此,具有完美异常检测的识别模型获得与封闭世界相同的性能。如果我们在K+1个类别上平均开放IoU,这个属性就不会被保留。因此,mIoU和开放mIoU之间的差异量化了由于异常检测不准确导致的性能差距。图5比较了考虑的封闭集(左上角,IoUk)和开放集(右侧,open-IoUk)度量。异常检测不完善通过增加假阳性和假阴性语义预测影响识别性能(分别用黄色和红色指定)。封闭集mIoU和开放mIoU之间的差异揭示了由于异常检测不准确导致的性能差距。6. 实验结果
我们在密集异常检测(第VI-A节)和开放集分割(第VI-B节)中评估DenseHybrid,在有无真实负数据的情况下进行训练。进一步的实验展示了消融研究(第VI-C节)并评估了混合负数(第VI-D节)。A. 密集异常检测在开放集设置中
表I展示了在SMIYC和Fishyscapes上的密集异常检测性能。我们包括了在真实负数据(DenseHybrid)和合成负数(SynDenseHybrid)上训练的模型。按照以前的工作,我们使用标准的城市景观训练的DeepLabV3+作为Fishyscapes。对于SMIYC,我们在城市景观、Vistas和Wilddash的图像上训练LDN-121。DenseHybrid在SMIYC Anomaly、SMIYC Obstacle和FS LAF上优于当代方法。此外,它在SMIYC LAF-noKnown和FS Static上实现了最佳的FPR95。在不训练真实负数的方法中,SynDenseHybrid在SMIYC Obstacle、SMIYC LAF-noKnown和FS LAF上占优势。此外,它在FS Static和SMIYC异常AP上实现了最佳性能。我们所有的性能估计都使用特定数据集的标准性能指标。如果我们只考虑道路像素,如文献中所述,我们在FS LAF上的性能指标将会增加。表的最右列表明,我们的微调协议对封闭集性能的影响可以忽略不计。然而,下一节将展示异常检测对最终识别性能的影响比封闭集指标所测量的要显著得多。我们还通过将城市景观的子集的忽略类视为未知类别来验证我们的方法。更确切地说,我们认为除了“未标记”、“自我车辆”、“校正边界”、“超出roi”和“车牌”之外的所有void类在验证期间都是未知的。表II根据AUROC(AUC)度量比较性能。SynDenseHybrid优于所有先前的工作。最值得注意的是,它比以前的SotA高出四个百分点。为了与以前的工作进行公平比较,我们没有报告在真实负数据上训练的结果。图6显示了第IV-B节训练设置产生的合成负样本。样本在空间分辨率上变化,缺乏有意义的视觉概念。然而,在这种样本上训练我们的开放集模型,与在真实负数据上训练相比,性能只是略有下降。B. 开放集分割
我们根据平均F1(F1)得分和提出的开放mIoU(oIoU)度量考虑开放集性能。表III在StreetHazards数据集上呈现性能评估。表的左半部分考虑异常检测,而右半部分考虑封闭集和开放集分割。我们的方法在异常检测中优于当代方法,无论是否在真实负数据上进行训练。此外,我们的方法实现了最佳的开放集性能(列oIoU和F1),尽管LDN-121的容量适中。最后一列量化了封闭集和开放集性能之间的差距,大约为18个百分点。然而,理想的模型将在开放集设置中提供与封闭集相同的性能。因此,我们得出结论,当前技术水平无法在开放集设置中提供封闭集性能。研究人员应继续努力缩小这一差距,以提高现实世界中识别系统的安全性。图7在StreetHazards测试中可视化了定性的开放集分割性能。我们的混合模型准确地结合了密集异常检测(第二行)和封闭集分割,并提供了开放集分割(第三行)。当代基于能量的方法在TPR = 95%时产生了更多的假阳性(第四行)。表IV在COCO数据集的众包照片上呈现开放集分割性能。我们使用具有ViT-B/16的Segmenter作为封闭集分类器。我们的混合开放集方法在有无真实负数据的情况下训练优于以前的方法。封闭集模型在Pascal-COCO的情况下超过90% mIoU,在COCO20/80的情况下超过75%,但开放IoU峰值分别为42%和17.8%。对假阳性的分析表明,由于大类内变异(例如,不同种类的盆栽植物)以及一些未知类别与已知类别外观相似(例如,未知斑马和已知马),任务难度很大。最后,基准具有很高的开放性:未知类别的数量超过已知类别的3倍。有趣的是,在COCO20/80的情况下,合成负数占优势。这表明ADE20K负数可能不是这个设置的适当负数据集。附录中的在线部分展示了我们开放集分割性能的定性示例。这些示例表明,我们模型的许多错误与标记错误重合。C. 消融DenseHybrid组件
表V在Fishyscapes val上验证了我们混合方法的组成部分。最上面的两个部分在真实和合成负数据上训练时验证了两个DenseHybrid组件,和。我们观察到混合得分优于未归一化密度,后者优于数据集后验。我们在真实和合成负数据上训练时观察到相同的定性行为。底部部分用正规化流替换了我们的未归一化可能性的前logit可能性估计。流是逐点应用的,以获得密集可能性。这也可以被视为以前图像宽开放集方法的泛化到密集预测。我们仍然以端到端的方式在负数据上训练,以使两个生成组件可比。产生的模型在FS Static上表现良好,在FS LostAndFound上表现不佳。我们将我们未归一化密度与逐点流相比的更好性能归因于对前logits的4×下采样,流拟合。此外,我们的未归一化密度确保了更快的推理。生成和判别组件在我们的方法中产生了可比的开放集性能,而它们的集成带来了进一步的显著改进。详细分析表明,生成和判别检测器之间的相关性仅为中等。在Pascal-COCO的情况下,我们有,,,,,而在COCO20/80的情况下,我们有,,,,。因此,满足条件(4)。注意,将两个任意的异常检测器结合起来是没有意义的,因为它们通常是高度相关的(例如,最大logit和自由能的),这再次支持了我们的方法。图8显示了基于不同异常检测器的定性开放集分割实验。不良分割区域用红色矩形表示,而绿色矩形表示更准确的分割。附录中的在线部分为驾驶场景提供了类似的定性评估。请放大以获得更好的视图。D. 混合真实和合成负数据
图9显示了在ADE20K真实负数据和我们正规化流生成的合成负数据混合时的异常检测性能。负数据根据第IV-B节中描述的超参数混合。我们观察到不同值的性能变化。尽管如此,最佳性能是在仅使用真实负数据训练时()实现的。探索更先进的真实和合成负数据混合程序是未来工作的一个有趣方向。7. 结论
我们提出的DenseHybrid得分旨在通过融合数据集后验和未归一化数据可能性,实现生成和判别异常检测之间的协同作用。我们利用负训练数据避免了不可行的归一化常数的评估。负数据可以来自通用数据集、由联合训练的正规化流生成,或者作为两者的混合进行采样。DenseHybrid可以附加到任何所需的封闭集模型上,以获得尖端的开放集能力。我们展示的实验证实了判别和生成异常检测承担了不同的失败模式。此外,我们观察到在标准密集异常检测和开放集分割基准测试中,性能具有竞争力,计算开销微不足道。我们还提出了开放mIoU,一种新的度量标准,用于评估开放集分割并量化封闭集和开放集设置之间的性能差距。适合未来工作的合适方向包括扩展到开放集全景、与基于类原型和掩模级识别的语义分割方法集成,以及进一步减少封闭集和开放集性能之间的差距。声明
本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。
计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。
稿件基本要求:
• 文章确系个人论文的解读,未曾在公众号平台标记原创发表,
• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题
投稿通道:
• 添加小编微信协商投稿事宜,备注:姓名-投稿
△长按添加 计算机书童 小编