TPAMI 2024 | 风格化学习:跨任务和领域的持续语义分割

科技   2024-10-26 10:06   广东  

Learning With Style: Continual Semantic Segmentation Across Tasks and Domains

风格化学习:跨任务和领域的持续语义分割

Marco Toldo; Umberto Michieli; Pietro Zanuttigh


摘要

在现实世界的环境中处理图像理解的深度学习模型必须能够适应不同领域中的广泛任务。领域适应和类别增量学习分别处理领域和任务的可变性,而它们的统一解决方案仍然是一个开放问题。我们同时应对问题的两个方面,考虑到输入和标签空间中的语义变化。我们首先正式引入了任务和领域变化下的持续学习。然后,我们通过使用风格迁移技术来扩展跨领域的知识,当学习增量任务时,以及一个稳健的蒸馏框架,在增量领域变化下有效重新收集任务知识。设计的框架(LwS,风格化学习)能够跨所有遇到的领域泛化增量获得的任务知识,证明对灾难性遗忘具有鲁棒性。在多个自动驾驶数据集上的广泛实验评估表明,所提出的方法优于现有方法,这些方法在处理任务和领域变化下的持续语义分割方面准备不足。

关键词

  • 持续学习

  • 领域适应

  • 语义分割

I. 引言

随着深度学习的兴起,计算机视觉领域取得了显著的进步。像图像语义分割这样的挑战性任务现在可以通过成熟的深度学习架构成功解决。尽管如此,持续学习和适应新环境的基本问题仍未解决,正在积极研究中,距离最终解决方案还有很长的路要走。

尽管在狭窄和有限的任务中能够实现显著的性能,但深度模型在面对不断变化环境中的动态任务的持续学习时往往会遇到困难。一个主要问题在于倾向于灾难性地忘记先前获得的知识,随着新信息的获取,之前的经验被抹去。此外,监督训练数据和目标数据之间的变化输入分布已被证明会导致性能下降,从而引发了领域适应的需求,其目标是跨领域的知识可转移性。这在将深度模型部署到实际应用中时构成了关键问题,因为在现实世界中,很可能会遇到输入数据和目标任务的分布变化。



大量的研究工作已经投入到视觉问题中的持续学习(也称为增量学习,IL,或终身学习[5]),如图像分类[4]、[6]、[7]、目标检测[8]、[9]、[10],以及最近,语义分割[11]、[12]、[13]。然而,这些工作大多数仅限于从类别增量的角度来看待持续学习问题,重点严格放在在整个学习过程中经历的可变任务(例如,类别)监督和标签空间变化上。另一方面,大量的研究工作已经投入到领域适应问题上,从静态学习设置[14]、[15]、[16]到最近动态视角[17]、[18]、[19],考虑到数据分布的增量变化。

尽管如此,语义分割任务中跨任务和领域的一般持续学习问题仍未被探索。通常类别增量方法难以应对领域知识传递的挑战,而领域增量方法则缺乏解决增量任务监督的倾向。我们则提出要同时应对类别和领域方向上的联合增量变化的持续语义分割。训练过程涉及多个步骤,每个步骤都带来了一组新的类别来学习,以及一个包含具有与以前步骤不同的分布的图像样本的训练集,这些样本仅对新引入的类别集有监督。总体目标是使增量分割模型能够对到目前为止遇到的所有任务(即,类别集)和领域提供满意的性能,以类别和领域联合训练为目标上限。

在这个新颖的问题设置中(见图1),必须同时进行领域适应和过去类别的回忆,以实现令人满意的性能。从领域增量的角度来看,需要同时在旧领域上学习新类别,并适应旧类别知识到新领域。从类别增量的视角来看,必须考虑在解决增量学习问题时特征的可变输入分布。

因此,我们设计了多个训练目标来面对这些子问题。虽然复习旧类别的知识是依靠旧步骤的分割模型,这是类别增量学习方法中的常见做法[11],但要回放过去领域输入分布的信息,我们提出了一种风格化机制。计算并存储每个遇到的域的平均风格(即,非常紧凑的表示),以便在未来的步骤中转移到新领域并再现一些领域级信息。

整体优化框架包括:(i)标准任务损失(即,交叉熵目标)来学习新类别在可用训练数据上,(ii)额外的任务损失实例,通过利用风格化在旧领域中学习新类别,(iii)类似知识蒸馏的目标,以硬伪标签的形式注入过去类别的适应信息到新领域,最后(iv)应用于风格化图像的输出级知识蒸馏目标,以保持旧领域旧类别性能。

总结来说,我们的贡献如下:我们研究了一个新的全面的增量学习设置,该设置考虑了输入和标签空间中的变化分布。我们开发了一个框架来解决类别和领域增量学习问题的所有方面,基于风格化机制来在增量任务监督下回忆领域知识,以及一个稳健的蒸馏框架,在增量领域变化下保持任务知识。我们设计了新的实验设置来模拟所提出的学习设置,并进行了广泛的评估活动。我们展示了所提出的方法优于现有方法,这些方法仅从类别或领域增量的角度解决IL问题,而没有增加推理阶段的计算时间。

II. 相关工作

语义分割:在深度学习的推动下,语义分割在近年来取得了显著的进展。自从引入了全卷积网络(FCNs)以来,研究工作极大地推动了这一领域的发展。扩张卷积允许在限制模型大小增长的同时保留足够大的感受野。空间金字塔池化和特征金字塔池化提取和聚合不同尺度的上下文信息,以获得改进的密集预测的丰富表示。同时,大量的研究兴趣集中在为实际应用设计轻量级架构上,这些应用通常受到严格的硬件限制。MobileNet架构建立在高效的深度可分离卷积之上。ErfNet利用因子化残差层提供实时准确的分割。最近,变换器已在视觉领域应用,甚至用于语义分割等密集预测任务。

类别增量学习(CIL):作为增量分类任务的持续学习形式,近年来引起了越来越多的研究兴趣。可以找到大量针对图像分类和目标检测任务的文献,这些任务是在增量学习范式下进行的。这些工作[7]、[28]、[29]、[33]、[34]、[35]、[36]中的许多依赖于示例,即一小部分训练数据被存储以便在未来的步骤中重放。我们则完全处于一个无需示例的设置中。在无需示例的方法[4]、[6]、[8]、[9]、[10]、[30]、[31]、[32]、[37]中,我们可以识别出基于正则化的、基于重放的和基于结构的方法。即使许多工作提出了原则上可以推广到各种视觉任务的技术(例如,知识蒸馏机制),但面对语义分割任务时,会出现额外的复杂性。

对于增量语义分割的文献较为有限,尽管这个领域最近受到了越来越多的研究关注。一些研究工作已经将知识蒸馏机制适应于增量语义分割。Michieli等人首次在CIL中引入了这种技术,提出了特征级和输出级蒸馏目标的变体。在[12]中,作者通过提出一种新的蒸馏公式来解决背景区域的语义变化问题。此外,[13]通过池化表示来捕获空间关系,改进了特征级蒸馏。Phan等人引入了任务相似性度量作为蒸馏目标中的权重因子。Yang等人利用结构化自注意力方法来保存相关知识。最后,[43]将流行的对比学习范式扩展到增量语义分割,以提高特征空间中的类别可分性。然而,上述工作都没有解决输入空间中任务分布变化的问题。我们提出了一个鲁棒于领域增量间隙的蒸馏目标,并针对当前领域通过鲁棒的硬伪标签保留旧任务知识,并利用领域风格化利用蒸馏知识在经历旧领域输入统计数据时。针对潜在表示的语义可分性,提出了一个基于类别原型的聚类目标。Maracani等人介绍了一种基于通过外部源检索训练样本的新的重放方法,即通过基于GAN的生成或网络爬取。Cermelli等人进一步表明,可以在只有图像级注释的增量步骤中进行持续训练,并在某些CIL实验设置中达到高精度。然而,这种方法可能容易受到第一步学习中提供的密集监督的数量的影响,并且可能不适用于包含不同类别对象的图像的分割。Zhang等人设计了一个动态增量框架,以分离旧任务和新任务的表示学习。所有上述工作都假设学习步骤之间的输入数据分布是统计同质的。另一方面,我们处理的设置更为现实,输入和标签空间都经历了增量变化,我们展示了所提出的增量方法在这种通用设置中与纯CIL竞争对手相比的优越性。

领域适应(DA):当训练和测试阶段的输入分布变化时,深度模型已知会遭受性能下降。领域适应已被广泛研究以缓解上述问题,通过安全地将从标签丰富的源领域学到的知识转移到标签稀缺甚至无监督的目标领域。特别是,无监督领域适应(UDA)对语义分割任务非常活跃,因为在真实世界数据中收集密集分割图的成本通常非常高且耗时。在标准的UDA设置中,源域和目标域上的任务是相同的,而我们处理的设置更为现实,任务和领域都在动态变化。

最近,静态DA的不同变体被提出,放宽了一些原始的严格假设。一个研究方向涉及源和目标域之间的不同任务,即允许源和目标类别不同。根据源和目标类集之间的关系,提出了部分[54]、开放集[55]和通用[56]、[57]领域适应设置,尽管大多数研究限于图像分类问题[55]、[56]、[57]。此外,这些工作不涉及类别增量学习,因为适应是在单一学习阶段同时访问源和目标域进行的。



另一条研究线探讨了不同领域的可用性。一些人提出处理多个源[58]、[59]或目标[17]、[18]、[19]、[60]、[61]、[62]、[63]域。这可能涉及单一适应阶段[58]、[59],或者在不同的学习步骤中以增量方式经历不同领域(但仍具有固定类集)的多个阶段[17]、[18]、[19]、[62]、[63],实际上,从领域适应的角度进行持续学习。Garg等人[64]开发了一个多领域增量学习(MDIL)框架,涉及在多个领域中转移的分类任务,但类集在增量步骤中不是不相交的。

联合CIL和DA:很少有工作同时处理任务增量学习和领域适应。Kalb等人[65]讨论了类别和领域增量学习,但每个任务都是通过评估标准CIL和DA方法单独处理的。在[66]中,探索了粗到细的持续学习,但所提出的设置不涉及跨学习步骤的领域变化,因为源和目标域是固定的。最近,Simon等人[67]处理了任务和领域动态演变的持续学习。然而,他们假设在每个任务增量步骤中都有所有考虑领域上的任务监督,这在现实世界的应用中可能不是一个现实的假设。此外,进行了训练样本的重放,该方法专门针对图像分类。

III. 问题设置

在语义分割中,我们的目标是通过将图像的每个单独空间位置与预定义候选集合C中的语义类别关联起来进行标记。也就是说,给定一个RGB图像,利用分割网络来提供其分割图应该是真实地图的准确预测,后者仅在训练时可用。
我们遵循增量学习协议来优化分割网络,如图2所示。具体来说,预测器在多个步骤中被训练,以识别逐渐增加的语义类别集合。在步骤中,引入了一个新的类别集合,以及与该集合相关的训练数据,这些数据在当前图像域上可用。提供的监督限制在内,这意味着中的任何像素都在中用进行标记。在步骤结束时,丢弃所有当前可访问的数据,不再重复使用。该过程在多个学习步骤中重复,每个步骤都引入了一个新的域和类别集合进行训练。
更正式地说,目标是训练以识别到目前为止在当前步骤观察到的所有语义类别:
在所有迄今为止经历过的图像域上:
我们强调具有不同的统计属性,即它们之间发生了域变化,通常表现为不同域的场景元素的视觉外观变化,尽管它们具有语义上的重要性。所有是不相交的集合,除了未知(u)类别,它属于它们中的每一个。在步骤的类别u包含所有过去和未来的类别。换句话说,u在随后的步骤中经历了语义变化,因此,在处理时需要特别小心[12]。

IV. 提出的方法概述

我们同时面临领域适应和类别增量学习设置中的独特挑战。
领域适应:分割网络在多个域上进行训练,每个域仅包含整个语义类别集合的子集。即便如此,模型仍需在所有观察到的域和语义类别上提供满意的预测性能。
类别增量学习:在不同域上可用的不同类别监督导致我们面临类别增量问题,语义类别以持续的方式出现。因此,我们需要解决众所周知的灾难性遗忘现象,目标是在学习新类别时保留过去类别的知识。然而,与标准CIL不同,知识保留需要根据不同的域以不同的方式执行。
因此,有必要在增量步骤和域之间传递知识:
i) 在当前(有监督)域和过去(在学习过去步骤时没有新类别监督)的域中学习新类别的线索;
ii) 将旧类别知识适应到新域(考虑到输入空间中的语义变化)。
我们将领域变化和类别持续学习问题分解为更简单的子问题,如上所述。我们的总体学习框架建立在多个单独的目标上,每个目标都专注于一般设置中的特定挑战。我们同时在类别和领域增量方向上取得进展;在每个学习步骤之后,对于第一个步骤之后,到目前为止经历过的类别和域可以被安排成新的或旧的类型,取决于它们是否当前可用。更详细地说,我们为不同的域和类别类型组合提出了特定的学习目标(见表I和图3),即:
i) 在新域上学习新类别(第V-A节);
ii) 在旧域上学习新类别(第V-B节);
iii) 将旧类别信息适应到新域(第V-C节);
iv) 在旧域中保留旧类别信息(第V-D节)。

A. 领域风格化

我们采用风格迁移机制来重现具有类似过去领域统计属性的图像数据。更具体地说,从当前步骤可访问的输入域的可用图像数据开始,我们转移了从所有先前遇到的域中提取的风格。通过这样做,产生了每个先前域的风格化版本,其图像内容来自新数据集。
领域风格化的好处是多方面的:(i) 我们迫使预测模型在有监督或伪监督下体验过去的输入分布,解决领域级灾难性遗忘。 (ii) 我们的目标是在旧域上学习新类别,那里在学习时没有可用的监督。与此同时,我们提出保留旧类别知识在旧域上,对抗类别级灾难性遗忘。 (iii) 通过遇到多样化的输入分布,预测器被鼓励发展对未见领域的泛化能力,这在涉及领域变化的持续学习范式中至关重要。
我们采用的风格迁移机制受到[16]的启发,涉及低成本和内存需求。我们还测试了其他选项,但它们导致了较低的结果。原始算法在傅里叶变换域中工作:从目标图像(即风格)的频谱表示的低频部分提取幅度,然后替换源图像(即内容)的幅度,同时保持其相位分量不变。结果是具有源语义信息和目标样式的图像数据。
我们增强了原始方法,以适应由类别和领域增量设置带来的额外复杂性。从当前可用数据集中的每个图像中,我们提取其风格张量(即,幅度中心窗口),并在所有样本上平均它:
其中是通过傅里叶变换应用于图像X获得的幅度,是风格窗口。通过这样做,我们提取了领域依赖的统计属性的重要知识,这些知识被压缩在紧凑的表示中。步骤t的领域特定风格存储在逐步填充的存储库$MF_{0:t-1}=\{ \bar{F}_A^k | k<t\}$中,并在步骤中保留。通过利用所提出的存储机制,在每个增量步骤中,我们可以访问过去领域低级属性(尽管与原始图像数据中包含的信息相比是最小的)的关键信息,而不需要直接访问原始图像数据,这将违反无样本假设。我们强调,领域变化影响低级细节,而高级语义内容主要在领域间共享(例如,道路无论在哪个数据集中都具有相同的目的,但其纹理或路面材料的外观可能会有相当大的变化)。要在步骤t创建一个回顾步骤k<t的旧风格化数据集(即$\tilde{x}_t^k$),对于当前域的每个图像,我们用所选的旧领域的幅度窗口替换其幅度窗口,如下所示:< p=""></t\}$中,并在步骤中保留。通过利用所提出的存储机制,在每个增量步骤中,我们可以访问过去领域低级属性(尽管与原始图像数据中包含的信息相比是最小的)的关键信息,而不需要直接访问原始图像数据,这将违反无样本假设。我们强调,领域变化影响低级细节,而高级语义内容主要在领域间共享(例如,道路无论在哪个数据集中都具有相同的目的,但其纹理或路面材料的外观可能会有相当大的变化)。要在步骤t创建一个回顾步骤k<t的旧风格化数据集(即$\tilde{x}_t^k$),对于当前域的每个图像,我们用所选的旧领域的幅度窗口替换其幅度窗口,如下所示:<>

其中是逆傅里叶变换算子,是X的傅里叶相位分量。此外,我们设计了一个自风格化机制,通过自应用领域风格来提高对未来步骤的泛化能力,促进向前迁移。至于风格窗口的维度,我们通过实验发现,定义在[16]中的β参数(即,控制窗口大小的参数)设置为时提供了令人满意且稳健的结果。
最后,我们强调我们的方法不依赖于所使用的风格迁移技术,只要可以分两步提取风格信息和内容。

V. 跨任务和领域的学习

A. 在新域上学习新类别

在所提出的类和域持续学习框架中,直接监督仅针对新引入的类别集合和图像域,以训练数据集的形式出现。如前所述,不属于的图像像素,即过去或从未见过的类别,被分配给一个特殊的未知类别,其语义统计属性高度动态。
为了考虑未知类别在当前步骤相对于先前步骤所遭受的语义变化,我们将过去和未知类别的概率通道分组如下:
其中是给定输入图像X时,St在argmax之前的输出。
我们还定义了作为步骤t上的自风格化训练数据集,其中当前图像域的平均风格(在第IV节中定义)已应用于域本身。
为了在新域上学习新引入的类别,我们优化:
我们利用当前风格和新类别集上的监督来学习分割任务。上标表示使用新域上的自风格化数据。自风格化的目的是双重的;首先,它为预测模型提供了额外的鲁棒性和泛化能力,因为输入数据在各个样本中提供了更均匀的低级统计信息。其次,它迫使预测模型体验将在将来存储和重放的领域统计信息,作为未来不再可用的先前领域统计信息的代理。

B. 在旧域上学习新类别

为了补偿过去领域缺乏可用输入数据,我们生成保留类似于过去领域低级统计属性的代理数据集。更具体地说,对于每个风格的步骤k < t,我们构建(如第IV节详细说明),即在步骤t上,已将步骤k < t的领域特定视觉属性应用于域
通过优化以下内容,利用对旧域上新引入类别的监督:
我们利用具有过去风格(即,与不再可用的前域的分布大致相似)的输入数据和对新类别集的监督。上标表示使用旧风格化数据。
通过同时在当前步骤上学习分割任务,并扩展来自过去的输入数据分布的增强池,预测模型应该学习更通用且可共享的线索,克服领域持续学习范式中固有的领域变化。

C. 将旧类别适应到新域

在所面临的类别增量学习场景中,每个新学习步骤中,所有过去的类别集合都假定缺乏直接监督。为了回顾以前获得的知识,我们求助于众所周知的知识蒸馏目标[38]。然而,与文献中传统形式的类别增量学习问题不同,我们预计会遇到额外的挑战:
i) 过去领域的输入数据(即,当学习以前的类别集合时,分割模型经历的数据)不再可用;
ii) 分布变化将当前图像数据与以前步骤中可用的数据分开。因此,我们不再能够访问与过去步骤中分割模型经历的分布相同的数据,原则上,这些数据应该被利用来蒸馏旧类别的知识。
为了复制过去步骤的数据分布,我们求助于风格化机制(第IV节)。具体来说,对于每个旧域,$k<t$,我们从步骤t构建一个旧风格化数据集$d_t^k$。< p=""></t$,我们从步骤t构建一个旧风格化数据集$d_t^k$。<>
为了获取对过去类别的某种形式的监督,我们利用伪标记,通过前一步骤的预测模型,该模型应该保留迄今为止学到的语义类别的有益知识。然而,该模型可能无法在输入数据的未见分布上有效地蒸馏知识,即来自新引入的域。因此,我们利用旧风格化数据来增强伪标记,以减轻领域变化。我们用,表示模型在新域图像上的概率图。然后我们按以下方式计算伪标签:
其中我们利用旧模型在旧风格上的概率图,即我们设置,而表示对于每个空间位置,我们取具有最大峰值的概率向量。然后我们在每个空间位置细化生成的伪标签(我们将简写为$\hat{Y}^{t-1}_{<t}$,并为了简化符号省略$[x, y]$):<="" p="">$$ \Delta Y^{t-1}_{<t} =="" \begin{cases}="" \hat{y}^{t-1}_{<t},="" &="" \text{if="" }="" \hat{y}^{t-1}_{<t}="" \text{="" confident="" \wedge="" y_t="u" \\="" u,="" \neq="" u="" \text{ignore},="" \text{elsewhere}="" \end{cases}="" $$="" 其中。如果概率图(在argmax之前)中的峰值概率值大于阈值τ,或者该值在类别的最高K个峰值中,我们认为硬伪标签$\hat{Y}^{t-1}_{}[x,>
为了在没有直接访问真值信息的情况下注入关于过去任务的适应信息,我们采用以下目标:
$$L_{\tilde{n}\text{kd}}(C_{0:t-1}, X_t) = -\frac{1}{|D_t|} \sum_{\tilde{X} \in D_t} \Delta Y^{t-1}_{<t} \cdot="" \log="" \hat{p}_t(\tilde{x}),="" $$="" 通过该目标,我们通过从旧模型St获得的伪标签,将关于过去任务(即,C_{0:t-1}类别的识别)的知识蒸馏到新域X_t上。为了考虑步骤t-1的未知类别在移动到新步骤t>0时所遭受的语义变化,我们将新类别和未知类别的概率通道分组如下:


其中。我们选择使用硬标签而不是更常见的软标签来代替蒸馏类损失,以防止对St施加不确定的行为。这种不确定性可能源于旧模型St-1的培训和推理输入分布之间的不匹配,该模型已在旧域上受过训练,现在用新域数据(旧风格化操作减少了领域偏移,但不能保证完全消除)进行喂养。关于伪标签策略的实验数据将在第VIII-B节提供。

D. 保留旧域中的旧类别

在第V-C节中,我们专注于在当前新域上蒸馏旧任务知识。然而,我们的最终目标是最终得到一个能够识别所有观察到的类别的分割网络,这些类别跨越所有经历过的领域,即一个对领域和标签分布变化都鲁棒的预测模型。因此,在每个新增量步骤中,有必要保留过去获得的任务知识,即在旧领域上的旧类别。为了做到这一点,我们依赖于标准形式的输出级知识蒸馏目标[38],其中我们迫使学生模型(即,当前模型)模仿教师模型(即,自上一步骤结束以来保存并保持冻结的模型)预测的类别概率分布。我们选择以标准方式[38]采用目标,因为图像和标签分布理想地源自以前的步骤,因此原则上不应该影响蒸馏过程的领域变化。实际上,我们无法访问以前的增量数据集。因此,为了检索缺失的旧领域数据,我们再次求助于风格化(第IV节),以便我们可以利用旧风格化数据作为缺失原始图像的代理。最终目标如下所示:

其中指的是从(11)修改的概率分布,其中新的和未知类别被合并为一个单一的输出通道,以解决u类内的标签变化问题。

总体目标如下:

VI. 实验设置

在本节中,我们提供了用于验证所提出框架与多个竞争方法的详细实验设置。在第VII和VIII节中,我们将报告评估活动的结果和广泛的消融研究,作为额外的支持。

A. 数据集

为了模拟输入(图像)级别的分布变化,我们使用了多个驾驶数据集,每个数据集都限于特定的地理区域或环境因素,因此具有其独特的低级外观(例如,道路路面材料、车辆类型、光照条件)。相反,高级语义内容主要在图像集合间保持一致,即道路相关或其他类别,移动和静态障碍物可以到处找到,并遵循类似的类间结构关系(例如,天空总是在道路上方出现)。

  • Cityscapes: Cityscapes数据集(CS)是自动驾驶应用的流行基准。图像收集自50个位于中欧的城市。
  • BDD100K: 加州大学伯克利分校的Berkeley DeepDrive数据集(BDD)是一个更具多样性的道路场景集合,在美国的4个有限地区捕获了不同天气条件下和一天中不同时间的图像。
  • IDD: 印度驾驶数据集(IDD)包括来自印度城市及其郊区的驾驶场景。它提供了多样化的移动和静态道路障碍物,以及更野生和更自然的環境,打破了典型的欧洲或美国城市场景。
  • Mapillary Vistas: Mapillary Vistas数据集包含全球收集的图像,具有高度多样化的采集设置和位置。与之前介绍的基准不同,样本不仅限于位于相当统一地理区域内的几个城市。我们利用Mapillary数据集生成大洲级别的数据拆分,并且还用于测试所提出的类和域增量方法的领域泛化潜力。
  • Shift: Shift基准是自动驾驶的合成数据集,旨在提供大量的分布变化,模拟现实世界应用中面临的高度可变的环境条件。我们利用它来模拟由环境多样性引起的领域变化。
  • Synscapes: Synscapes是另一个合成驾驶数据集,专注于现实主义,以及照明和相机处理流水线的准确建模。

对于BDD、IDD、Synscapes和Mapillary数据集,我们只使用了Cityscapes上可用的19个类别。对于Shift,我们考虑了可用的22个语义类别。

B. 增量学习设置

领域增量设置:第一个领域增量设置是通过连续经历CS、BDD和IDD数据集(以不同的顺序)在3个单独的学习步骤中创建的。此外,我们提出了一个进一步的设置,其中领域变化是通过将整个Mapillary数据集根据样本的地理接近性拆分成增量集来实现的,即,生成了6个单独的数据子集,将在同一大陆拍摄的图片组合在一起。最后,我们利用Shift来模拟逐渐变化的环境条件,通过根据光照条件(即,白天、黄昏和夜晚)将整个数据集划分为3组。

类别增量设置:我们首先遵循[40]来识别19个Cityscapes类别中的3个独立组,即(i)背景区域,(ii)移动元素,(iii)静态元素,它们将在各种安排下以增量方式被观察。然后,我们将上述3种类别拆分扩展到[40]提供的22个类别的Shift上。所有类别增量集都在表II中详细说明。

通过合并类别和领域的各个设置,我们设计了表III中报告的每个类别和领域增量设置。第一个(即,城市)是使用CS、BDD和IDD数据集,以及[40]中的3种类别拆分生成的。正式地,我们设置总学习步骤数,并且在每个步骤

其中每个数据集和类别拆分只经历一次。我们还提出了一个基于Mapillary数据集的大陆级拆分的增量设置(即,全球)。为了与增加到6个元素的领域集合匹配,我们将每个类别组[40]一分为二,总共有6个类别拆分(表II)。我们设置,并且在每个步骤

其中每个类别集合和每个领域仅在一个单独的步骤中出现。在大量可能的增量序列中,我们在EU → NA → AS → OC → AF → SA和设置中执行实验评估。

C. 实施细节

我们基于PyTorch构建了我们的框架。由于所研究问题的复杂性,在大多数实验中,我们使用了一个轻量级的分割模型,即ErfNet[3]。我们认为,一个较小的网络更符合现实世界应用中的部署相关约束,例如在内存占用和推理速度方面。然而,为了比较目的,我们还报告了使用更重且表现更好的DeeplabV3架构[74]与ResNet101主干[75]的额外结果。在所有实验中,分割模型都在ImageNet[76]上进行了预训练。

使用ErfNet时,我们使用Adam优化器[77],学习率设置为5e−4。使用DeeplabV3时,我们使用SGD优化器,学习率设置为1e−3。权重衰减固定为1e−4,我们采用0.9的多项式衰减进行学习率调度。我们分别在每个学习步骤中使用ErfNet和DeeplabV3训练100和50个周期(在Shift中,我们将周期数设置为10)。使用ErfNet时,我们使用批量大小为6,由于GPU内存限制,使用DeeplabV3时将其减少到2。

在评估Cityscapes-BDD-IDD和Shift设置时,图像被调整为512 × 1024分辨率。当使用Mapillary进行训练时,输入首先调整为1024宽度(固定长宽比),然后裁剪为512 × 1024。这种预处理是为了适应Mapillary样本的高度可变长宽比。

控制风格窗口大小的β参数经验设置为1e−2,并在所有实验中固定。此外,我们实验性地固定,并在每个增量设置中保持它们不变。这表明我们的方法对实验设置的变化是鲁棒的,并且需要最少的超参数调整。关于β和损失权重影响的消融研究在第VIII节。

D. 竞争者

据我们所知,这是第一项明确建模并解决语义分割中类别和领域增量学习的工作。因此,我们将其与其他针对类别(CIL)或领域(DIL)增量学习作为单独问题的方法进行比较。

在类别增量方法中,我们考虑了ILT[11]和MiB[12],以及最新的PLOP[13]和UCD[43]。当使用ErfNet的PLOP时,我们在编码器的输出以及第一和第二块的末端提取的特征上应用LocalPOD损失[13]。对于UCD,我们修改了对比蒸馏损失,以便正样本和负样本的最大数量分别设置为3000(这些样本是随机选择的,如原始工作中所定义)。我们进行此调整以满足GPU内存限制。所有实验都在具有24 GB内存的RTX Titan GPU上执行。我们认为,公平的比较应该涉及所有竞争者可比的GPU资源。

在领域增量方面,我们与[64]进行了比较。与我们的设置不同,他们假设在所有增量遇到的域上都有完整的任务监督。我们通过将标准交叉熵损失替换为[12]中的无偏版本,将其框架适应于类别增量设置,以防止背景偏移抹去过去步骤中学到的任务知识。

E. 指标

受[64]的启发,为了提供对多个任务和领域预测性能的有价值度量,我们采用了与完全监督参考(越小越好)相关的领域平均相对性能定义在任何步骤t上:

其中是分割网络S在域X和类别集C上获得的类别平均精度(我们使用常用的mIoU指标)。是Oracle分割模型,即在所有类别和域的整个池上进行全监督训练。

我们还提供了一个泛化能力(越高越好)的度量,表示在迄今为止观察到的所有类别集合上在一个新的、以前未经历过的数据集上获得的准确性(即,以mIoU表示)。在步骤t上,该度量如下:

其中是未见过的领域。

VII. 实验结果

A. 城市场景评估

我们首先探索的实验设置包括逐步过渡到世界各地不同地区城市和郊区的驾驶场景。高低级图像内容都经历了不同程度的分布变化:尽管可以合理假设道路图像的基本语义结构不受地理位置的影响,但当环游世界时,场景元素的外表可能会发生显著变化。

  1. 领域顺序研究:为了再现类别和领域分布变化,我们以增量方式在Cityscapes、BDD和IDD数据集上进行训练。类别增量协议是[40]中提出的(即,Cbgr → Cstat → Cmov)。如第VI-B节详细说明的,我们定义了总共3个学习步骤。我们在表IV、V和VI中报告了按照3种不同数据集顺序进行的实验结果,以便每个数据集在所有3个可能的学习步骤中都被查看,考虑了所有执行的实验。

我们以不包括未知类别的所有类别的mIoU来报告结果,正如文献中通常所做的那样。mIoU是为每个迄今为止经历的域Xk(即,mIoUk_t,k≤t)计算的,∀t<T。此外,我们还提供了相对于监督参考的相对性能度量,无论是针对各个域Δk_t,还是作为全局量¯Δt(公式16)。被标记为Oracle的监督参考对应于在所有类别和域的整个池上进行的多数据集训练,即使类别和域将在步骤t之后被观察到。

我们与解决类别增量学习(ILT [11]、MiB [12]、PLOP [13]和UCD [43])的方法以及最近的领域增量方法(MDIL [64])进行了比较。我们还包括了一个简单的基线,仅激活新类别和新域(6)的任务损失。这种方法通常被称为微调,因为重点仅放在学习新任务上。对于这个基线,我们报告了两个变体,即有和没有在输入图像上应用自风格化的结果,分别表示为L̃n_ce和Ln_ce。至于我们的方法,我们评估了其最终形式(13),包含了第V节详细说明的所有训练目标,以及一个没有L̃kd损失(12)的更简单的配置。

通过检查表IV、V和VI中的结果,我们注意到不同方法在初始学习步骤结束时获得的性能是可比的。这是由于迄今为止使用的相似目标所致,仅学习第一个类别集合(Cbgr)在第一个域上,而不管领域顺序如何。我们强调,所提出的风格化在当前任务的学习中并非有害。我们将在第VIII节提供有关风格化影响的消融研究。

当进入第一个增量步骤时,必须解决灾难性遗忘问题以保持良好性能。我们观察到,仅使用Ln_ce和L̃n_ce损失是不足以获得令人满意的结果的,因为它们专注于新任务,并且没有提供保留过去知识的约束。MDIL [64]也表现不佳,因为所提出的动态架构不适合解决部分类别增量监督,这在我们的设置中与领域增量变化一起出现。

在分析类别增量学习方法时,我们注意到它们能够在一定程度上保留以前获得的知识,同时允许一些可塑性来学习新任务。然而,以前和当前数据集之间的领域变化对增量训练的预测器的预测精度产生了负面影响。实际上,所有考虑的CIL方法都依赖于在前一步骤中冻结的分割模型来保留过去任务的知识。然而,由于过去和新数据之间的领域差异,这种蒸馏机制可能会引入不可靠的指导,因为冻结的模型在输入级别上经历了分布变化,当用新域数据进行喂养时。同时,分布差距可能会阻碍新类别知识向旧领域的可转移性,而这些领域不再作为训练数据可用。

这些缺点在表VI(IDD → CS → BDD)的结果中显露无遗:Cityscapes和IDD数据集之间的显著领域变化阻止了CIL方法有效地保留和学习IDD上的任务相关信息,这是在步骤0中经历的。相反,我们的方法通过利用风格化方案并应用精心设计的目标来解决CIL方法所面临的问题,从而在旧域上实现了更高的精度。实际上,LwS在步骤1上的IDD上比最佳竞争者(即,UCD [43])提高了超过17个mIoU点。

我们还注意到,即使在不同的领域顺序(表IV和V)中,LwS显示出最佳的稳定性-可塑性权衡,保持了最好的整体精度,以¯Δ1为单位。此外,我们可以看到,对于CS → BDD → IDD和BDD → IDD → CS顺序,L̃kd目标的添加在旧域上提高了性能,这与目标的设计目的相一致。

在最后一个学习步骤中,处理类别和领域增量训练的挑战对所有竞争者来说都加剧了。基线和MDIL仍然提供较差的结果,后者在某些设置中甚至比使用自风格化的简单微调更差。

就CIL方法而言,PLOP [13]和UCD [43]表现最佳。两者结合了输出和特征级目标,这些目标在一定程度上对领域变化具有鲁棒性。即便如此,更简单的MiB [12]方法也显示出非常有竞争力的结果,这表明仅从类别增量的角度考虑的策略在输入空间也发生增量变化时可能不那么有效。我们的方法在其完整形式下大大超过了所有CIL竞争者,无论领域顺序如何,从5%(BDD → IDD → CS)到12%(CS → BDD → IDD)甚至16%(IDD → CS → BDD)的¯Δ2差距。

此外,在表VII中我们调查了所考虑方法的泛化性能(即,Γgen_t,从(17))。为此,我们在每个增量步骤中在未见过的Mapillary数据集上计算了准确性,针对迄今为止观察到的类别集合。注意,这项研究对于泛化评估非常相关,因为推理是在与训练数据完全不同的域上执行的。我们注意到简单的微调和MDIL提供糟糕的泛化结果,这是预期的,因为它们已经在直接观察的数据集上提供了低精度。另一方面,CIL方法达到了更具竞争力的结果,即使它们中没有一个在所有设置中被证明是优越的。尽管如此,我们的方法在所有竞争者中表现最好,显著接近Oracle上限(即使用整个Mapillary进行监督训练),特别是在IDD → CS → BDD设置中。同样,我们注意到我们的方法在不同的领域增量顺序下获得了相似的泛化结果,证明了我们的方法无论在训练环境中都能学习并保留可泛化的任务相关线索。

最后,图4以分割图的形式提供了定性结果。我们强调所提出的方法在整个增量学习过程中提供了更好的向后和向前迁移。特别是,自行车和公共汽车等移动类别的物体似乎在我们的方法在增量训练结束时在Cityscapes(CS)数据集上被更有效地识别,尽管CS仅在第一步中与背景类别监督一起经历。另一方面,MiB和PLOP未能在CS上提供这些类别的满意向后迁移。类似的推理可以应用于向前迁移能力。我们的方法即使在BDD和IDD数据集上也能在道路和人行道背景类别上提供良好的分割精度,尽管它们在Cbgr监督不再可用时被经历。相反,MiB和PLOP受到学习步骤之间领域统计差异的影响,难以在将知识向前转移到未来步骤时保持对第一步类别的满意分割精度。图5中展示了在Mapillary上评估时的一些视觉结果。第VIII-D节将提供额外的分析。

  1. 类别顺序研究:我们进一步研究了类别增量安排的置换对结果的影响。

表VIII报告了具有CS → BDD → IDD进展的实验结果,但修改了类别顺序,将移动类别Cmov先于静态类别Cstat进行体验。我们注意到与表IV(相同的领域顺序,但不同的类别顺序)中观察到的类似趋势,基线和MDIL[64]表现不佳,而CIL方法的改进精度仍然远远落后于所提出的方法。

此外,我们观察到通过应用新的类别顺序绝对结果有所下降。实际上,我们的方法的性能从31.28%下降到39.29%的¯Δ2。这种差异可能是由于在更难学习它们的域上体验类别集合,并且同时泛化到其他域所致。例如,我们注意到IDD相对于BDD提供了较低的Cstat总体像素百分比(11%对17%),而Cmov的数字在它们之间相似(两者都在总像素的10%左右)。尽管如此,CIL方法的性能损失相似,与最佳竞争者(即,UCD)的差距从12提高到13个¯Δ2点(与以前的类别顺序相比)。

  1. 模型架构研究:我们最后评估了在更复杂的分割网络上使用所考虑方法的性能,从轻量级的ErfNet转移到更重的DeeplabV3和ResNet101主干。为了比较目的,分析的设置再次是涉及CS → BDD → IDD和Cbgr → Cstat → Cmov顺序(表IX)。就我们的方法而言,我们观察到相对性能有所提高,从31.28%提高到28.53%的¯Δ2。我们强调¯Δ度量已经考虑了更好的Oracle结果;精度的提升表明我们的方法能够利用分割模型提供的增加容量。

另一方面,CIL竞争者无法利用网络容量的增长,这可能表明它们倾向于过度拟合当前观察到的域分布。实际上,最好的竞争者(即,UCD)在两个步骤1和2的¯Δ方面都被显著超越了20%以上。

B. 合成数据评估

为了评估我们的方法在处理合成数据和真实数据之间的大领域偏移的能力,我们进行了一个额外的实验,合成的Synscapes数据集在初始步骤中被观察到,然后是Cityscapes和BDD在另外两个步骤中。从表XI可以看出,LwS能够以很大的优势超越竞争者,即使在这种设置中也是如此。

我们还在Mapillary上进行了与表VII类似的泛化能力分析,使用相同的3个数据集进行训练(Synscapes在步骤0),并在Mapillary上进行测试。我们的方法达到了最终的mIoU为37.97%,而最佳竞争者的结果是21.25%。

最后,我们考虑了一个多数据集设置。具体来说,我们在步骤0使用Synscapes作为合成预训练,然后在步骤1中联合观察两个真实世界数据集(Cityscapes和BDD),并在最后一个步骤中体验另一个真实世界数据集(IDD)。我们达到了最终的¯Δ2得分为37.66%,而最佳竞争者大约在50%左右。

C. 更大地理多样性评估

我们探索的第二个类别和领域增量设置源自Mapillary数据集。领域偏移再次由图像样本的可变地理来源引起,即我们识别了与6个不同大陆相关的数据分区,对应于6个增量步骤。然而,Mapillary数据集包含了多样的数据分布,即使是在同一个大陆内的样本,为训练分割模型提供了更强有力的支持。反过来,数据的丰富性促进了跨步骤的泛化,减少了不同领域之间的领域差距。我们在表X中报告了实验结果。在最初的步骤中,当领域偏移较小时(例如,欧洲、EU和北美、NA之间),不同的方法取得了相似的性能。然而,当进入最后几个步骤并经历更大的统计差距时(例如,引入非洲图像、AF),我们注意到我们的方法以相当大的优势超越了CIL竞争者,最终增量训练的¯Δ差距为5个百分点。同时,在新旧领域上都取得了更好的性能,证实了我们的方法提供了更好的稳定性-可塑性平衡。总的来说,结果表明所提出的方法在不同性质的领域变化下都是有效的。另一方面,CIL方法仅因不同任务中的场景照明变化就受到了很大的惩罚。我们认为,在许多现实世界的应用中,例如自动驾驶,不假设持续学习者不会经历任何输入数据分布的变化是不现实的,这使得我们的持续学习方法更加适用。

D. 计算时间分析

最后,我们评估了我们方法的计算需求。在训练时,额外使用的设备和风格迁移减慢了训练步骤的速率。每个步骤需要大约2秒,而仅进行简单的微调需要0.5秒(数据指的是在NVIDIA RTX 3090 GPU上的ResNet101主干)。然而,请注意,推理时间基本上与背景模型相同,与主要竞争者相似:使用ErfNet时推理需要12毫秒,使用ResNet101主干时需要60毫秒。总之,虽然该方法在训练时引入了一些开销,但训练出的背景可以直接使用,无需额外成本。

VIII. 消融研究

在本节中,我们提供了广泛的消融研究,以调查我们方法的关键特征。我们将考虑城市实验设置,CS → BDD → IDD领域和Cbgr → Cstat → Cmov类别顺序,除非另有说明。

A. 各个优化目标的贡献

我们在表XIII中研究了所提出的学习目标在整体优化框架中的影响。仅通过微调利用当前可用的训练数据(前两行)得到的结果是不满意的(即使有自风格化),导致对类别和领域知识的灾难性遗忘。然而,Ln_ce(或L̃n_ce)对于学习新任务至关重要,因此它将保留在以下分析中,以测试多目标优化。

通过在整体目标中添加第二项来改进结果,特别是如果补充目标专注于保留旧类别知识时。实际上,当我们引入L̃n_kd时,我们达到了最佳性能。这表明即使在新域上应用,保留旧类别知识也是有效的。同时,L̃kd目标允许我们保持对过去领域的良好准确性,这得益于风格化机制改进的泛化能力,如果没有它(即,块中的第三行),就会丢失多个准确性点。

在分析三目标优化(第三块行)时,我们看到了不同组合的显著增益,除了L̃n_kd和L̃_kd同时激活,其中对过去类别知识保留的过度关注会产生训练不稳定性。在块的最后一行中,我们清楚地看到,通过在最佳两目标配置上添加L̃c_e损失,增量学习变得更加稳健,对所有领域的最终结果都有所改进。

最后,我们强调完整框架(最后一块)提供了最佳的整体性能,风格化再次发挥了重要作用。实际上,如果关闭风格化,整体性能将大大降低(即,倒数第二行)。

B. 伪标签生成

我们进一步分析了表XIV中的伪标签方案的影响。我们的方法增强型标记机制(在第V-C节中描述)利用旧风格化的图像来减轻冻结的分割模型蒸馏过去知识时所经历的领域偏移。

我们注意到,当禁用自风格化(前两行)时,我们方法的有效性降低,而自风格化模块提供的有益效果可以在最后两行中看到。这是因为自风格化更好地为未来步骤准备了分割模型,在这些步骤中,风格化机制利用旧领域风格将旧领域知识注入正在进行的学习步骤中。换句话说,当自风格化图像时,作为新风格将要经历的,已经作为旧风格在每个域被引入的第一个步骤中经历了。这反过来确保了对整个增量学习过程中更大的鲁棒性。此外,在设置自风格化的情况下,与在新域风格上的图像执行相同标记过程相比,基于旧风格化图像的伪标记产生了最佳的整体性能。这是因为用于生成伪标签的网络(从前一步骤中冻结)更适合面对旧域的输入分布,而当呈现新的未见输入分布时可能会受到领域偏移的影响。

在图6中,我们报告了根据不同标准生成的伪标签,以提供所获得的改进伪监督的视觉确认。所考虑的设置涉及CS → BDD → IDD和Cbgr → Cstat → Cmov进展,并且地图是在最后一个步骤(即,t=2)检索的。我们观察到,从前一步骤(即,倒数第二步)中取出的分割模型无法检测新域图像的顶部天空区域,即$\Delta Y^{(2)}_{<t}$通过将图片的顶部部分标记为未知(当真实的天空类别在已经看到的类别中时)提供了不可靠的监督。另一方面,当利用旧风格化图像生成伪标签时($y^{t-1}_{<t}$),更可靠的旧域指导($\delta y^{(0)}_{t-1}$和$\delta="" y^{(1)}_{t-1}$)被利用,并且各个积极贡献成功地合并在最终地图中(例如,在天空和道路区域)。因此,我们最终得到了$\delta="" y_{<1}^{t-1}$比每个领域特定的替代方案$\delta="" y_{\{k\}}^{t-1}k="" \leq="" t$更准确。<="" p="">

C. 风格化程度

我们提出了对风格化机制的额外分析。表XV显示了在不同风格化程度下我们的方法(全部目标)的结果;这些由β参数决定(见第IV节)。我们注意到,如果禁用风格化或以更保守的方式操作(即,β = 0.001),则结果较低,后者仍然比无风格化方法更好,因为捕获和传输的统计属性不足以成功保留旧域信息。另一方面,如果风格化过度(即,β = 0.1),我们观察到整体¯Δ2得分的性能下降。在这种情况下,旧风格化图像上更有可能引入人为的伪影,从而阻碍分割任务。

D. 跨任务和领域的知识转移

我们提出进一步的消融研究,以评估我们方法的知识转移能力,无论是从任务还是领域的角度。图7以矩阵形式报告了多个CIL竞争者在领域知识转移方面的比较;我们报告了在多个步骤中迄今为止经历的类别集合在各个域上实现的mIoU,以矩阵形式报告。我们考虑了多个增量设置,具有城市数据集和可变领域顺序。我们观察到,我们的方法从第一个学习步骤开始,就在所有考虑的设置中实现了更好的向前转移到未来领域,如矩阵顶部三角形部分的每个域的mIoU值所示。同时,这转化为对当前领域的更好性能(由对角线mIoU值表示),因为它们从前几步中获得的更好的向前适应性中受益。此外,对旧领域的改进向后转移通过矩阵底部三角形部分的更高mIoU值得到证实。

为了提供对不同增量方法在任务知识转移方面的洞察,图8报告了多个学习步骤中¯Δ结果的比较;这些值在所有领域(包括已经经历的和未来的领域)上针对单个增量类别集合计算。考虑的实验设置与研究领域转移时相同,结果以矩阵形式排列。我们观察到矩阵底部三角形部分的¯Δ分数低于竞争者,表明我们的方法在任务知识转移方面实现了更好的向后转移。同时,较小的¯Δ对角线元素表明了对当前任务的性能改进,进一步证实了我们方法提供的更好的稳定性-可塑性平衡。

IX. 结论

在本文中,我们为持续学习定义了一个通用设置,其中要学习的领域和任务随时间变化。我们通过将其分解为子问题并为每个子问题提供特定的学习目标,来解决这一未充分探索的学习设置,目标是语义分割任务。利用风格化机制,领域知识可以随时间重放,而稳健的蒸馏机制允许保留和适应旧任务信息。总的来说,所提出的学习框架使学习新任务成为可能,同时保留对旧任务的性能,并在所有遇到的领域中传播任务知识。我们在多个具有挑战性的基准测试中取得了显著的结果,超越了现有的竞争对手。未来的研究将处理更面向应用的设置,即任务和领域变化以连续的方式发生,而不是离散的步骤,并且在不同领域中引入不相交的类别集合。我们还将更深入地研究替代风格迁移技术。最后,考虑将框架扩展到驾驶场景之外的应用。

机器学习算法那些事
号主是大厂人工智能专家,专注于机器学习,深度学习以及计算机视觉等研究方向,每天会更新人工智能最前沿知识和分享自己的论文总结和学习笔记,让你系统化的学习每个知识点,每天进步一点点。
 最新文章