点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
将多个模型的参数进行合并作为一种有效的策略,以提高任务性能和鲁棒性,但以前的工作受到高成本组合和推理的限制。在本文中,作者利用大量免费可获取的训练模型,提出了一种无成本的模型合并方法。
这种方法侧重于分层的模型合并,目的是在保持特定任务特定最终层独特性的同时,统一主要与特征提取相关的初始层。这种方法确保了所有层参数的一致性,这对于提高性能至关重要。此外,它有助于知识的无缝整合,从而实现不同数据集和任务的有效模型合并。
具体而言,作者在无监督域自适应(UDA)中研究了这种方法的应用性,这是模型合并尚未探索的领域,用于语义分割和全景分割。实验结果显示,无需额外成本就能将来自不同数据集的相同架构模型合并(提高2.6% mIoU)和具有共享后者的不同架构模型合并(提高6.8% mIoU)。
此外,将语义和全景分割模型的mPQ提高了7%。这些发现已经在各种UDA策略、架构和数据集中得到验证。
1 Introduction
无监督域自适应(UDA)旨在训练来自源标记领域可以泛化到无标签目标领域的模型,这对由于捕获难度或高标注成本(如语义或全图分割[1])而导致标注数据有限的任务至关重要。因此,自动标注的合成数据集成为了源领域分割任务的诱人替代方案。尽管UDA在各种计算机视觉任务上取得了显着的成功,但UDA用于分割任务通常面临着不稳定的训练且往往低于监督模型。在这种情况下,师生蒸馏被视为提高UDA训练稳定性的标准技术,尽管它会由于在训练过程中推理教师和学生而增加成本[16, 17]。
模型融合作为一种克服师生计算开销的有前途的技术应运而生,因为它只需要直接合并参数的一个模型推理。早期关于模型融合的研究主要集中在学习收敛,但随后的训练和正则化方法导致其兴趣逐渐衰退。后来,大型语言模型和自监督学习的出现使模型融合重新受到关注,因为它是利用不同来源知识的训练免费机制。最近的方法主要将模型融合应用于同一或不同数据集和架构获得的相同或不同训练过程的预训练权重模型,以消除额外的计算成本以进行集成训练和推理。然而,这些方法使用参数空间相近的模型,如分别从不同种子或不同微调版本获得的模型,将错误的模型层合并通常会导致明显的性能下降。因此,当前方法忽略了利用任务和方法不同的现有模型并进行组合的潜在优势。此外,作者据作者所知,模型融合方法尚未在UDA中进行探索和基准测试。
为克服上述缺陷,作者提出了一种新颖的层级合并方法,它利用了接近分类输出的较深层的特定优势和较浅层更广泛的泛化能力,使其能够有效地合并来自不同数据集和任务的模型。此外,作者认为在UDA的模型权重组合要比其在当前有限的上下文(如师生框架)中应用的范围更广泛(例如,将来自不同任务的不同模型组合[33]。为了评估作者的 Proposal 在语义和全图分割的Semantic和Panoptic Segmentation方面的效果,作者通过实验尝试了各种基于同一或不同数据集和架构的模型合并方法。作者的实验还解决了两个挑战。第一个挑战是为了将高但计算成本高的模型集成到较慢但更准确的模型中。
作者的 Proposal 在性能提高3.25倍时增加了速度,而在mIoU中增加了+6.8%[34]。第二个挑战是将来自较易任务模型的性能转移到较难任务。作者的 Proposal 在语义和全图分割的mIoU中分别增加了+3.4%和+7%,与用于语义和全图分割的最先进的UDA方法相比[33]。作者的结果在多个UDA合成到真实集成的设置中得到了验证,包括对抗、自训练和最小化熵在内的多种策略,架构(卷积和Transformer)和数据集(Cityscapes和Mapillary)[35]。
作者的主要贡献可以总结如下:
(1):引入了一种新颖的方法,可以无成本地合并现有可用预训练模型,而无需进行额外训练成本。
(2):在跨任务模型合并方面,将具有共享参数的不同任务设计的模型进行合并。
(3):对无监督域自适应的模型合并进行了广泛的研究,涵盖了多种模型、策略和数据集。
2 Related Work
无监督域自适应(UDA)已在语义和全光分割等领域得到广泛探索。基于深度学习的策略专注于使用统计指标,如最大均方差,相关对齐或最小化熵来最小化源端和目标端之间的差异。另一种方法是通过在生成对抗网络(GAN)框架内学习域判别器[43]来实现域不变输入,特征或输出。最后,自我训练根据使用置信阈值[51, 52, 6]或伪标签原型[53, 54]来为目标域生成伪标签。
最近,利用Transformer的方法正在解决嘈杂的训练和概念漂移[55, 56]问题,通过结合一致性正则化来确保在多样化的数据增强[59, 60],不同的裁剪,域混合或顺序学习的均匀性。目前,提高鲁棒性主要由教师-学生框架主导[21],其中教师模型通过学生权重的指数移动平均更新。尽管这个框架有效,但它增加了额外的计算成本,限制了其在大规模资源和有限环境的可扩展性和实用性。
在神经网络训练方法演变之前,初始模型权重平均在一定程度上通过解决慢速算法和 poor收敛率来提高了加速训练。然而,训练策略的演变导致平均效果在线性问题[31]上减弱,迫使其转向输出集成和微调策略。输出集成结合多个模型[66, 67]的预测。微调技术调整预训练模型权重,只需要最小程度的训练即可实现更好的任务适应性,从而提高转移性和泛化性。研究表明,较深的模型层包含特定任务的滤波器,而较浅的模型层包含通用任务的滤波器,因此对后者进行最小程度调整往往可以获得最佳性能。因此,具有特定层的模型融合方法对于实现有效组合至关重要。
将模型权重合并。当前合并方法可以在训练期间 或 post-训练 中应用。标准的等向量合并提供了一种直接合并模型的简单方法,即通过将它们的平均值进行合并。然而,使用基于性能加权平均模型参数的方法优于等向量合并,在不同的任务中表现更好 [20, 24]。此外,一些 Proposal 通过使用模型参数在训练数据上的费希尔信息来为层级权重分配 [24]。然而,这种合并方法未能结合批量归一化(BN)均值和标准差参数,因为它们不是通过梯度下降计算的。此外,这种合并策略忽视了模型的体系结构,可能导致不同模型层级的贡献无效。
此外,权重重排方法 [27, 29, 30]试图通过在不同初始化下将模型权重对齐来改进权重组合。这种策略利用了不同模型在数据集上的损失景观来学习一个在权重对之间按相似信息对模型进行排列的变换 [30]。然而,这种排列对于合并来自不同数据集的模型来说不适用,因为它们的损失景观预期会不同 [27]。在UDA的背景下,权重排列方法不适合,因为损失景观在不同域之间不同。此外,由于模型通常被初始化为使用ImageNet预训练的权重,因此模型的前几层预计需要对齐 [21, 22]。表1比较了作者的合并方法与替代模型合并方法。请注意,输出集成将不同模型的预测结合起来。因此,在推理阶段,每个模型都需要生成一个预测,从而大大增加了推理成本,因为这不是基于权重的模型合并方法。
UDA中的模型合并。UDA中的模型输出集成是提高不同视觉任务间性能的通用机制 [16, 17, 72, 73]。这些集成可以直接应用于验证 [72, 73],也可以在训练中作为知识蒸馏机制来生成可靠的伪标签,以训练学生模型。
3 Layer-wise model merging
作者提出的方案依赖于先前的研究来进行微调[22, 26, 69, 70]。通过将微调前后的权重与特定任务进行比较,建议模型中的深度层包含任务特定的滤波器。与此同时,浅层代表任务无关的滤波器,应该进行较少的调优以获得最佳性能。作者的工作基于这个假设,定义了一个层级的参数合并,早期层以统一的方式合并,因为他们编码了通用的知识,并且他们的平滑应该提供更稳健的特征。同时保留最后几层,以便在合并后保留任务特定知识。
以下子节详细介绍了作者方案的假设,针对UDA设置探究这个假设,并提供了模型合并的定义。
Preliminaries
本文中,作者定义神经网络的架构为层及其在网络中的特定排列连接。模型指的是经过特定数据集和特定训练策略训练后得到的该架构。作者进一步区分模型的 Backbone (backbone)和分类头(classification head):Backbone 包括初始和中间层,这些层负责特征提取,而分类头包括设计用于特定任务和特定类别最后几层。
用 M 表示训练好的模型的数量,每个模型都有其专属参数,用 θ 表示,包括 θ 1,…,θ i,…,θM。作者假设每个模型可以表示为多个层,其中 θj 是第 i 模型的第 j 层参数。初始和中间层组成了 Backbone ,而模型的最后几层对应分类头,这是专门针对特定任务的。
作者遵循相关工作中的假设,在合并处理开始之前可以访问模型的性能指标。此外,作者的方法假设可以利用预训练模型,这与当代实践一致,即基于基础模型,在大数据集上进行广泛预训练可以提供一个坚固的起点,以便适应各种任务[74]。最后,作者假设在进行合并的所有模型都进行了相同的预训练,以共享参数,以确保未来的对齐[24]。尽管不同的训练方案存在差异,但模型的共享参数应该在参数空间中保持相对接近,类似于[24]。
Exploring heterogeneity of models in UDA
本文分析了两种类型的模型变化:在整个训练周期内保持一致的模型(预训练权重训练场景)和通过不同的策略形成不同模型的模型(异质训练场景)。图2说明了模型参数的层到层差异,包括卷积参数(_weights_和_biases_)和批量归一化参数(mean_和_variance)。差异被测量为相对的绝对欧几里得距离超过一个特定阈值的参数数量:。
在对预训练权重(见图1(a))的分析中,作者观察到参数分析的各种行为。总体上,卷积参数主要在分类头(即最后的层)中发生显著变化。另一方面,_weight_参数在背(即第一和中间层)的训练过程中轻微变化。这一发现与训练过程一致,该过程将学习率分配给分类头比背(即第一和中间层)大10倍[8,9,10,11]。因此,预期头参数会发生比背参数显著的变化,反映出它们适应特定任务。
相比之下,批量归一化参数(均值和方差)在训练的不同预训练权重中经历显著的变化。这些变化更为明显,并不明显地与卷积层的微小变化一致。这一观察表明UDA中的这些参数相对地与学习参数不太对齐。同样,UDA方法之间的差异(见图1(b))也出现在模型的最后一层和批量归一化参数中。这些发现表明模型的一开始应该以不同于最后一层的方式进行合并。
图2中的发现表明,有效的模型合并应考虑背部和 Head 模型的不同功能。背部的通用参数需要仔细地与 Head 参数合并以保持跨任务的特征提取能力。分离合并背部和 Head 参数可能会因破坏它们参数空间的一致性而产生次优的结果。
基于这些发现,作者提出了一种简单的方法,其与假设一致,即最终层应保持不变,同时保持初始层的统一加权合并。而且,加权合并必须具有背部和 Head 参数的一致性。
How is model merge conducted
作者认为,可以利用不同的训练策略或多个共享一组参数的预训练权重 来训练(M)模型。为了实现合并,作者首先从要合并的(M)模型中选择一个 Anchor 模型 ,该 Anchor 模型将为合并提供知识的主要贡献。
How is inference conducted with merged models.
如图1所示,基于权重的合并技术没有额外的推理成本。这是因为模型在预训练权重 Level 上计算并存储,可以以任何其他模型预训练权重的形式加载。因此,在推理阶段,输出集成模型使用以下公式:,而作者的模型使用:。
4 Experimental Exploration
Experimental setup
数据集作者使用流行的UDA数据集进行语义分割和panoptic分割:GTA[76]和Synthia[77]作为源数据集;Cityscapes[1]和Mapillary[78]作为目标数据集。GTA是一个合成数据集,包含由游戏Grand Theft Auto V产生的25K张图像,与Cityscapes共享19个类别。Synthia是一个包含不同合成城市景观数据集的集合,作者选择其子集SYNTHIA-RAND-CITYSCAPES,该集合包含9.5K张图像,与Cityscapes共享16个类别。Cityscapes是一个真正的数据集,由使用汽车内部相机在驾驶过程中录制的城市景观生成。它包含3K张用于训练的图像和0.5K张用于验证,有19个标注类别。Mapillary 是一个其他真正的城市景观数据集,它包括18K张和2K张的训练图像和验证图像,以及152个标注类别。
评估指标对于语义分割,作者使用类别平均交并集(mIoU)[79],将模型预测与地面真理标签进行比较。IoU在像素 Level 衡量真阳性(TP)、假阳性(FP)和假阴性(FN)之间的关系:(IoU=TP/(TP+FP+FN))。对于panoptic分割,作者采用平均分割质量(mSQ)、平均识别质量(mRQ)和平均panoptic质量(mPQ)[80]。mSQ衡量预测分割与地面真理的接近程度,mRQ相当于F1分数,而mPQ将RQ和SQ结合:PQ=SQ*RQ在类别层面上。
应用于图像分类和目标检测数据集:作者使用 Office-31[81]和Office-Home[82]数据集来验证作者的 Proposal 在图像分类上的应用。Office-31 数据集包含4600张图像,包括三个领域中的31个物体类别。Office-Home数据集包含15500张图像,来自四个领域中的65个类别。此外,作者还使用UDA设置将 Cityscapes[1]应用于Foggy Cityscapes数据集[83]进行目标检测。Foggy Cityscapes是一个合成雾天数据集,模拟真实场景上的雾。每个雾天图像都使用了从 Cityscapes 获得的澄清图像和深度图。因此,Foggy Cityscapes的标注和数据分裂继承了 Cityscapes。
Merging of models trained with same dataset and architecture
本文探讨了在语义分割任务中,同一数据集和架构下训练的模型的合并方法。作为合并方法,作者比较了等距排列的Isotropic [18, 23],Fisher [24],输出集合 [67]以及作者提出的基于卷积架构的分层合并与不同的UDA策略(Advent [8], MinEnt [8], FADA [9], MaxSquare [10]和AdaptSegNet [11])和Transformer架构(DAFormer [3], HRDA [4], MIC [5]和PiPa [84])。
同一UDA策略的合并模型。 来自同一UDA策略的合并模型在概念上类似于UDA中的老师模型更新方案。然而,没有人已经量化合并预训练权重或分析不同的合并方法的实际优势。参考[18, 32],预训练权重选择过程确保了代表性和平衡的预训练权重抽样。具体而言,作者在训练过程中以均匀间隔选择预训练权重。作为作者的预训练权重合并策略的 Anchor 点,作者使用最后的预训练权重。图3比较了与Isotropic和Fisher的替代方案合并训练预训练权重的结果,每个预训练权重来自总训练迭代(即,共有4个预训练权重)的四分之一。然后通过逐步使用保存的预训练权重进行多次合并。模型合并考虑合并最终模型权重(即,预训练权重数量等于1)以及训练过程中的预训练权重。由于UDA策略倾向于呈现噪声训练轮廓,预训练权重合并旨在提供一个更稳健的模型,该模型利用了训练过程中的所有知识。
图4展示了作者最佳分割结果对于合并GTA-to-Cityscapes设置的预训练权重,与顶级方法MIC [5]的比较。请注意,最先进的算法在目标领域的空间鲁棒性输出方面存在困扰。在这里,汽车阴影或地表纹理的 segments 错误。值得注意的是,作者提出的模型合并提升了原方法的一致性,这是通过利用之前预训练权重的模型状态来实现的,训练和推理过程不变。因此,在训练和测试过程中不降低性能,改进结果,而训练和推理过程保持不变。
不同的UDA策略。
表2总结了在不同UDA训练策略下,Transformer和CNN模型的合并方法在五个UDA训练策略下的性能比较。这种对从优到劣排名的实验验证在文献中采用,以评估性能增强和计算效率之间的权衡 [23, 72]。值得注意的是,所有比较方法在合并更多模型时,性能降低。然而,作者的建议通过始终最小化此下降而区分自己,它是最能显著提高单个模型性能的方法。这表明在集成性能下降时,所提出的合并策略的稳健性。
表2还表明,使用不同UDA策略训练的模型的合并提供了比预训练权重合并更好的性能。具体而言,基于CNN的框架(8, 9, 10, 11)优于最使用的模型(9)。同时,Transformer基于的模型大多数是从[4]构建的,相邻的模型之间存在微小的偏差,解释了类似合并方法的性能。然而,随着方法的增加,作者的合并是唯一能够保留 Anchor 点模型知识的合并方法。
模型合并改进了 Anchor 点模型的性能,无论选择哪种模型 在表3中,作者比较了合并在多种合并方案、UDA方法以及不同选择 Anchor 点模型的结果。值得注意的是,无论采用的方法如何,合并都改进了原始方法的性能。然而,不同类型的UDA方法的组合(如对抗性[9]和熵最小化[10])的性能优于类似UDA方法的组合(如两种对抗性方法)。
探索合并参数。
在开发作者的框架过程中,作者做出了两个设计决策:首先,确定用于按层分配权重的最优开始层和权重,作者进行了如图4(a)所示的实验。这幅图展示了在不同的层 Level 上按权分配两个模型时权重分布的不同。此外,图4(b)表明,在后期引入权值调整会影响目标数据集上的性能。相反,作者的层 Level 合并技术在各种开始层下在源域上的性能保持稳定,表明作者的层 Level 合并技术主要增强了目标数据集的结果。
其次,作者表现在不同权重的初始层对结果的影响如图4(c)所示,该图展示了合并两个具有不同初始权重的模型结果,定义为 ,其中 值为0.5,表示等权重方法,能够获得目标域上的最高性能。
这种各向同性的合并策略,在本文的主体部分中进行了比较,显示了初始层中平衡权重分布的有效性。
根据这些实验,作者得出结论:源数据集的损失不能可靠地预测目标数据集的性能。这一观察解释了Fisher合并在合并UDA模型时的无效。
Merging of models trained with different segmentation heads.
本文段探讨了使用不同分类头的语义分割模型与共享backbone的多个模型融合的方法。这一头差异可能是由于训练数据集中类别数量的变化,从而更改了最后一个分类层,或者是由于分类头架构的不同。表4汇总了进行的实验。
图5:深度分析DeepLabV2架构上的相反对抗性[9]和熵最小化[8]方法的堆叠层[75]。
相同头,不同类别数量。表3(a)呈现了在HRDA架构上合并GTA和Synthia数据集的结果,这些数据集具有不同的类别数量(具体为19和16)。由于以前的解决方案不适合将来自不同数据集的模型进行合并,因此作者的层间合并是唯一能够在既产生分割模型又比各自模型更优的情况下解决这一问题的解决方案。
不同头架构。表3(b)考虑了具有相同backbone的模型合并,但具有不同的语义分割头。它展示了合并DAFormer和HRDA架构的结果,其中只有共享参数用于合并,而特定架构的层保持不变,遵循Fisher协议[24]。作者的方法是唯一能够提高性能的,与替代方案相比(最多+70.2 mIoU的差异)。这一结果可以预期,因为替代方案没有专门用于在参数空间合并距离模型,尤其是具有变化的分类头。
Potential benefits of model merging on different architectures
在本文中,作者提出了从不同架构合并模型的两个强优势:将高性能架构中的模型合并到更不精确但速度更快的架构中,并将一个较容易的任务的知识转移到一个更困难的任务中。
将高性能架构中的模型合并到更不精确但速度更快的架构中 表5展示了将HRDA(高性能模型),合并到DAFormer(较浅的架构)。作者的层对合并实现了73.0的mIoU值,同时保持相同的推理速度,因为没有包括额外的参数。这展示了作者方法在结合不同架构优势的潜力。
在任务间转移知识 另一种可能是将来自语义分割的模型与来自全景分割的模型进行合并。具体来说,表6呈现了将HRDA(语义分割)合并到EDAPS(全景分割)的结果。结果模型在所有指标上都得到了提升:在全景分割模型中,mPQ指标提高了+2.9,mRQ指标提高了+3.0,mSQ指标提高了+1.4。图6定性对比了作者的模型与EDAPS之间的分割能力。具体来说,作者的模型能够检测到的实例比EDAPS多(第一和第二行分别是公交和骑行者),同时在相近的类别间(第一、三和四行分别是公交和汽车)的混淆程度较小。
4.5.1 Merging of models on image classification and object detection
表9总结了在不同UDA方法和任务中,通过分层模型合并所得到的结果。请注意,作者在合并时使用训练过程中的预训练权重,因此在此过程中既没有在训练时增加额外的计算成本,也没有在评估时增加额外的计算成本。
5 Conclusions
在本文中,作者在UDA背景下研究了将模型合并方法应用于组合不同模型参数的就业问题。此外,作者提出了一种考虑架构层深度特定性的合并模型方法。
作者的 Proposal 可以轻松地集成到其他UDA框架中,因为它只使用模型预训练权重,或者可用于使用相同架构但训练不同的模型进行合并。
需要注意的是,层次化的模型合并在训练和推理方面的计算都是免费的。作者在全面评估中提供了不同的比较方法,以突出模型合并的潜力以及作者的层次化合并取得的显著性能改进。
例如,在Synthia-to-Cityscapes语义分割和泛视分割基准测试中,分别提高了最先进性能的2.3和2.9(以mIoU为单位)。作者希望,由于其对性能的影响和训练免费的性质,UDA研究者可能在其框架中引入模型合并。
参考
[1].Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)