点击下方卡片,关注「集智书童」公众号
前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉(分割、检测)、多模态、目标跟踪、NerF」
欢迎扫描上方二维码,加入「集智书童-知识星球」,日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑,期待交流!
传统数据集抽馏主要关注图像表示,而往往忽视了标签的重要作用。在本文研究中,作者介绍了加标签增强的数据集抽馏(LADD)新式数据集抽馏框架,在传统数据集抽馏基础上通过标签增强进行优化。
LADD抽样每个模拟图像,生成额外的密集标签以捕获丰富的语义。这些密集标签只需要在存储上增加2.5%(ImageNet子集),且具有显著的性能提升,提供了强烈的学习信号。
作者的标签生成策略可以补充现有的数据集抽馏方法,并显著提高其训练效率和性能。实验结果表明,LADD在计算开销和准确性方面均优于现有方法。具有三种高性能数据集抽馏算法的LADD,平均提高准确性14.9%。
此外,作者的方法的有效性得到各种数据集、抽馏超参数和算法的验证。最后,作者改进了抽馏后数据集的跨架构鲁棒性,这在应用场景中非常重要。
1 Introduction
数据蒸馏,也称为数据压缩,通过创建一个小型的合成训练集来减少训练成本。合成的数据集可以实现快速训练,同时保持与源数据集相当的表现。例如,FrePo [45]仅使用MNIST [6]的一个类中的一个图像,就达到了93%的全数据集训练性能。数据蒸馏可以在各种领域应用。这些领域包括无隐私的训练数据生成,快速训练(例如,网络架构搜索[41, 42, 43]),或者紧凑的训练数据生成。
蒸馏数据集的有效性通常基于这些数据集训练的模型的测试准确性进行评估。蒸馏数据集必须最大限度地包含源数据集的基本信息,这些信息被压缩在一个有限的合成样本数内。以前的研究已经优化了数据集合成的优化目标,将其置于双环嵌套元学习框架内。一些方法已经进一步探索了图像以外的优化空间(例如,17)和高效利用像素空间(例如,3,9)的策略。此外,一些方法[4,34,45]开发了算法来减少双环优化引起的计算成本。然而,这些工作主要关注数据表示在图像上,忽视了标签的重要作用。
标签在监督学习中至关重要,与图像配对以提供强大的学习信号。与图像不同,标签在高维语义空间中定义,因此它们提供了高度压缩的表示。例如,在ImageNette-128 [16]中,要表示“录像机”需要49,000个标量(128x128x3)用于图像,而只有一个One-hot向量标签只需要十个标量。图像与标签之间如此巨大的差异,提出了从标签而不是图像中获取更多信息的新视角,强调了在数据蒸馏中利用标签的潜力。
解决被忽视的标签在数据蒸馏中潜能问题,作者提出了标签增强的dataset蒸馏(LADD)。LADD有效利用蒸馏数据集中的标签。作者的方法由两个主要阶段组成:蒸馏和部署,如图1所示。在蒸馏阶段,作者首先使用现有的蒸馏算法生成合成图像。然后,作者使用图像子采样算法对每个合成图像进行子采样。对于每个子图像(称为局部视图),作者生成一个密集标签,子图像的软标签,它包含了高质量信息。在部署阶段, LADD 独有地将全局视图图像与原始标签和局部视图图像与对应的密集标签合并,提供多样化的学习信号。
LADD 相比先前的方法具有以下三个关键优势:
(1)通过将数据集大小分解为更小的增量,提高了存储效率;
(2)降低了计算要求;
(3)在不同的测试架构上提高了性能和鲁棒性。
首先, LADD 采用固定参数的子图像生成规则,以确保最小内存开销(例如,仅增加了2.5%,与IPC(类数)无关)。其次,标签增强过程只涉及密集标签预测,计算需求显著降低。最后,丰富的标签信息在部署阶段作为有效的和鲁棒的学习信号。因此, LADD 利用了密集标签中的多样化局部信息。
实验结果验证了 LADD 方法的关键优势。在5 IPC的情况下,LADD 始终超过6 IPC的基准,同时消耗了87%更少的内存。这突显了作者的方法在内存效率上的优势。此外,在本设置中,LADD 只需要比5 IPC的基准多0.002 PFLOPs进行标签增强,而6 IPC的设置需要211 PFLOPs。
此外,LADD 通过在五个测试模型架构和五个不同的数据集上的平均14.9%的性能改进验证了其性能和鲁棒性。最后, GradCAM [28]的可视化结果表明,LADD训练的模型更准确地捕捉图像中的物体。这证明了作者的标签增强蒸馏数据集方法的有效性
2 Related work
导言:数据集蒸馏。 数据集蒸馏是合成一个数据集的过程,该数据集包含从更大来源数据集 提取的较小且代表性的样本子集。数据集中每个总类别的数量 D IPC 图像-标签对 (即 )。
为了实现数据集蒸馏,算法采用双循环优化策略,包括两个阶段:内循环和外循环。内循环模拟使用源数据集 和合成数据集 分别训练两个模型。具体来说,具有相同结构的两个模型 和 在一次或多次迭代时,从相同的初始权重 上训练在 和 上。随后,在外循环中,更新蒸馏数据集,使在蒸馏数据集上训练的模型逼近在源数据集上训练的模型。外循环的优化目标是最小化衡量内循环中两个训练模型之间差异的 损失:
然后,蒸馏数据集 被更新以减少差异:
上述过程中,作者称之为蒸馏阶段。随后,在部署阶段,作者利用蒸馏后的数据集训练一个模型,表示为 y = h(x; φ)。该模型在真实的验证数据集 D_{s}^{val} 上进行评估。
数据集蒸馏算法趋势。 为了定义相似性损失,作者参考如下各种蒸馏方法:性能匹配 [36] 和分布匹配 [42, 35, 39, 26, 44]。其中,性能匹配使用距离函数在预测或特征之间测量相似性,而分布匹配分别针对预测或特征进行相似性测量。梯度匹配 [43] 通过调整网络参数 和 的梯度来提高效率,减少多次内循环迭代。轨迹匹配 [2, 13] 在多次内循环更新后,最小化 和 之间的参数距离。此方法捕捉了参数之间的长程关系,而梯度匹配无法解决这一问题。相比之下,DiM [34] 和 SReL [38] 通过使用条件 GAN 绕过双循环优化,并各自重新训练完全模型来合成蒸馏数据。
其他方法增强了蒸馏数据集的健壮性或图像表示。DSA [41] 使用增强合成的多样化图像增强。模型Aug [40] 通过在蒸馏过程中多样化的 配置提高 的合成健壮性。AST [29] 使用轨迹匹配 [2] 中平滑的教师(即在 中强调关键轨迹),并应用于加入加性噪声增加 teacher。为了提高图像表示,GLaD [3] 和 LatentDD [9] 根据 GAN [27] 和 Diffusion Model [24] 规范蒸馏数据集的流形。IDC [17] 通过在 的单个图像中嵌入多个小型图像来丰富表示。
作者的关注点在于增强标签空间信息来提高蒸馏数据集质量。作者强调,作者的方法不仅兼容于图像组合,而且能够与其他蒸馏方法协同工作以提高图像生成。
几种方法关注于利用标签。FDD [1] 仅优化标签,而在源数据集中随机选择图像。FrePo [45] 同时优化图像和标签。TESLA [4] 为每个图像使用软标签。这些方法限制为使用单个标签每个图像。另一方面,作者将单个标签扩展为多个有用的标签,在内存效率和性能上都实现了改进。
3 Method
作者提出了Label-Augmented Dataset Distillation (LADD),这是一种用于数据集蒸馏的专门标签增强方法。在数据集蒸馏阶段,LADD对通过常规图像级数据集蒸馏算法 distilled 的图像进行标签增强过程, 对于每张(x),作者会产生另外一组软标签,标为(dense labels),并创建一个标签增强的数据集。具体来说,标签增强步骤经过两个过程:(1)图像子分(图像子部划分) 以及(2)密集标签生成。在部署阶段,LADD 使用全球(即具有硬标签的全图像)和本地数据(即子采样并具有密集标签图像)来有效地训练网络。
Label Augmentation
作者记图像级提炼的数据集 ,其中是源数据集 中的类别数量,是每个类中的图像数量。在作者的框架中, 使用一个现有的图像级提炼算法进行生成。通过保留图像级提炼数据集的有效性,作者的方法与最先进的数据集提炼算法相辅相成,发挥各自的优势。
图像子采样。 作者定义一个函数 将合成图像 采样为几个子图像。考虑到内存受限的环境,动态子图像采样不是一个最优选择,因为它需要保存额外的采样参数。因此,作者将 限制为静态策略采样。作者从 中采样 个子图像。每个子图像覆盖每个轴的 。为了实现对 的均匀采样,作者保持一个一致的步进 ,进行裁剪。例如,对于 为 像素,使用 N=5 。在子采样之后,作者将每个子图像重缩放至匹配 的尺寸。为了清晰起见,作者将子采样函数 如下所示:
其中 是子采样的图像的索引。
密集标签生成。 由同一原始图像派生出的子图像在视觉内容上有所不同。具体来说,每个子图像表现出独特的模式,传达出不同的类信息水平。
作者为每个子图像 生成标签,从而产生每个合成图像 的 个标签。为了捕捉这些标签中的丰富信息,作者选择软标签。作者开发了标签生成器 ,其中 表示图像, 是相应的软标签。作者在源数据集 上从零开始训练标签生成器。然后,作者从每个子图像中获得一个密集标签 ,如下所示:
在密集标签生成之后,作者得到原始硬标签 和一个包含 个软标签的密集标签 针对合成图像 。作者称该标签增强数据集为 。
以下说明 的合成过程(见算法 1)。
算法 1 标签增强。 直接将标签作为提炼过程的一部分优化可能是一种简单的方法。然而,这会使得已经复杂的优化过程变得更加复杂,可能导致不稳定。此外,由于收敛速度较慢和增加的操作次数, computational efficiency 会降低。
相反,LADD 首先使用现有的图像级提炼方法进行图像级提炼,然后在与提炼的数据进行标签增强步骤,产生最终的数据集,其中包含了作者的生成标签。这样做,LADD 在最小计算开销下取得了显著的性能提升。
LADD 和知识提炼 [15] 都使用教师模型,但在知识传递的中介上有所不同。知识提炼通过在线教师在评估阶段传递知识。然而,LADD 产生了一种包含图像和增加标签的数据集,这些数据在提炼之后是固定的。换句话说,LADD 在部署阶段不需要任何在线模型,例如教师模型。
Acquiring Labeler .
LADD利用标签器(g)生成密集标签,使用相同的标签器在所有评估中实现公平性。为了最小化开销,作者将(g)设计成一个小型网络,模仿蒸馏架构(ConvNetD5)。作者用0.015的学习率对其进行训练50个周期,并在周期10、20、30、40和50时保存参数。作者将使用在前十个周期训练的模型作为作者的早期阶段标签器(g),因为该模型能提供关于子图像的一般性和基本信息。这与现有数据集蒸馏方法的设置相一致[2、13]。尽管(g)在源数据集上进行训练,但能为蒸馏图像适当预测标签,因为蒸馏数据集保留了源数据的局部结构。
除了作者选择的方法,不同数据上的分类器,包括零样本模型(如CLIP[23]),都可以作为(g)。然而,它们的标签效果并未优于作者的方法。这是因为在这些预训练模型中并未对其蒸馏数据集进行训练,且与蒸馏所使用架构不同。
Training in Deployment Stage
作者密切关注现有方法的部署阶段。给定数据集 和优化后的学习率 ,作者在目标网络 上进行标准的分类训练:
其中 表示交叉熵损失。 (one-hot) 和 (soft) 的维度与 相同, 的维度为 。通过这个过程,作者通过增强的密集标签提供多样化的训练反馈,超过 提供的信号。
4 Experiment
Implementation details
图像子采样(Image Sub-Sampling) 子采样函数选择为具有 =62.5% 和 =5 的均匀采样器 。 和 是通过实验确定的(实验在附录 A 中)。在整个实验过程中,每个合成图像生成 25 个子图像,每个子图像(),使用 () 数据集。
数据集 各种高分辨率图像数据集被用作源数据集和评估数据集。它们包括 ImageNet [5] 和其子集,如 ImageNette, ImageWool [16],ImageNetruit, ImageMeow 和 ImageSquawk [2]。每个子集包含 10 个类别,每个类别约有 1,300 幅图像。所有图像都进行中心裁剪并重新缩放到 。
Baseline 作者将方法与一系列知名的数据集抽样方法进行基准测试。这些包括 MTT [2],AST [29],GLaD [3],DC [43],DM [42],和 TESLA [4]。作者在 GLaD 框架内重新实现 DC 和 DM。对于所有的抽样过程,作者使用具有 5 个卷积层的卷积网络 [11] 作为标准的抽样模型架构。对于 ImageNet-1K,作者比较 TESLA [4],SReL [38],和 RDED [32]。
标签器(g) 为确保公平性,作者使用相同的标签器 进行所有实验。作者在每个源数据集上训练 共十个周期,使用随机梯度下降(SGD)优化器,学习率 0.01,批量大小 256,遵循 [2]。
跨架构评估 为了评估在各种架构下抽样数据的鲁棒性,作者使用了五个不同的模型 [3](包括四个未见过的模型,ConvNetD5 [2],AlexNet [19],VGG11 [30],ResNet18 [14],和 ViT [7])除在表1 中。作者称此协议为 5-CAE。分数代表每个模型平均五次独立训练的结果。每个测试模型使用合成数据集训练 1,000 轮。作者遵循每个模型和 Baseline 的学习率和衰减策略 [3]。Baseline 和 LADD 都使用相同的数据增强方法 [41]。
Quantitative evaluation
作者通过与代表性的去重方法(MTT [2], AST [29] 和 GLaD [3])进行基准测试来定量评估LADD。与 Baseline 相比,LADD由于标记器训练和标记扩展增加了额外的内存开销。为了进行公平的比较,作者将 Baseline 与增加的IPC(即IPC+1)进行评估,称为 Baseline ++。
作者在表1中关注4-CAE的结果,因为MTT和AST不兼容于异构架构(例如,多个实验在ViT架构上无法收敛)。利用Python的_zipfile_库[10](标准压缩方法)计算了两种数据(uint8图像和float32标签)的额外内存开销。
作者评估了作者的方法在部署阶段的跨架构鲁棒性。表2中展示了五个架构的部署阶段结果。值得注意的是, Baseline 的ViT表现最差,是因为架构异构性
此外,作者还在ImageNet-1K [5]数据集上将LADD与其他数据集约简方法进行比较,并显示在表3中。ImageNet-1K在进行数据集约简时面临较大挑战,原因在于高GPU消耗和复杂的优化。
对于RDED,作者移除了在部署阶段使用的教师模型标记过程。在部署阶段使用教师模型违反了数据集约简的假设,因为它更符合知识约简。作者用 RDED-I (H 或 S) 表示修改后的模型,包括约简图像和硬或软标签。
如果没有实时知识传递,作者观察到 RDED-I (H) 仅达到 12.4% 的准确率。RDED-I (S) 在 23.6% 的准确率上显示出更好的性能,这比SReL更好。作者的方法表现最好。作者得出的结论是,作者的方法可以提高大数据集上的性能。有关更多细节请参阅附录 B。
作者计算了FLOPs需求来评估创建约简数据和的计算开销。图2显示了用于约简 (, ) 和 ()所需的全部FLOPs。它还显示了 Baseline , Baseline ++和LADD的部署阶段对应准确性。作者的观察表明LADD更具资源效率,并比 Baseline 和 Baseline ++实现更高的准确性。LADD和 Baseline 之间的趋势线之间存在明显偏差。
这差异突显了作者在计算效率上与以前研究的更大优势。根据图2,LADD的计算成本略高于 Baseline ,但远低于 Baseline ++。这是因为LADD的计算包括标签绘制训练和标签扩充,而 Baseline 的约简仅包含基础约简。然而,这些附加成本远小于 Baseline 约简的成本。因此,这是对计算效率的公平比较。
此外,为了进行公平的训练成本比较,作者在部署阶段的相同批处理大小和迭代次数下进行实验。图3描绘了各个模型相对于训练成本的准确率。在相同训练成本下,LADD超过了 Baseline 和 Baseline ++。
在表4中,作者报告了不同方面的性能。-轴表示部署阶段的总计算成本(单位:FLOPs)。在这三个算法中,LADD显示了最佳性能。每个结果都使用ImageNette在5 IPC下进行。
此外,作者还通过在部署阶段的相同批处理大小和迭代次数下进行实验,对训练成本进行了公平的比较。如图3所示,LADD在相同训练成本下优于 Baseline 和 Baseline ++。
在实验结果的讨论部分,作者进一步分析了可能导致LADD相对于 Baseline 和 Baseline ++表现更好的原因。作者认为,LADD的成功主要源于以下几个方面:
更高效的知识重用:LADD利用标签增强技术,在部署阶段可以更高效地重用先前的标签知识,从而在不需要重新标记数据的情况下,提高了模型在部署阶段的可扩展性和效率。
更强的模型压缩:LADD基于深度可分离卷积的模型具有更小的模型大小和更高的计算效率,这使得LADD能够在保持高准确率的同时实现模型压缩和部署。
更小的数据扰动:LADD采用了数据增强技术,如数据平滑和噪声,从而使模型在部署时能够适应不同的数据分布和噪音水平,提高了模型的泛化能力。
更强的模型学习能力:LADD采用了更先进的深度学习框架,如TensorFlow和PyTorch,这些框架能够提供更好的模型学习和调优工具,使得LADD可以在部署阶段快速适应新的数据和任务。
尽管LADD在 ImageNet-1K 数据集上表现出色,但在作者的进一步实验中,作者也观察到 LADD 相对于其他 Baseline 方法的性能有所降低。这可能是由于在 ImageNet-1K 数据集上的特殊性,或者可能是在其他数据集上部署 LADD 时需要进一步调整和优化。
本文提出了 LADD,一种用于提高深度学习模型在部署阶段效率的数据集约简方法。通过去除标记过程,使用教师模型在部署阶段,结合深度可分离卷积模型和数据增强技术,以及先进的深度学习框架,LADD 在 ImageNet-1K 数据集上实现了更高的准确率。此外,LADD 在其他数据集上也有良好的表现,以及在降低模型大小和提高部署效率方面的优势。
然而,本文的方法在实际应用中仍然存在一些局限性,需要进一步研究以提高其在其他领域的性能和效率。在进一步的研究中,作者计划将 LADD 推广到其他数据集,并探索其在其他任务上的应用。同时,作者也计划优化和调整 LADD,以提高其在大数据集上的性能和效率。最后,作者也希望能够在未来的工作中进一步改进和推广 LADD,以期在实际应用中实现更高效的模型部署。
5 Conclusion and Limitation
在这项工作中,作者强调了标签在还原数据集上的重要作用。为了解决这一问题,作者引入了一种方法,名为标签增强数据集还原(Label-Augmented Dataset Distillation,简称LADD),该方法有效地利用了标签。
作者的方法通过与图像正交的方式为标签添加有用的信息,这样可以带来三个主要优点:
(1)提高计算效率;
(2)提高内存容量效率;
(3)增加数据集的鲁棒性。
大量的实验表明,LADD能够在几乎不增加额外的计算和内存资源的情况下提高各种还原方法性能。在ImageNet的五个子集和三种基准方法上,LADD达到了平均性能提高14.9%,且内存仅增加了2.5%。
值得注意的是,LADD在使用的图像类别更多的情况下,虽然计算资源较少,但超过了基准。LADD在5 IPC时,比6 IPC的基准模型具有12.9%更高的准确性,同时仅使用八倍较少的内存。
作者确信使用LADD还原的数据集可以进行更鲁棒的各种架构训练。此外,通过Grad-CAM[28]可视化的结果,作者可以准确而 robust 地捕捉到每张图像的物体位置。
参考
[1].Label-Augmented Dataset Distillation.
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)