TPAMI 2024 | 利用先验引导知识改进快速对抗训练

科技   2024-10-04 10:05   中国香港  

点击上方小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

点击加入论文投稿、写作、阅读分享交流群

Improving Fast Adversarial Training With Prior-Guided Knowledge

利用先验引导知识改进快速对抗训练

Xiaojun Jia; Yong Zhang; Xingxing Wei; Baoyuan Wu; Ke Ma; Jue Wang; Xiaochun Cao


摘要

快速对抗训练(FAT)是一种在白盒攻击场景中提高鲁棒性的高效方法。然而,原始的 FAT 存在灾难性过拟合问题,这会在训练几个周期后突然且显著降低鲁棒性。尽管已经提出了各种 FAT 变体以防止过拟合,但它们需要较高的训练时间。在本文中,我们通过比较标准对抗训练和 FAT 的训练过程,研究了对抗样本质量与灾难性过拟合之间的关系。我们发现,当对抗样本的攻击成功率变差时,就会发生灾难性过拟合。基于这一观察,我们提出了一种正向的先验引导对抗初始化,通过在不增加额外训练时间的情况下提高对抗样本质量来防止过拟合。该初始化是通过利用历史训练过程中的高质量对抗扰动生成的。我们为所提出的初始化提供了理论分析,并提出了一种先验引导的正则化方法,以增强损失函数的平滑性。此外,我们设计了一种先验引导的集成 FAT 方法,该方法使用不同的衰减率对历史模型的不同模型权重进行平均。我们提出的方法称为 FGSM-PGK,结合了先验引导知识,即在历史训练过程中获得的先验引导初始化和模型权重。所提出的方法可以有效地提高模型在白盒攻击场景下的对抗鲁棒性。对四个数据集的评估结果证明了所提出方法的优越性。

关键词

  • 快速对抗训练

  • 先验引导

  • 知识

  • 训练时间

  • 模型鲁棒性

I. 引言

深度神经网络(DNNs)[21], [52], [69] 在许多问题和任务中取得了前沿的性能。然而,它们已被证明易受对抗性扰动的影响,这些扰动通常对人类观察者来说是不可察觉的 [17], [57]。对抗攻击场景可以分为黑盒攻击 [4] 和白盒攻击 [20]。在黑盒攻击场景中,攻击者不了解模型的内部结构,仅利用给定输入的模型输出生成对抗样本。在白盒攻击场景中,攻击者完全可以访问模型,包括其架构、参数等。白盒对抗攻击利用模型的特定弱点,生成更复杂和有害的对抗样本,这些样本很难防御 [3]。

此外,对抗攻击方法还可以分为目标攻击方法 [37], [61] 和非目标攻击方法 [10], [42]。目标攻击方法旨在生成对抗样本,误导DNNs将其分类为特定的错误类别。与目标攻击方法不同,非目标攻击方法并不针对特定的错误分类,而是简单地误导模型进行错误分类。非目标攻击方法更容易识别DNNs的弱点,通常用于评估模型的对抗鲁棒性 [8], [12]。因此,在本文中,我们专注于在白盒和非目标攻击场景下提高模型的对抗鲁棒性。

这种脆弱性对DNNs的敏感应用构成了重大的安全风险。为了解决这一问题,已经开发了大量的防御方法 [13], [27], [54], [68],以提高DNNs在对抗攻击下的对抗鲁棒性。标准对抗训练 [30], [41], [48], [60] 已被证明是增强DNNs在白盒攻击场景下对抗样本鲁棒性的最有效方法之一。然而,大多数方法采用多步对抗攻击,即投影梯度下降(PGD)[41],来生成用于训练的对抗样本。这种方法会导致显著的训练时间,从而限制了标准对抗训练的实际应用。



为了减少训练时间,快速对抗训练 [58] 被提出,该方法可以被表述为一个最小-最大优化问题,用于在白盒攻击场景下提高对抗鲁棒性。在内层最大化步骤中,使用单步对抗攻击,如快速梯度符号法(FGSM),生成对抗样本进行训练。然而,在仅仅几个训练周期之后,模型的鲁棒性突然丧失。这种现象被称为灾难性过拟合 [63]。为了解决这一问题,从不同角度提出了几种快速对抗训练变体 [2], [33], [55],以提高对抗样本的质量并防止过拟合。这些方法可以大致分为样本初始化 [31] 和正则化 [56]。它们不仅缓解了灾难性过拟合,还实现了前沿的模型鲁棒性性能。然而,与原始的FGSM-AT [58]相比,它们需要额外的高训练时间来提高对抗样本的质量。

对抗样本的质量在快速对抗训练中至关重要。在本研究中,我们探索了快速对抗训练和标准对抗训练之间对抗样本质量的差异,以理解灾难性过拟合的原因。令人惊讶的是,我们观察到在几个训练周期后,快速对抗训练和标准对抗训练之间的对抗样本的攻击成功率存在显著差异。具体而言,如图2所示,在训练一段时间后,快速对抗训练方法(FGSM-AT和FGSM-RS)中使用的对抗样本的攻击成功率突然急剧下降,同时模型的对抗鲁棒性也急剧下降。这一发现表明,灾难性过拟合与对抗样本的质量有关,即当对抗样本质量恶化时,快速对抗训练会出现灾难性过拟合。然而,PGD-2-AT(两步PGD-AT),可以看作是带有对抗样本初始化的FGSM-AT,不会遇到灾难性过拟合。这一结果表明,更好的样本初始化可以帮助快速对抗训练防止灾难性过拟合。

基于上述观察,我们提出了一个问题:是否有可能在不增加额外训练时间的情况下,获得对抗样本初始化,以提高对抗样本的质量并防止快速对抗训练中的灾难性过拟合。我们调查了一些快速对抗训练的样本初始化策略,发现更好的初始化可以提高对抗样本质量,防止灾难性过拟合。因此,我们提出采用先验引导的初始化,它是通过利用历史训练过程中的高质量对抗扰动生成的。具体而言,我们建议通过动量机制将所有先前时期的缓冲梯度作为附加先验,并基于历史对抗样本的质量以不同的权重累积缓冲梯度。

我们还将上述先验引导的样本初始化集成到快速对抗训练的最小化过程中,并提出一种简单而有效的正则化方法,以进一步增强模型鲁棒性。具体而言,所提出的正则化方法用于防止当前对抗样本上的学习模型输出与先验引导初始化的样本上的输出偏离太多。在最小化的优化步骤中,我们最小化由先验引导初始化和对抗扰动生成的两种对抗样本上的模型预测之间的平方L2距离。所提出的正则化项通过迫使学习模型对这两种对抗样本具有鲁棒性,提高了损失函数在样本周围的平滑性。

此外,模型权重平均(WA)[26] 先前被提出通过在训练过程中积累历史模型权重来提高模型泛化能力,而无需额外的计算开销。先前的研究 [9], [18] 表明,WA 可以显著提高模型鲁棒性。最近的几项研究 [48], [59] 也表明,结合WA可以提高标准对抗训练的鲁棒性。在本文中,我们研究了WA对快速对抗训练的影响,发现直接使用WA对对抗鲁棒性的改进有限。这是因为在快速对抗训练过程中,非鲁棒的模型权重也存在,可能会对最终模型的鲁棒性产生负面影响。为克服这一局限性,我们提出了一种先验引导的集成快速对抗训练方法,在训练过程中以不同的衰减率对历史模型的模型权重进行平均。

通过整合所提出的先验引导知识,即先验引导初始化和模型权重,我们总结了我们的快速对抗训练方法,称为FGSM-PGK。所提出的方法不仅能够有效防止灾难性过拟合,还能在白盒攻击场景下实现前沿的对抗鲁棒性,超越了最先进的快速对抗训练方法的性能。



我们的主要贡献在于以下五个方面:

  • 我们探索了几种快速对抗训练的初始化策略,发现优越的初始化可以防止灾难性过拟合。此外,我们提供了支持我们发现的理论分析。

  • 我们提出了一种具有不同权重的先验引导初始化,以进行快速对抗训练,提高模型鲁棒性。

  • 我们提出了一种简单而有效的正则化方法,用于先验引导初始化,以提高模型鲁棒性。

  • 我们提出了一种先验引导的集成快速对抗训练方法,通过对历史模型的模型权重以不同衰减率进行平均,以提高对抗鲁棒性。

  • 我们在各种网络架构和数据集上的广泛实验表明,所提出的方法以较低的额外训练时间优于最先进的快速对抗训练方法。

这篇文章是我们会议论文 [29](称为 FGSM-PGI)的期刊扩展版。与初步的会议版本相比,我们在本版中做出了重大改进和扩展。主要区别在于以下四个方面:

  1. 除了前一版本中提出的初始化的先验引导知识外,我们还考虑了另一种形式的此类知识:模型权重。我们将模型权重视为一种先验引导知识,并研究了权重平均对快速对抗训练的影响。我们的发现表明,由于快速对抗训练中存在非鲁棒的模型权重,直接使用权重平均只会导致有限的对抗鲁棒性改进。

  2. 为了克服这一局限性,我们在第 III-E 节提出了一种先验引导的集成快速对抗训练方法,以不同衰减率对历史模型的模型权重进行平均。此外,我们在第 III-C 节中提出了根据历史对抗样本的质量以不同权重累积缓冲梯度的方法,以防止灾难性过拟合并实现更好的对抗鲁棒性。

  3. 提供并讨论了更多的实验和分析,涉及与SOTA方法的比较、消融研究和性能分析。具体而言,我们在第 IV-C 节中添加了与不同先验引导元素的消融研究,并在第 IV-E 节中分析了性能的有效性。在第 IV-B 节中,还添加了最近在 TIP2022 中发布的一种 SOTA 快速对抗训练方法作为新的比较。

  4. 我们完全重写了摘要、引言、方法、实验和结论部分,以更全面地概述我们的动机和方法。此外,我们还重新设计了所有的图表和表格。

III. 方法

在本节中,我们在 III-A 节中展示了重新思考灾难性过拟合的观察结果。FGSM-AT 与几种样本初始化策略相结合的结果显示在 III-B 节中。我们在 III-C 节提出了一种具有不同权重的先验引导样本初始化,以增强快速对抗训练。因此,我们在 III-D 节提出了一种简单而有效的正则化方法来指导模型训练。此外,我们在 III-E 节中设计了一种先验引导的集成快速对抗训练方法,该方法使用历史模型的正模型权重。

A. 重新思考灾难性过拟合

Wong 等人 [63] 发现快速对抗训练在几个训练周期后可能遇到灾难性过拟合,即在训练的后期阶段,快速对抗训练突然失去对对抗样本的鲁棒性。这样,带有随机初始化的 FGSM-AT(FGSM-RS)可以在有限的训练周期内防止灾难性过拟合。Kim 等人 [33] 指出 FGSM-RS 在更多训练周期中训练仍可能遇到灾难性过拟合,并提出找到 FGSM-RS 的最佳攻击步长,以在快速对抗训练的不同阶段改进对抗样本的质量(FGSM-CKPT)。为了防止灾难性过拟合,Andriushchenko 等人 [2] 显式最大化提出的梯度对齐正则化,以提高对抗样本质量。Sriramanan 等人 [55] 在对抗样本的生成过程中使用最大边缘损失项,以生成更强的对抗样本。此外,Sriramanan 等人 [56] 还将基于核范数的正则化损失项添加到交叉熵损失中,以提高对抗样本的质量。

此外,Jia 等人 [31] 提出了采用生成网络来提升用于训练的对抗样本质量。这些方法表明灾难性过拟合与对抗样本的质量有关,并提高对抗样本质量以防止灾难性过拟合。但它们需要更多的训练时间。具体来说,FGSM-GA 通过在梯度上应用对齐正则化引入了较大的计算开销。FGSM-CKPT 通过多次前向传播找到最佳攻击步长。GAT 和 NuAT 在损失函数的内最大化中实现了所提出的正则化方法,以生成强对抗样本。而 FGSM-SDI 需要额外的训练时间来训练生成网络,大大降低了训练效率。因此,有必要在不增加额外训练时间的情况下提高对抗样本质量。

我们在不同的训练阶段比较了快速和标准对抗训练的中间特性,以重新调查灾难性过拟合。具体来说,对于快速对抗训练,我们采用了 FGSM-RS 和 FGSM-AT,这些方法可能严重遭受灾难性过拟合进行实验。对于标准对抗训练,我们采用了使用两次迭代的 PGD 攻击的 PGD-2-AT 进行实验。对抗训练和传统训练的核心区别在于对抗训练中存在一个内最大化优化问题,即对抗样本的生成。我们使用对抗样本的攻击成功率来评估对抗样本的质量,并观察整个训练过程中的对抗样本质量。攻击成功率和鲁棒性在几个基准数据集上的曲线如图 2 所示。

我们的观察结果总结如下:

  1. 首先,我们观察到在几个训练周期后,FGSM-RS 和 FGSM-AT 的攻击成功率急剧恶化,这导致鲁棒性急剧下降。这表明,如果用于训练的对抗样本不能攻击学习模型,模型可能会失去对抗样本的对抗鲁棒性。

  2. 其次,使用随机初始化可以延迟灾难性过拟合的发生。具体来说,在 CIFAR-10 上,使用随机初始化的灾难性过拟合被推迟到更晚的训练周期(20个周期 ⇒ 70个周期)。简单地实施随机初始化只能缓解灾难性过拟合,不能从根本上防止它。

  3. 第三,令人惊讶的是,PGD-2-AT 在整个训练过程中从未遇到过灾难性过拟合,这引起了我们的关注。我们可以将 PGD-2-AT 看作是通过 FGSM 攻击生成的样本初始化的 FGSM-AT。可以观察到,训练后期仍然存在一些高质量的对抗样本,这些样本能够成功攻击模型。这表明,使用更好的样本初始化可以获得更高质量的对抗样本。但这需要额外的训练时间,这对快速对抗训练是不理想的。

回想一下,FGSM 攻击生成的对抗扰动可以定义为:

其中 表示受约束的范数 。如果损失函数具有局部线性属性,即 下是常数,使用一步 FGSM 攻击可以找到对抗扰动的最优解。否则,FGSM 攻击无法找到最佳的对抗扰动,这可能导致灾难性过拟合,而多步 PGD 攻击具有额外的训练时间可以找到最佳的对抗扰动。这表明,灾难性过拟合与对抗样本的质量直接相关。我们可以从这一角度理解快速对抗训练变体的有效性。它们采用样本初始化和正则化方法来提高内最大化解的质量,即高质量的对抗样本。大多数方法需要额外的训练时间。本文中,我们探索了样本初始化策略,并提出了一种具有不同权重的先验引导初始化,以在不增加额外训练时间的情况下提高对抗样本的质量。

B. 样本初始化策略

基于上述观察,我们深入研究了“如何在不增加训练时间的情况下获得高效的对抗初始化?”的问题。受对抗样本可转移性的启发 [40],我们提出在训练过程中利用生成的对抗扰动来初始化当前 FGSM 基于的对抗样本。此类初始化扰动可被视为样本的先验知识。除额外的内存存储外,它们可以在不增加训练时间的情况下免费获取。具体来说,我们研究了三种利用先验引导对抗扰动的样本初始化策略,即采用前一训练批次的对抗扰动,前一训练周期的对抗扰动,以及所有训练周期的动量对抗扰动。
  1. 前一批次的先验引导初始化(FGSM-BP):将前一训练批次的对抗扰动存储起来,用于初始化当前批次中的 FGSM 基于的对抗样本。
  2. 前一周期的先验引导初始化(FGSM-EP):将前一周期的对抗扰动存储起来,用于初始化当前周期中的 FGSM 基于的对抗样本。
  3. 所有前期周期动量的先验引导初始化(FGSM-MEP):我们提出在所有前期周期中累积样本的梯度动量信息,以生成当前周期中用于 FGSM 基于对抗样本生成的样本初始化。

C. 所提出的初始化策略

虽然提出的 FGSM-MEP 可以防止灾难性过拟合,但它累积了负面的先验引导梯度信息,导致模型鲁棒性改进有限。为了克服这一缺点,我们提出根据梯度动量的质量,为每个样本的梯度动量分配不同的权重。我们提出了一种简单有效的度量方法来评估梯度动量的质量。所提出的评估指标定义为:
其中 代表模型的样本准确性。 越高,当前梯度生成的对抗样本的攻击成功率越高,即当前梯度的质量越好。我们提出将具有不同权重的梯度动量信息累积起来,生成用于训练的样本初始化,称为 FGSM-WMEP。对抗扰动的计算如下:
与之前的样本初始化策略相比,提出的 FGSM-WMEP 更充分利用了先验引导信息,即样本在训练过程中的历史梯度。

D. 所提出的正则化方法

由于正则化方法被广泛用于快速对抗训练以提高对抗鲁棒性,我们根据所提出的先验引导初始化的特点,提出了一种简单而有效的正则化方法,以进一步提高对抗鲁棒性。具体来说,给定输入图像 ,我们用先验引导的对抗扰动初始化它,以获得扰动图像 。然后,我们采用 FGSM 对抗攻击生成相应的对抗样本 。针对鲁棒模型,我们期望它对这两种类型的对抗样本产生正确的预测。因此,我们提出了一个正则化项来引导训练模型对这两种对抗样本的预测保持相似性。所提出的正则化项通过迫使学习模型对这两种对抗样本保持鲁棒性,增强了损失函数在样本周围的平滑性。我们的正则化项定义如下:
其中 为超参数。与之前在最小-最大优化中采用的正则化方法不同,所提出的正则化方法仅作用于最小化优化,需要更少的训练时间。
结合所提出的初始化和正则化方法,我们建立了快速对抗训练框架。其数学表达式为:
跨多个数据集的大量实验评估表明,所提出的快速对抗训练框架不仅可以防止灾难性过拟合,还能显著提高对抗样本的对抗鲁棒性。

E. 所提出的集成权重方法

先前的研究 [9], [18], [59] 表明,自我集成模型权重的方法,即模型权重平均(WA)[26],可以显著提高模型的泛化性能。具体来说,在每次训练迭代中,通过计算训练模型权重 的指数加权移动平均(EMA),可以获得一个 WA 模型权重 。WA 模型的计算如下:
其中 设置为 0.999。WA 模型 通常在未见测试数据上具有更好的泛化能力。先前的研究 [9], [65] 探索了模型平均的作用,发现使用权重平均可以提升对抗损失的平滑性,从而提高模型的鲁棒性。特别是,最近的研究 [25], [48], [59] 表明,标准对抗训练方法结合模型权重平均可以进一步提高对抗鲁棒性。值得注意的是,模型权重采用历史模型权重信息,即前期的先验引导模型权重知识,可以在几乎不增加额外训练时间的情况下显著提高对抗鲁棒性。
这促使我们提出一个问题:“我们是否可以采用模型权重技术用于快速对抗训练,以防止灾难性过拟合并提高对抗鲁棒性?” 不幸的是,直接将权重平均应用于快速对抗训练仍然会遇到灾难性过拟合,且对对抗鲁棒性的改进有限。具体来说,如表 I 所示,FGSM-RS 结合原始权重平均(FGSM-RS-EMA)有限地提高了对抗鲁棒性,同时也遇到了灾难性过拟合。原始模型权重平均以固定的衰减率累积所有迭代的模型权重。然而,在快速对抗训练的后期阶段,几乎所有的模型权重都遭受灾难性过拟合。累积这些权重可能将灾难性过拟合行为引入最终模型,导致其遭受过拟合。
为了克服上述缺点,我们提出了一种简单而有效的动态衰减率机制,根据模型的鲁棒性程度为权重平均方法分配不同的衰减率。具体来说,在权重平均更新轨迹中,我们为具有不同鲁棒性的模型分配不同的衰减率,即更加鲁棒的模型参数被赋予较小的衰减率。通过这种方式,可以减少较差鲁棒性模型参数对最终模型的影响。如我们在 III-A 节中讨论的,在快速对抗训练中,生成的对抗样本质量直接关系到模型的鲁棒性。为了不增加额外的训练时间,我们采用训练过程中生成的对抗样本质量来间接衡量当前训练模型参数的鲁棒性。
我们采用生成的对抗样本准确性与干净样本准确性的比率来评估对抗样本质量,其计算公式为:
然后,我们使用 来获得模型权重平均的动态衰减率,其计算如下:
其中 是用于生成动态衰减率 的阈值超参数。 代表对抗样本质量。当 较大时,生成的对抗样本质量较差,基于这些对抗样本更新的模型权重较不鲁棒,甚至可能遇到灾难性过拟合。使用所提出的方法可以减少其对权重平均更新轨迹的影响。如表 I 所示,与原始的 FGSM-RS-EMA 相比,提出的 FGSM-RS-D-EMA 不仅可以防止灾难性过拟合,还能在所有攻击场景下取得更好的对抗鲁棒性性能。
为了进一步探索所提出方法的有效性,我们在训练过程中统计了 FGSM-RS 模型、FGSM-RS-WA 模型和我们的 FGSM-RS-WWA 模型的鲁棒性演变。结果如图 4 所示。可以观察到,FGSM-RS-WA 可以延迟灾难性过拟合的发生,但不能防止它。所提出的 WWA 方法可以防止灾难性过拟合。这是因为我们的 WWA 更新具有较小衰减率的模型参数,如果比率 ,则表明这些模型可能不鲁棒。为验证这一点,我们在 FGSM-RS 的训练阶段统计了比率。结果如图 5 所示。分析如下:我们发现,早期阶段(0-4 个周期)75% 的模型超过 ,中期阶段(4-70 个周期)15%,晚期阶段(70-110 个周期)100%。非鲁棒模型主要集中在早期和晚期阶段。这是合理的,因为早期和晚期阶段的模型不鲁棒。在早期阶段,模型具有较低的识别性能, 接近且准确率较低。整合它们没有意义。在晚期阶段, 接近且准确率较高,但发生了灾难性过拟合。整合它们将遭受灾难性过拟合。因此,使用所提出的方法可以有效防止灾难性过拟合并提高模型的对抗鲁棒性。
通过整合所提出的先验引导知识,即先验引导初始化和模型权重,我们总结了我们的快速对抗训练方法,称为 FGSM-PGK。所提出的 FGSM-PGK 算法在算法 1 中展示。

F. 理论分析

命题 1:假设我们有先验引导的对抗初始化 ,这可以是 FGSM-BP、FGSM-EP、FGSM-MEP 或 FGSM-WMEP 中的任意一种。令 表示使用 作为初始化生成的当前对抗扰动, 表示 (14) 中的步长。假设集合 是一个有界集,其定义如下:
假设步长 满足 ,我们可以得出结论:
其中 表示特征空间的维度, 是由 FGSM-BP、FGSM-EP、FGSM-MEP 或 FGSM-WMEP 生成的对抗扰动。
该命题的证明见附录。值得注意的是,我们提出的方法的上界为 ,比 FGSM-RS 的上界 更小 [2]。由于扰动(梯度)的范数可以视为非凸优化问题的收敛标准,较小的期望值表示所提出的先验引导对抗初始化将在相同的迭代次数下更快地收敛到局部最优解。
理论分析的目的是展示所提出的对抗训练方法 FGSM-PGK 在相同步长下比 FGSM-RS 具有更低的线性近似误差。重新思考对抗训练可以被表述为一个最小-最大优化问题:
对抗训练的核心是解决内层最大化优化问题,即:
FGSM 可以看作以下近似优化问题的闭式解:
近似优化问题 (29) 与原始内优化问题 (28) 之间的差异决定了 FGSM 在对抗训练中的质量。如果损失函数 在局部是线性的,则在输入样本 周围的 球内 的输出是恒定的,可以为攻击者提供最优的对抗扰动来攻击模型。相反,如果损失函数 在局部是非线性的,则基于 FGSM 生成的对抗样本可能无法到达损失函数的局部最大区域,导致低质量的对抗样本。我们已经表明,当对抗样本质量变差时,会发生灾难性过拟合现象。因此,更大的线性近似误差意味着在对抗训练中灾难性过拟合现象更容易发生 [2]。
线性近似误差定义为:
其中 是模型预测函数, 的较小值表示较小的线性近似误差。在 [2] 中, 的期望值被限制为:
与此同时,我们的理论分析显示:
其中 。因此,所提出的对抗训练方法可以减少线性近似误差并缓解灾难性过拟合现象。我们在相同的 ResNet18 上可视化了 FGSM-RS 和 FGSM-PGK 生成的对抗扰动的 范数分布。结果如图 6 所示。可以观察到, 的值集中在 1.29,而 集中在 1.37。这些实验证实了所提出的 FGSM-PGK 方法的优势。

IV. 实验

为了评估所提出的方法,我们在各种网络架构和基准数据集上进行了广泛的实验,这些数据集包括 CIFAR-10 [34]、CIFAR-100 [34]、Tiny ImageNet [14] 和 ImageNet [14]。我们将所提出的方法与最先进的快速对抗训练方法进行了比较,这些方法包括 Free-AT [51]、FGSM-RS [63]、FGSM-GA [2]、GAT [55]、FGSM-CKPT [33]、NuAT [56] 和 FGSM-SDI [31]。我们还将所提出的方法与一种先进的多步对抗训练方法进行了比较,即带有提前停止的 PGD 基于对抗训练方法,称为 PGD-AT [49]。

A. 详细实验设置

  1. 图像数据集:我们使用四个基准图像数据库进行对比实验,包括 CIFAR-10 [34]、CIFAR-100 [34]、Tiny ImageNet [14] 和 ImageNet [14]。具体来说,CIFAR-10 和 CIFAR-100 包含 50,000 张训练彩色图像和 10,000 张测试彩色图像,大小为 32 × 32,分别涵盖 10 类和 100 类。ImageNet 和 Tiny ImageNet 是大规模图像分类数据集,在这些数据集上更难实现对抗鲁棒性。ImageNet 是一个涵盖 1000 类的大规模分层图像数据库。训练图像被调整为 224 × 224 进行实验。Tiny ImageNet 是 ImageNet 的一个子集,涵盖 200 类,每类包含 600 张大小为 64 × 64 的彩色图像。对于 ImageNet 和 Tiny ImageNet,按照先前工作的设置 [31],我们采用它们的验证集进行评估实验,因为它们的测试集没有标签。
  2. 实验设置:对于 CIFAR-10,我们采用 ResNet18 [21] 和 WideResNet34-10 [69],用于评估对抗鲁棒性进行评估实验。对于 CIFAR-100,我们采用 ResNet18 [21] 进行评估实验。对于 Tiny ImageNet,我们采用 PreActResNet18 [22] 进行评估实验。对于 ImageNet,我们采用 ResNet50 [21] 进行评估实验。在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上,按照先前的工作 [31], [49],总训练周期设置为 110。初始学习率设置为 0.1,并在第 100 和第 105 个周期分别采用 0.1 的因子衰减学习率。使用权重衰减为 的 SGD [47] 动量优化器进行评估实验。在 ImageNet 上,按照先前的工作 [31], [51], [63],总训练周期设置为 90。初始学习率设置为 0.1,并在第 30 和第 60 个周期分别采用 0.1 的因子衰减学习率。使用权重衰减为 的 SGD [47] 动量优化器进行评估实验。为了评估模型的对抗鲁棒性,我们使用了一系列对抗攻击方法,包括 FGSM [17]、10 步的 PGD 攻击(PGD-10)[41]、20 步的 PGD 攻击(PGD-20)[41]、50 步的 PGD 攻击(PGD-50)[41]、C&W [8] 和 AA [12]。按照先前工作的训练设置 [33], [56], [63],在 CIFAR-10、CIFAR-100 和 Tiny ImageNet 上,最大扰动设置为 8/255 在 下。在 ImageNet 上,最大扰动设置为 4/255 在 下。我们采用干净图像的清晰度准确性和对抗样本的鲁棒性准确性作为评估指标进行实验。所有评估实验均在单个 NVIDIA Tesla V100 上进行,以计算训练时间。还执行了循环学习率 [53] 以进行评估实验。请注意,我们不仅报告最后一个检查点的实验结果,还报告在 PGD-10 下准确性最好的检查点的实验结果。

B. 对比实验

  1. CIFAR-10 的结果:我们使用 ResNet18 作为骨干网络。CIFAR-10 上的对比实验结果如表 II 所示。可以观察到,所提出的 FGSM-PGK 不仅防止了灾难性过拟合,还显著提升了对抗鲁棒性性能。与最先进的多步 PGD-AT [49] 相比,所提出的 FGSM-PGK 可以在所有攻击场景下获得更好的对抗鲁棒性,且训练时间更少。特别是,在最强的攻击方法(AA)下,PGD-AT 的性能约为 48.7%,而所提出的 FGSM-PGK 的性能约为 49.5%,这表明带有先验引导知识的单步对抗训练有望超过多步对抗训练。更重要的是,我们的 FGSM-PGK 比 PGD-AT 快约 3.6 倍。
与先前的快速对抗训练方法相比,我们的 FGSM-PGK 在最优和最后一个检查点上的所有攻击场景下获得了最佳的对抗鲁棒性。例如,在 PGD-50 攻击下,先前快速对抗训练方法中最鲁棒的方法准确率约为 53%,而我们的 FGSM-PGK 的准确率约为 55%。在训练效率方面,我们的 FGSM-PGK 仅需 1.2 小时完成训练,比以前的快速对抗训练方法更快。具体来说,FGSM-PGK 整个训练过程比 FGSM-CKPT 快 1.1 倍,比 FGSM-SDI 快 1.2 倍,比 NuAT 快 1.4 倍,比 GAT 快 1.5 倍,比 FGSM-GA 快 2.5 倍,比 Free-AT 快 3 倍。这些结果表明我们提出的方法相比其他最先进的技术具有优越的效率。
当使用 WideResNet34-10 作为骨干网络时,我们的实验结果如表 III 所示。所提出的 FGSM-PGK 在所有攻击场景下相对于以前的快速对抗训练方法和先进的 PGD-AT,获得了最好的对抗鲁棒性。特别是在 AA 攻击下,快速对抗训练变体中最鲁棒的方法性能约为 50%,低于 PGD-AT 的约 51%。这是因为 WideResNet34-10 的结构比 ResNet18 更复杂和非线性,使得快速对抗训练方法难以生成高质量的对抗样本进行训练。然而,我们的 FGSM-PGK 取得了约 53% 的性能。此外,PGD-AT 需要约 31.9 小时的训练,而我们的 FGSM-PGK 仅需约 8.3 小时的训练。
此外,我们采用 ResNet18 并使用循环学习率策略 [53] 在 CIFAR-10 上进行了对比实验。按照原论文的默认训练设置,我们将所提出方法的最大学习率设置为 0.2。所有模型均训练 30 个周期。结果如表 IV 所示。我们的实验结果表明,所提出的 FGSM-PGK 方法表现出与使用多步学习率策略训练的模型相似的特征。特别是在其他快速对抗训练方法中,我们的方法在所有攻击场景下均实现了最佳的对抗鲁棒性。具体来说,与 FGSM-GA 相比,我们的 FGSM-PGK 实现了更高的鲁棒性准确率,例如在 AA 攻击下约为 46.79%,而 FGSM-GA 仅为 43.06%。此外,我们的训练过程比其他最先进的对抗训练方法更高效,速度约为 Free-AT 的 3 倍,比 FGSM-GA 快 2.5 倍,比 GAT 和 NuAT 快 1.4 倍。这表明,使用先验引导知识可以显著提高对抗鲁棒性。
  1. CIFAR-100 的结果:在 CIFAR-100 上,我们使用 ResNet18 作为骨干网络。CIFAR-100 上的对比实验结果如表 V 所示。可以观察到与 CIFAR-10 上类似的实验结果,即所提出的 FGSM-PGK 相较于先前的快速对抗训练方法,获得了最佳的对抗鲁棒性。具体来说,与快速对抗训练方法中最鲁棒的先前方法相比,其在 C&W 攻击下约为 22% 的性能,所提出的方法在 C&W 攻击下的性能约为 28%。这表明,结合先验引导知识的快速对抗训练可以有效提高对抗鲁棒性。从训练效率的角度看,我们可以观察到与 CIFAR-10 上类似的结果,即所提出的 FGSM-PGK 所需的训练时间比大多数快速对抗训练方法更少。尽管所提出的 FGSM-PGK 比 FGSM-RS 需要稍多的训练时间,但它不仅防止了灾难性过拟合,还实现了先进的对抗鲁棒性,即使在最后一个检查点,它也获得了与最佳检查点相当的鲁棒性。令人惊讶的是,即便与先进的 PGD-AT 相比,我们的 FGSM-PGK 在强 AA 攻击下的准确率提高了约 1%。此外,所提出的 FGSM-PGK 比 PGD-AT 快约 3.6 倍,即 PGD-AT 需要 4.7 小时的训练,而我们的 FGSM-PGK 仅需 1.3 小时。
  1. Tiny ImageNet 的结果:对于 Tiny ImageNet,我们采用 PreActResNet18 作为骨干网络,Tiny ImageNet 上的对比实验结果如表 VI 所示。Tiny ImageNet 数据集包含比 CIFAR-10 和 CIFAR-100 更多的图像和类别,这需要更多的训练时间来执行对抗训练。具体来说,多步 PGD-AT 需要大约 30.1 小时来实现对抗鲁棒性。然而,所提出的 FGSM-PGK 仅需大约 8.6 小时,比 PGD-AT 快 3.6 倍,并在所有攻击场景下获得了比 PGD-AT 更好的对抗鲁棒性。例如,PGD-AT 在 C&W 攻击下的最佳和最后一个检查点的准确率分别约为 17% 和 14%,而我们的 FGSM-PGK 在 C&W 攻击下的最佳和最后一个检查点的准确率分别约为 20% 和 19%。此外,我们的 FGSM-PGK 在所有攻击场景下也获得了相较于最先进的快速对抗训练方法的最佳对抗鲁棒性。具体来说,在 AA 攻击下,先前快速对抗训练方法中最鲁棒的一个方法在最佳和最后一个检查点的准确率分别约为 17% 和 14%,而我们的 FGSM-PGK 分别约为 18% 和 17%。从训练效率的角度看,可以观察到与 CIFAR-10 上类似的效率比较结果。
  1. ImageNet 的结果:我们采用 ResNet50 作为骨干网络,在 ImageNet 上进行对比实验。最大扰动强度设置为 4/255,按照 [51], [63] 的训练设置。我们将所提出的 FGSM-PGK 方法与几种高效的快速对抗训练方法进行比较,包括 Free-AT [51]、FGSM-RS [63] 和 FGSM-PGI [29],以及一种先进的标准对抗训练方法,即 PGD-AT [49]。结果如表 VII 所示。所提出的 FGSM-PGK 方法在清晰度和对抗鲁棒性上均超过了 PGD-AT。此外,它在清晰度和对抗鲁棒性方面也显著超过了 Free-AT、FGSM-RS 和 FGSM-PGI。此外,我们的 FGSM-PGK 在训练效率方面比先进的 PGD-AT 快 3.3 倍。其他数据库上也有类似的观察结果。
  1. 结合额外数据的结果:先前的对抗训练工作 [19], [44] 使用额外的数据来提高模型的对抗鲁棒性。然而,先前的工作很少探索使用额外数据对快速对抗训练的影响,特别是快速对抗训练中的灾难性过拟合问题。在本文中,我们系统地探索了使用额外数据对快速对抗训练的影响。具体来说,按照先前的工作 [19], [44],我们使用提供的 1M Denoising Diffusion Probabilistic Models (DDPM) [23] 额外生成数据进行实验。我们执行 FGSM-RS 结合 DDPM (FGSM-RS-DDPM) 和所提出的方法结合 DDPM (FGSM-PGK-DDPM)。鲁棒性在训练期间的演变如图 8 所示。很明显,使用额外生成的数据可以延迟灾难性过拟合的发生,但不能防止灾难性过拟合。具体来说,FGSM-RS 在第 70 个周期遇到灾难性过拟合,但 FGSM-RS-DDPM 在第 200 个周期遇到灾难性过拟合。所提出的 FGSM-PGK 结合额外生成的数据不仅防止了灾难性过拟合,还进一步提高了模型的对抗鲁棒性。结果如表 VIII 所示。很明显,使用额外生成的训练数据可以在所有攻击场景下获得更好的清晰度准确性和对抗鲁棒性准确性。

C. 消融研究

在我们提出的快速对抗训练方法中,我们提出了三种先验引导知识,即先验引导初始化、正则化器和权重。为了评估所提出方法中每个先验引导元素的有效性,我们在 CIFAR-10 上使用 ResNet18 进行了消融研究。我们采用了一系列广泛使用的鲁棒性评估方法,包括 PGD-50、C&W 和 AA,来评估所有训练模型的对抗鲁棒性。结果如表 IX 所示。我们还报告了每个模型的清晰度准确性和训练时间。分析总结如下:
  1. 首先,仅结合先验引导初始化时,它可以防止灾难性过拟合并实现有限的鲁棒性改进。结合先验引导初始化和正则化器时,在所有攻击场景下的鲁棒性能显著提高,同时需要更多的训练时间。结合先验引导初始化和权重时,所需训练时间与仅结合先验引导初始化的模型相同,并实现了更好的对抗鲁棒性。结果表明,使用所提出的先验引导知识可以在更少的训练时间内有助于防止灾难性过拟合并提高对抗鲁棒性。
  2. 其次,结合所有先验引导知识可以实现最佳的对抗鲁棒性,并仅需少量额外的训练时间。这表明,先验引导知识是兼容的,将它们结合可以实现最佳的对抗鲁棒性。

D. 超参数选择

我们进行了超参数重要性研究,以探索哪些超参数显著影响所提出方法的鲁棒性性能。具体来说,所提出的 FGSM-PGK 模型包括三个关键超参数:衰减因子()、lambda()和阈值()。为了确定最佳超参数,我们采用了控制变量法。该方法涉及一次改变一个参数,同时保持其他参数不变,从而孤立地评估每个参数的影响。我们的目标是选择一个不仅能提高对抗鲁棒性且能维持较高清晰度准确性的超参数。具体来说,我们将原训练集划分为训练集和验证集。训练集用于训练模型,验证集用于选择最佳超参数。我们从确定衰减因子 的最佳值开始,然后是 lambda ,最后是阈值
为了评估衰减因子 的影响,我们使用不同衰减因子的 FGSM-PGK 进行了一系列实验。这些实验的结果如图 9 所示。对于 CIFAR-10 数据集,所提出的 FGSM-PGK 在所有攻击场景下均通过设置衰减因子为 0.3 获得最佳对抗鲁棒性。对于 CIFAR-100 数据集,在所有攻击场景下的最佳结果是衰减因子为 0.4。同样,对于 Tiny ImageNet 数据集,将衰减因子设置为 0.2 在每个攻击场景下实现了更好的性能。
为了评估 lambda 的影响,我们使用不同 lambda 值的 FGSM-PGK 进行了一系列实验。这些实验的结果如图 9 所示。对于 CIFAR-10 数据集,所提出的 FGSM-PGK 在所有攻击场景下均通过设置 lambda 值为 8.0 获得最佳对抗鲁棒性。对于 CIFAR-100 和 Tiny ImageNet 数据集,在所有攻击场景下的最佳对抗鲁棒性通过将 lambda 值设置为 10.0 实现。
为了研究阈值 的影响,我们进行了使用不同阈值的 FGSM-PGK 实验。结果如图 9 所示。对于 CIFAR-10 数据集,FGSM-PGK 在所有攻击场景下通过将阈值 设置为 0.82 获得最佳性能。同样,对于 CIFAR-100 数据集,阈值 设置为 0.82。对于 Tiny ImageNet 数据集,阈值 设置为 0.9。因此,所提出的方法对超参数不敏感。

E. 性能分析

为了研究我们提出的方法在不同训练和评估攻击强度下的有效性,我们按照 [2], [63] 的默认设置,采用各种快速对抗训练方法在 CIFAR-10 上使用 ResNet-18,并在不同的 攻击强度下进行训练和评估。结果如图 7 所示。可以观察到,先前的快速对抗训练方法,如 GAT 和 NuAT,在面对较大 攻击时,遭遇灾难性过拟合。具体来说,先前的最先进快速对抗训练方法 NuAT 在 攻击强度设置为 14/255 时遭遇灾难性过拟合。相反,我们提出的 FGSM-PGK 不仅防止了灾难性过拟合,还显著提高了对抗鲁棒性。这表明,利用历史训练过程中的先验引导知识可以提高对抗样本的质量,并增强模型的对抗鲁棒性。
先前的工作 [36], [48], [66], [70] 表明,平坦的对抗损失轮廓表明模型对对抗攻击更具鲁棒性。因此,我们分析了不同快速对抗训练方法的对抗损失轮廓。为了生成损失轮廓,我们沿随机 Rademacher 方向(v 方向)和通过 PGD-50 攻击找到的对抗方向(u 方向)在线性空间中变化网络输入。结果如图 10 所示。与先前的快速对抗训练方法相比,所提出的 FGSM-PGK 方法的交叉熵损失在对抗方向上表现出更强的线性性。这表明,结合所提出的先验引导知识可以更好地保持目标模型的局部线性性。

V. 结论

在本文中,我们研究了标准对抗训练与快速对抗训练过程在不同网络和数据集上的鲁棒性演变差异,发现灾难性过拟合可能与用于训练的对抗样本的质量有关。具体来说,我们观察到随着用于训练的对抗样本攻击成功率的下降,原始快速对抗训练遇到了灾难性过拟合。为了解决这一问题,我们提出采用三种先验引导知识策略:先验引导初始化、正则化器和模型权重,以在更少的额外训练时间下提高对抗鲁棒性。
首先,我们提出使用由历史训练过程中高质量对抗扰动生成的先验引导初始化,并为所提出的初始化提供了理论分析。其次,我们提出了一种使用先验引导和对抗扰动的正则化方法,以提高损失函数在样本周围的平滑性,并确保模型对这两种类型的对抗扰动的鲁棒性。最后,为了进一步提高对抗鲁棒性,我们提出了一种用于快速对抗训练的先验引导权重平均方法,该方法通过不同的衰减率动态地平均历史模型的不同模型权重。
在四个基准数据库上进行的广泛实验评估表明,使用先验引导知识进行快速对抗训练不仅可以防止灾难性过拟合,还能超越最先进的快速对抗训练方法和若干先进的标准对抗训练方法。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。
下载1:OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲
小白学视觉公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲
小白学视觉公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群


欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


小白学视觉
哈工大在读博士的公众号,《OpenCV 4快速入门》的作者,面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术,深度学习等内容。
 最新文章