TPAMI 2024 | 面向对未知对抗性攻击具有泛化鲁棒性的元不变性防御

文摘 2024-10-22 19:00 辽宁

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

题目：Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks

面向对未知对抗性攻击具有泛化鲁棒性的元不变性防御

作者：Lei Zhang; Yuhang Zhou; Yi Yang; Xinbo Gao

摘要：尽管为计算机视觉任务提供了高性能的解决方案，但深度神经网络（DNN）模型已被证明极易受到对抗性攻击的影响。当前的防御主要集中在已知攻击上，但对未知攻击的对抗性鲁棒性却严重被忽视。此外，常用的自适应学习和微调技术在对抗性防御中不适用，因为在部署时本质上是一个零样本问题。因此，为了应对这一挑战，我们提出了一种名为Meta Invariance Defense（MID）的攻击不可知防御方法。具体来说，从手动构建的攻击者池中随机抽取各种组合的对抗性攻击，以构成针对未知攻击的不同防御任务，其中一个学生编码器通过多一致性蒸馏在元原则下学习攻击不变特征。提出的MID有两个优点：1）在像素级、特征级和预测级之间对良性和对抗性样本进行完全蒸馏，有助于发现攻击不变性。2）该模型同时在高级图像分类中实现对不可感知对抗性扰动的鲁棒性，并在低级鲁棒图像再生中抑制攻击。理论和实证研究在诸如ImageNet等多个基准上验证了MID在各种攻击下的泛化鲁棒性和优越性。

关键词：元防御，攻击不变特征，对抗性攻击，泛化鲁棒性，深度神经网络。

I. 引言

深度神经网络（DNN）为计算机视觉（CV）任务带来了高性能的解决方案。然而，[55]提出DNN极易受到对抗性扰动的影响。也就是说，人为地在输入图像中添加一些精心设计但人类难以察觉的噪声，可以轻易地愚弄DNN模型做出完全错误的预测。这就是所谓的对抗性攻击，它对基于DNN的实际部署系统构成了巨大威胁。例如，犯罪分子可能通过精心设计的扰动从基于DNN的监控系统中逃脱。鉴于DNN的不透明性，探索对抗性攻击的机制和提高对抗性鲁棒性已成为深度学习的重要课题。

许多工作被提出来抵抗对抗性噪声对DNN模型的影响[19]，[33]，[46]，[53]，[66]，[71]，[72]。尽管具有各种技能，现有的防御方法基本上面对的是漏斗攻击，即防御者完全了解攻击者的攻击策略，有利于防御。然而，过度依赖已知攻击进行训练使得模型只能防御特定攻击，却忽视了各种未知攻击。简而言之，传统的防御无法泛化到未见过的攻击，DNN的鲁棒性仍然是一个羞耻。不幸的是，这个问题在现实世界的场景中似乎是一个难题，因为我们既不知道哪些模型是鲁棒的，也不知道我们将遇到哪些攻击。因此，为了应对困境，我们提出了泛化鲁棒性的概念，针对已知和未知攻击的对抗性鲁棒性。值得注意的是，已知/未知攻击取决于在训练期间是否可以获得正在防御的攻击者（例如，攻击策略）。

认知科学中的一个主题研究了与我们任务类似的问题，试图解释一个有趣的问题：为什么人类即使在各种未知的表情下仍然能够准确预测面部的身份？简而言之，这是因为我们的大脑擅长提取表情不变的身份特征，而不是脆弱的相关特征，如面部表情[28]，[40]。类似地，在学习了关于猫和老虎的先验知识之后，人们可以很容易地推断出猞猁属于猫科，尽管我们可能不知道它真正的名字叫猞猁。那是因为人类擅长提取猫的不变特征，如胡须、耳朵和面部轮廓。这已经成为一个事实，人类可以忽略各种对抗性扰动，但自然地专注于有意义且稳定不变的语义特征。这启发我们探索攻击不变的特征，以提高DNN对未知攻击的泛化鲁棒性，如图1所示。

为了实现域不变性的目标，领域泛化（DG）[16]，[29]，[42]和元学习[15]，[32]已经取得了进展。DG假设只有来自已知源域的数据可以输入模型进行训练，其目标是获得泛化到未见过的目标域的能力。这意味着模型需要学习源域中的域不变特征，因为这些特征在各个域中更稳定、更具有泛化性。类似地，为了实现泛化鲁棒性的目标，一个鲁棒模型应该能够从几个已知攻击中学习攻击不变的特征以获得泛化性，因为这种攻击不变性在各种攻击中也应该稳定且具有泛化性。[1]甚至提出对抗性攻击是离群点问题（OOD）的一种特殊形式，并通过域分类器实验性地证明了这一猜想。尽管缺乏严格的数学证明，我们给出了一个直觉，即OOD和对抗性攻击之间存在某种不可避免的联系。

元学习赋予了模型通过自适应确认性学习理念进行学习的能力，这也符合我们的目标，即学习适应各种攻击的学习模式。换句话说，元学习不仅试图学习内在知识，还试图通过模拟训练过程中的验证任务来解决对未知任务的泛化。从这个意义上说，元学习就像一种正则化，以减少结构风险，以便在假设空间中找到最泛化的函数族。

基于上述原则，我们提出了一种新的对抗性防御方法，名为Meta Invariance Defense（MID）：简而言之，我们将两阶段元学习机制与多个一致性蒸馏约束结合起来，通过教师-学生蒸馏范式，训练一个学生编码器从攻击者池中提取攻击不变的特征。最后，形成了一个针对各种攻击的鲁棒防御框架。

如图2所示，为了选择稳定的框架，MID的训练过程被分为两个阶段：模拟已知攻击的防御（元训练）和模拟未知攻击的防御（元测试）。假设我们有一个由多种攻击方法组成的攻击者池，每个训练迭代中进行三个基本步骤：

步骤1：在元训练期间，我们从攻击者池中随机抽取一组攻击，并模拟针对（模拟）已知攻击的鲁棒训练。在这个阶段，通过在原始模型上执行单步梯度下降优化获得了一个临时模型，并且通过在（模拟）已知攻击下评估原始模型获得了元训练的损失。

步骤2：在元测试期间，我们选择攻击者池中在步骤1中未使用的攻击，然后模拟临时模型在（模拟）未知攻击下的测试。在这个阶段，通过在（模拟）未知攻击下评估临时模型获得了元测试的损失。

步骤3：我们结合元训练和元测试的损失，并训练原始模型，使其具有泛化已知和未知攻击的鲁棒性。

通过这种方式，它可能通过选择在已知和未知攻击之间具有相似激活的稳定参数来学习更好的泛化模式。然而，元学习框架只能筛选出对所有任务（即，针对各种攻击的对抗性防御）稳定的参数，但无法获得攻击不变的特征。此外，我们不能像[15]中所做的那样，在元学习之后对特定任务进行微调以提取攻击特定特征，因为在部署期间的对抗性防御本质上是零样本的。因此，为了进一步学习攻击不变的特征，我们提出了一个多一致性蒸馏协议到元过程中，以便从教师网络到学生网络蒸馏攻击不变的特征。一方面，蒸馏可以减轻模型特定的扰动攻击，因为它包含了一些蒸馏防御的效果[46]。另一方面，多一致性协议有助于与良性样本的语义一致性，这正是各种攻击之间的攻击不变特征。

在元优化之后，MID将在真正的未知攻击上进行测试。注意，训练过程中使用的所有攻击都被视为已知攻击，而未知攻击在训练期间从未见过。总之，我们的贡献是三方面的：

1）我们解决了对抗性防御的鲁棒性和泛化性和泛化的双重挑战，并提出了一种名为Meta Invariance Defense（MID）的方法，旨在实现对未知攻击的泛化鲁棒性。通过迭代模拟针对模拟漏斗攻击和未知攻击的防御，选择并保留对已知和未知攻击具有相似激活的参数。

2）在MID模型中提出了一个包含对抗性、标签和循环一致性约束的多一致性蒸馏协议，这有助于学习和优化攻击不变的特征。

3）理论和实证分析验证了MID相对于SoTA对抗性鲁棒方法的可行性和优越性。更多的定性实验也很好地解释了一组猜想，我们直观上得到了验证。

III. 方法论

A. 预备知识

我们用表示特征提取器，表示分类器，而一个完整的模型由一个编码器和一个分类器组成。对于一个图像识别系统，输入图像通过被表示为高维特征，然后由分类器进行预测。让和分别表示从联合分布中采样的良性样本和标签，每个都有一个唯一的标签。对抗性攻击者的目标可以表示为一个条件优化问题：

其中表示分类损失，表示在范数下扰动的上限。攻击者的目标是用视觉不可察觉的扰动愚弄目标模型，使被愚弄的模型能够做出严重的错误预测。在本文中，我们关注模型对对抗性攻击的防御，并提出了一个简单但功能强大的对抗性防御框架，用于良性和攻击不可知的对抗性样本。防御目标写为：

其中表示攻击不可知的对抗性样本，它只需要满足(1)中的条件。

B. Meta Invariance Defense

为了实现多一致性蒸馏，MID包括一个学生特征提取器（编码器）和一个教师网络

（如图3所示）。

包括一个教师编码器、一个教师分类器和一个教师解码器。我们使用模型来指导学生模型的对抗性鲁棒性训练，基于所提出的多一致性蒸馏协议。

注意，教师模型预期不仅要对分类友好，而且要能够学习输入的流形分布。由于对抗性样本被认为是输入流形上的相邻分布，学习真实数据流形可以在一定程度上使DNN适应对抗性样本流形分布[39]。AutoEncoder是学习数据流形的有效方法，所以

模型通过分类和重建损失进行监督：

其中两个损失分别表示为：

我们进一步使用来指导的训练，以探索攻击不变的特征通过元学习，和是我们期望的对抗性鲁棒编码器与分类器。注意，教师模块在学生模型训练期间是预先训练并固定的。

正如我们所提到的，元学习框架只能筛选出对未知攻击敏感的鲁棒参数组，而无法有效编码特定任务和攻击不变性仍然棘手。因此，为了提高攻击不变的表示能力，我们在元训练范式中制定了一个多一致性蒸馏协议。双重挑战的泛化和鲁棒性对抗攻击被统一并解决。

元训练针对漏斗攻击：假设攻击者池中有n个已知攻击可以被训练者访问。在一个元训练周期中，我们从攻击者池中随机选择n-1个攻击作为模拟已知攻击，并对模拟已知攻击进行元训练以增强鲁棒性。我们提出了一个组合目标，即教师模型的多一致性蒸馏，如下所示：

1）对抗性一致性（AC）：在元训练过程中，我们只向输入良性样本，但向输入从攻击者池中随机抽取的相应对抗性样本。为了直接约束学习与相似的特征，AC损失被公式化为和特征之间的KL散度：

其中表示概率分布，代表第i个原始样本的第n-1个对抗性版本。我们希望模型能够针对每个对抗性样本学习与其原始样本相似的特征。

2）循环一致性（CC）：为了进一步确保学习到的特征只包含真正的语义信息而不包含对抗性扰动的特征，设计了循环一致性。我们提出利用教师解码器将的输出解码成鲁棒样本（再生），然后再次将再生的鲁棒图像输入进行重新编码。然后我们使用KL散度来约束再生图像和原始图像特征分布之间的相似性。CC损失表示为：

其中代表通过不同攻击由对抗性样本再生的图像。通过反馈结构，我们期望再生图像在表示上足够鲁棒，而不是在像素上足够干净。

3）标签一致性（LC）：此外，我们期望学生编码器和教师分类器能够准确预测从攻击者池中抽取的任何对抗性样本。因此，我们提出了基于交叉熵的LC损失来学习分类器输出和真实标签之间的分布相似性。

因此，所提出的多一致性在元训练阶段的训练目标形式化为：

其中指的是在元训练中使用的集合攻击。通过上述混合损失的元训练，我们对当前学生编码器执行单步梯度下降，得到一个临时模型，基于此进行以下元测试。

元测试针对未知攻击：为了获得对未知攻击的适应性和鲁棒性，我们进一步在元测试阶段模拟未知攻击进行防御。简单地说，在元测试阶段，我们选择在元训练中未使用的攻击从攻击者池中，然后输入到单步优化的临时模型。然后我们使用相同的目标函数（9）重新评估临时模型，元测试损失为：

其中是在元训练阶段通过单步梯度下降获得的临时模型，是在元训练中未使用的模拟未知攻击。总体优化目标：我们的目标是给学生网络对已知攻击的鲁棒性和对未知攻击的适应性泛化，因此元训练和元测试应该共同优化真正的学生编码器。元测试过程实际上模拟了学生模型对未知攻击的响应。这是一个自动的交叉验证和鲁棒参数筛选，然后通过实现泛化。因此，我们将元训练阶段的损失与元测试阶段的损失结合起来，训练鲁棒学生编码器。因此，的最终优化目标变为：

通过这种方式，将找到对已知和未知攻击都敏感的非鲁棒参数，并通过多一致性约束在迭代方式中学习攻击不变的特征。所提出的MID的详细实现总结在算法1中。

进一步说明：为了明确实现，我们进一步澄清元训练和元测试是MID训练的两个阶段，并在训练集上进行。模型测试的未知攻击测试集是完全未见过的。元测试阶段的模拟未知攻击是通过在训练集上进行随机攻击获得的，这在元训练阶段未使用该攻击时是可行的。此外，MID的目标不仅包括对已知攻击的对抗性鲁棒性，还包括对未知攻击的泛化。

C. MID的理论可行性分析

在本节中，我们从不同角度理论上分析MID的有效性。

1）泰勒展开的视角：MID的目标函数可以总结为：

我们进一步将(12)中的第二项通过一阶泰勒展开转换如下：

和总目标(12)变为：

这揭示了我们目标的攻击不变本质：(1)它在元训练中最小化已知攻击的损失（(14)中的第一项），在元测试中最小化未知攻击的损失（(14)中的第二项）。(2)第三项相当于最大化已知和未知攻击之间梯度的余弦相似性。换句话说，它可以学习已知和未知攻击之间梯度的共性，以学习攻击不变性。然而，直接使用(14)可能还不够，因为它不仅忽略了由高阶导数优化带来的平滑性，还忽略了基于自适应训练模式的隐式参数正则化效应（见第IV-C节）。这相当于像ERM[57]那样仅对几种攻击的梯度距离进行约束以进行泛化。因此，我们提出在(12)中训练完整损失函数。

传统防御方法只能访问已知攻击，但对新攻击没有泛化能力。在MID中，最大化梯度相似性意味着我们约束模型优化朝着已知和未知攻击的共同方向发展，并抑制难以对所有攻击统一优化的参数（即，攻击特定参数）。然后，在额外的一致性约束的监督下，攻击不可知参数清楚地揭示了攻击不变的特征。因此，MID不仅有利于已知攻击，还发现了各种攻击之间的不变信息，从而实现了对未知攻击的泛化鲁棒性。

2）流形解释的视角：流形学习[3]，[50]，[56]试图从高维空间中恢复低维流形结构，并描述每个样本之间的空间邻域关系，以实现降维或数据可视化。传统的流形学习大多基于精致的手工设计，但深度模型的出现为流形学习提供了简单有效的预处理。例如，AutoEncoder旨在学习原始高维空间中的分布式表示和最近邻图[18]。一个原始图像为224×224×3被编码器表示为512维特征表示。经过有效的正则化后，一个维度或几个维度的组合甚至可以表示一些重要的语义，如边缘、纹理，甚至是车辆轮胎的形状。因此，通过修改特征图中的一些语义，解码器从解码器解码的图像可以恰好是原始图像的相邻分布（例如，在人的脸上加上眼镜，或者使微笑的表情变得没有表情）。与原始图像相比，低维特征流形显然更容易通过大量数据[21]，[51]，[63]捕获。此外，相似性度量（KL散度）和分类损失（交叉熵）也描述了数据的流形。熵越小，流形越紧密。因此，可以认为熵的梯度对应于流形曲线的法向量。基于梯度的对抗性样本将原始样本从原始分布沿着最快的方向（梯度方向可以被认为是法向量）推开，MID模型试图将对抗性样本的特征分布转移到原始流形上（如图4所示）。一方面，直接在特征级别上的相似性约束（LAC）确保学生模型只学习与原始特征相似的对抗不变特征。另一方面，MID的教师模型包含一个AutoEncoder模块。解码器解码学生模型学习的特征，并进一步促进学生网络学习原始样本的邻近分布（LCC），即鲁棒样本再生。实验部分的定性分析通过解码学生编码器的特征和t-SNE可视化验证了我们的猜想。

3）高阶优化的视角：为了适应目标任务，高性能模型的损失预期在最优点接近0。为了进一步避免病态问题，我们希望鲁棒模型在最优点的一阶导数（雅可比矩阵）也接近0（零矩阵），这意味着我们希望模型在最优点是平滑的，因为更平滑的模型对移位输入具有更好的稳定性和泛化性。为了解释这个视角，我们提出三个问题。

为什么平坦的最小点可以提供泛化？Cha等人[6]提供了理论上的说明，证明了具有更平坦最小点的模型可以泛化到分布外（OOD）样本。我们在图5(a)中也给出了直观的解释：当输入轻微变化时，更平坦的函数在其输出上的变化较小，显示出更好的稳定性和对轻微变化输入的泛化。

为什么高阶优化可以使模型找到更平坦的极小值？一方面，由于普通模型通常通过一阶导数优化，而一阶导数通常通过二阶导数优化，所以二阶优化可以帮助找到更小的一阶导数，其中模型对移位输入更稳定。这导致了更好的鲁棒性和泛化[49]。另一方面，对于一个可微模型，最优点附近的一阶导数（雅可比矩阵）通常接近0。更小的二阶导数意味着一阶导数变化得更平滑、更慢，这意味着模型在这个鞍点上更平坦。对于图5中的和，尽管具有相同的鞍点，具有更小的二阶导数，因此一阶导数更平滑，显示出更稳定的鞍点。因此，高阶优化可以带来更平坦的极小值。

为什么MID可以引入高阶优化？一方面，(13)中的泰勒展开说明了MID中存在高阶项。另一方面，类似于由一阶梯度优化的普通损失，MID损失的一阶梯度由二阶梯度优化。具体来说，在MID的元训练阶段，模型需要在执行单步梯度下降后计算一阶梯度（雅可比矩阵），并在元测试阶段执行另一步梯度下降，这类似于隐式二阶导数优化，形式化为：

注意，(15)只是一个近似。这解释了为什么我们的方法可以同时提高对已知和未知攻击的鲁棒性。通过计算MID损失的Hessian矩阵，我们引导模型找到一个平坦的极小值，其中雅可比矩阵不仅接近零，而且平坦，这使得MID对对抗性扰动明显鲁棒。

IV. 实验

A. 实验设置

数据集：评估的八个常用数据集。

MNIST包含10个类别的手写数字图像。FashionMNIST由10种常见服装的扫描图片组成。MNIST和FashionMNIST都由单通道黑白图像组成，图像大小为1×28×28。CIFAR-10包含10个类别的常见对象图像，包含50,000个训练图像和10,000个测试图像。CIFAR-100数据集有100个类别。每个类别有600张彩色图像，其中500张用作训练集，100张用作测试集。SVHN是一个由街景房屋编号组成的数据集，其中73257张图片用于训练，26032张图片用于测试，531131张额外的稍微不那么困难的样本用作额外训练数据。值得注意的是，CIFAR10、CIFAR100和SVHN由三个通道的彩色图像组成，图像大小为3×32×32。此外，我们还对三个大规模数据集进行了研究：TinyImageNet-200、ImageNet-100和ImageNet-1K。TinyImageNet-200有200个类别，每个类别有500个训练图像，50个验证图像和50个测试图像。ImageNet-100是ImageNet-1K的子集，每个类别包含超过500张图像，大小为3×224×224。ImageNet-1K是一个常用的大型数据集，包含超过1,200,000张图像，大小为3×224×224。

骨干网络和基线：我们考虑每个数据集的不同骨干和基线模型：

MNIST：我们使用LeNet5[31]作为MNIST的数字识别任务的目标网络。
FashionMNIST：我们也使用LeNet5[31]作为FashionMNIST的目标网络，因为FashionMNIST与MNIST相似，也由单通道图像组成。
CIFAR10：我们使用ResNet18[20]作为CIFAR10的多通道图像分类任务的目标网络。
SVHN：我们使用ResNet50[20]作为SVHN的目标网络，因为它比CIFAR10更具挑战性。
CIFAR100：我们使用DenseNet121[24]作为CIFAR100的目标网络，因为标签更加丰富，但类内样本更稀疏。
Tiny-ImageNet：我们使用ConvNext-B[35]作为Tiny-ImageNet的目标网络。
ImageNet100：我们使用Visual Transformer（small）[13]作为ImageNet100的目标网络。我们只在蒸馏过程中使用对抗性一致性和标签一致性。
ImageNet-1K：我们使用Visual Transformer（base）[13]作为目标网络。我们只在蒸馏过程中使用对抗性一致性和标签一致性，我们对流行的“预训练和微调”训练范式进行了比较。

教师模型：为了学习区分性表示，教师编码器采用与学生编码器相同的骨干网络，并通过交叉熵分类损失和基于L1范数的重建损失（除了ImageNet模型外）进行训练。我们遵循[17]、[46]中的设置，并采用相同的教师和学生编码器结构，考虑到MID实际上是通过将教师和学生编码器的表示对齐来学习攻击不变信息，而不是转移教师的知识或答案给学生。教师模型的分类能力在表I中给出，教师解码器的解码能力可以通过图7进行验证。因此，一方面，教师模型具有合格的分类精度，并且可以有效地将识别能力转移到学生模型。另一方面，从教师编码器学习到的特征可以被解码器有效地恢复。因此，如果学生编码器学习到的特征也可以被教师解码器解码，那么学生编码器被认为是对抗性鲁棒和攻击不变的，因为学生编码器针对对抗性样本的特征通过对抗性一致性被约束为与教师编码器针对其原始样本相似。值得注意的是，所有教师模块在训练期间都是固定的，只有学生模块在线更新。

实现细节：除了ImageNet之外的所有实验都在4个NVIDIA GTX2080ti（11 GB显存）上运行，ImageNet在8个NVIDIA RTX 4090（24 GB显存）上运行。批量大小为128（除ImageNet外）和32（ImageNet），Pytorch版本为0.4.0。我们使用了7种攻击的实现代码，如PGD[37]、MIM[11]、FGSM[19]、BIM[30]、CW[5]、JSMA[45]在advertorch工具箱[10]中，以及开发者发布的Auto-Attack[9]。我们将最大默认扰动设置为0.3，初始学习率设置为。

在MID中，攻击者池在训练期间是手动固定的。基本选择标准是已知攻击的数量应该很小，因为现实场景中的资源有限，而且已知攻击应该是有代表性的。我们采用PGD和MIM作为训练中使用的已知攻击，良性样本自然包含在攻击者池中。PGD和MIM都有目标和非目标攻击版本，分别表示为PGDT（目标PGD）和PGDN（非目标PGD），其他攻击也进行相同的操作。因此，总共有4种攻击包含在基本攻击者池中。值得注意的是，训练阶段的模拟已知攻击（元训练）和模拟未知攻击（元测试）都是从攻击者池中抽取的。攻击（由发布的教师模型生成）被视为静态域，并固定在测试期间评估攻击不变性。FGSM、BIM、CW、AA和JSMA作为真正的未知攻击，仅在测试阶段使用。

对于白盒攻击，我们直接攻击目标模型。对于黑盒攻击，我们采用常用的攻击策略：我们为每个数据集训练一个新的替代模型，其结构和损失函数与目标模型相同，并使用相同的数据集进行训练。这种基于迁移的策略已被证明是有效的。值得注意的是，对于MNIST和CIFAR10上的有目标攻击（例如，PGDT），目标标签是随机选择的，因此基线模型的被攻击精度应该接近10%，所有样本都被攻击到相同的目标标签。

B. MID的主要结果

泛化鲁棒性：在白盒和黑盒攻击下评估对已知和未知攻击的性能，分别在表II和表III中呈现。显然，MID总是显示出对已知和未知攻击的最佳鲁棒性，并实现了最先进的性能。对于训练阶段使用的已知攻击（即，PGD和MIM），MID总能保持最佳鲁棒性。对于未知攻击（即，FGSM、BIM、CW、AA和JSMA），我们发现MID对CW的鲁棒性并不总是达到最佳性能。这可能是因为CW是一种基于优化的攻击方法，而其他几种攻击是基于梯度的。因此，那些攻击之间的不变信息可能是有限的。但MID仍然对大多数未知攻击实现了最佳鲁棒性。

我们进一步讨论了表IV、V和VI中MNIST、CIFAR10和CIFAR100的不同源模型下的黑盒攻击。我们比较了MID与对抗性训练和防御性蒸馏模型。我们观察到，对于不同的源模型，MID总是表现更好。此外，我们讨论了更多的未知攻击，并在表VII中评估了MID在CIFAR10、CIFAR100和Tiny-ImageNet上对几种启发式或高级攻击（即，SPA[54]、SSAH[36]、stAdv[65]、DDN[48]、FAB[8]和Adv-Drop[14]）的性能，这表明了MID的优越性。

从表II和III的结果中，我们可以看到，尽管MID对良性样本的准确性有时略低于其他防御模型，但MID的平均鲁棒性（Avg:）总是最好的。此外，MID的最坏情况对抗性鲁棒性（即，最低性能）总是比其他防御模型更强，这意味着MID不仅具有更高的上限和期望，而且与其他模型相比，具有更好的下限。因此，我们认为MID在对抗性样本和平均鲁棒性方面保持了最佳的鲁棒性，尽管对良性样本的准确性略有下降。

消融研究：在表VIII中，我们讨论了MID中每个部分的效果，包括Meta框架（即，Meta）、师生蒸馏（即，DST）和多一致性约束（即，AC、CC）在白色盒子攻击下。请注意，如果没有Meta和DST，MID会退化为类似ERM的模型[57]。如果没有DST，MID将成为一个元AT框架。从表VIII中可以看出，每个组件对于提高稳健性至关重要。多一致性约束还提供了针对每个攻击的显著增益。当所有组件协同工作时，始终可以实现最佳性能。

对教师模型更大骨干的评估：考虑到一些防御性蒸馏方法也使用比学生模型更大的教师模型[74]，我们基于CIFAR10数据集讨论了更大教师模型在MID中的影响。如表IX所示，较大的教师模型对已知攻击具有更好的对抗鲁棒性，但对未知攻击没有明显的增益。一个解释是，从一个大的教师蒸馏太紧和僵硬，这可能不会实现理想的大教师和小学生之间的转移。然而，相同结构的教师和学生之间的对齐更容易，并且教师模型更可能传递学生模型知识而不是答案（即，学习不变性）。打个比方，大学教授教小学生可能很难，但同龄学生之间的讨论就容易多了。

除此之外，我们还有两个有趣的观察：

容易攻击并不意味着难以防御，反之亦然：通过比较表II和表III，尽管黑箱攻击基线上的攻击力（例如，CIFAR100上MIMN的10.33%）明显劣于白盒攻击（例如，CIFAR100上MIMN的0.94%），MID对黑盒攻击的鲁棒性（例如，CIFAR100上的MIMN的24.41%）通常弱于白盒攻击（例如，CIFAR100的MIMN为30.96%）。这表明攻击不能简单地描述为“强”或“弱”，而是与模型的偏好有关。黑盒攻击比白色盒攻击稍弱，因为攻击者不能完全理解目标模型。一个可能的原因是防御者不能完全了解黑盒攻击者的攻击策略和模型基础，从而导致其鲁棒性比白盒攻击下降.此外，防御中使用的攻击可以被认为是白盒攻击，因此在某种程度上缺乏黑盒攻击的先验，这可以解释为什么白盒攻击的鲁棒性往往更好。[69]学习不同攻击模型之间的不变性，查询多个模型的分布，提高了对黑盒攻击的鲁棒性。
良性样本的准确性下降有所改善，但仍然是一个挑战：良性样本的MID准确性总是略有下降，这是基于对抗训练的防御方法的常见问题。原始准确度越低，减小越大（例如，CIFAR100在我们的实验中）。我们认为这正是由于模型开始关注良性样本和敌对样本之间的攻击不变性信息，使得模型忽略了一些不稳定的细节，从而失去了一定的准确性。下一节对MID可解释性的分析也证实了我们的猜想。到目前为止，良性样本的准确性下降仍然是对抗训练及其变体的挑战。

C. MID的可解释性

鲁棒模型应该专注于攻击不变的特征，并具有强大的内在可解释性。因此，我们从四个方面分析MID：1）梯度可解释性，2）特征分布，3）结构偏好，和4）注意力图。

1）梯度可解释性与丰富的语义：这里的梯度指的是损失函数相对于样本的梯度，其本质是模型为样本的每个像素分配的权重。[49]和[60]声称，鲁棒模型的梯度和特征在语义上更具信息性。我们随机选择了一些来自CIFAR10和MNIST的图像，并可视化了每个样本的梯度，如图8所示。显然，基线的梯度是混乱的，而MID的梯度中出现了更多可解释的语义信息，这很好地评估了MID的鲁棒性，因为梯度中更丰富的语义意味着网络对语义特征更敏感，而不是对抗性扰动。此外，梯度中具有丰富语义的模型可以更好地抵抗基于梯度的扰动，因为其梯度与语义特征协调一致。这也进一步证实了MID对不同攻击的鲁棒性，因为梯度中保持了类似的语义。

为什么MID中的语义特征会出现？[60]认为，对抗性训练不仅关注数据分布，而且隐式地探索了模型参数的分布，因此它具有外推和生成具有语义的图片的某些能力。因此，MID模型的梯度包含更多可解释的信息。事实上，我们已经分析了MID中的元学习框架明确地找到并保留了对各种攻击具有相似激活的参数组，所以模型参数和数据的联合分布被探索了。从攻击原理的角度来看，梯度中丰富的语义信息进一步削弱了被攻击的可能性。对于基于梯度的攻击，直观的理解是，当从梯度生成的噪声被用作攻击时，它可能更有可能干扰良性特征。

2）MID学习了更可辨识的特征分布：我们在第III-C节中已经分析了MID，并提出了流形学习的观点。为了进一步分析MID的可解释性并验证我们关于流形的猜想，我们使用T分布随机邻域嵌入（T-SNE）可视化了CIFAR10上MID和基线模型的特征分布，如图9所示。第一行和第二行的图像分别是基线和MID的特征可视化。所有特征都是从编码器用于分类的高级别特征中采样的。

直观地说，基线编码的良性样本的特征分布是可解释的。同一类别的特征是聚类的，并与其他类别分开。然而，基线编码的对抗性样本的特征分布是混乱的，并且在非定向攻击下似乎在特征空间中随机分布，或在定向攻击下拥挤在狭窄的邻域中。显然，基线的分类器无法有效地识别这种分布下的对抗性样本的特征。相反，MID恢复了类似聚类的特征分布，并提供了即使在不同攻击下也更可识别的特征。这验证了我们的猜想，即MID可以恢复特征流形，并且特征是攻击不变的、语义相关的和可识别的。

3）MID在模型参数中更稀疏和保留良性样本：我们已经分析了，为了学习各种攻击之间的不变特征并过滤掉不稳定的特征，MID将选择对所有攻击都有共同激活的稳定参数，并丢弃那些不稳定的参数。然后，MID比基线更稀疏。因此，我们计算了基线和MID在200个周期内的模型稀疏度指数，如图10所示。结果表明，基线模型的参数范数在增加，并且明显大于MID。此外，无论使用何种骨干网络和数据集（例如，MNIST、CIFAR10和CIFAR100上的LeNet5、ResNet18、ResNet 121），MID的模型复杂度在前10个周期内仅略微增加，然后保持稳定。这验证了我们关于MID模型稀疏度的猜想，即它只关注假设空间中对所有攻击都有共同激活的参数。

值得注意的是，我们对模型稀疏度的分析并不否定模型深度带来的收益，也不意味着MID应该直接采用更简单的模型。一方面，更深的模型为元学习框架提供了更广泛的假设空间，而简单模型的表示能力可能不足。例如，对于多项式回归任务，我们希望我们的假设空间包含尽可能多的高阶项，尽管其中一些可能无效。有效的正则化方法可以筛选出这些无用的高阶项。另一方面，如果假设空间中的高阶项不足，任务可能很容易超出所提出模型的表示能力的上限。我们的分析表明，MID具有很强的正则化能力。

为了探索MID学习到的特征的直观可解释性，我们使用教师模型的解码器解码学生编码器编码的特征，再生的图像如图11所示，第一行显示了对抗性样本，第二行显示了通过MID解码的样本。

4）MID的注意力图专注于语义：注意力图反映了DNNs的区域偏好，并提供了对对抗性鲁棒性的直观解释。鲁棒模型的注意力图具有丰富的语义。

如图12所示，基线对良性样本的注意力图集中在语义部分。例如，青蛙背部的轮廓是基线和鲁棒模型的显著语义部分。因此，它具有明显的语义轮廓，特别是在MNIST中，语义与背景之间的边界清晰，注意力图几乎完美地将数字与背景分开。然而，基线对对抗性样本的注意力图是混乱和不规则的，这解释了DNN（即，基线模型）的脆弱性。相反，MID获得了对对抗性样本的可解释注意力图，类似于基线对良性样本的注意力图。例如，MID关注青蛙的身体形状和数字的轮廓，显示出对已知和未知攻击的对抗性鲁棒性。一个有趣的现象是，在MNIST中，鲁棒的注意力图可能会逆转并在一定程度上关注背景。然而，这并不影响语义区分和对抗性鲁棒性。

V. 讨论

A. LFC是攻击不变的特征吗？

图11中再生的样本表明，低频组件（LFC）可能是各种对抗性样本之间攻击不变的特征。因此，我们在本节中简要讨论了这个问题。我们通过快速傅里叶变换（FFT）将良性和对抗性样本转换到频率域，并通过高低通滤波器分别输入。然后进行逆FFT以获得高频组件（HFC）和低频组件样本。通常，我们改变滤波器的截止频率从0到16，因为图像大小是[3, 32, 32]。过滤后的图像如图13所示。进一步，我们利用基线和MID模型分别预测获得的高频和低频分量。随着截止频率的增加，准确率变化曲线如图14所示。我们有以下观察：

• 从视觉上看，良性和对抗性样本的LFC看起来相似。当时，几乎难以捕捉到对抗性样本低频部分的噪声，LFC的准确率基本上呈线性增长。

• 对于基线，当时，良性和对抗性样本的LFC准确率几乎相同。然而，当时，对抗性样本的准确率急剧下降。它表明良性和对抗性样本的低频分量是相似的，而扰动主要存在于高频部分。相反，MID对良性和对抗性样本的LFC的增长趋势基本上相同，这证明了MID更倾向于学习攻击不变的低频信息。

• 对于良性样本的高频分量，基线表现良好，但对对抗性样本的高频分量不敏感，这进一步表明对抗性噪声主要存在于高频部分。MID对高频分量的下降趋势更陡峭，这也证实了对抗性鲁棒语义主要存在于LFCs中，但MID能够学习低频信息。自然地，MID可以更加鲁棒。

总的来说，对于良性样本，基线模型的准确率随着高频信息的增加而上升。然而，对于对抗性样本，随着高频扰动的涌入，基线对对抗性样本的准确率会恶化。另一方面，MID对频谱分量的准确率总是随着谱信息的增加而上升，无论是良性还是对抗性样本。这表明MID对HFCs中的对抗性扰动更加鲁棒。

实际上，上述观察与[23]、[58]的观点不谋而合，即模型可以从低频分量（LFC）中学习基本的识别能力，然后从高频分量(HFC)中学习细粒度信息。也就是说，深度模型将首先学习一些一般性特征（例如动物的整体形状），然后学习与任务相关的细粒度特征（例如动物的毛发、面部特征等）。事实上，社区中关于GAN和AutoEncoder的研究可以很容易地证明这一主张，因为生成的模型总是首先生成一些粗糙的颜色块，然后填充细节。

虽然HFC更具辨识性，但它们在各种攻击之间缺乏普遍性和不变性。例如，对于视频监控，警方可以根据嫌疑人的体型（LFC）进行初步调查。详细信息（HFC），如服装，可以帮助警方进一步确定嫌疑人的身份。然而，服装信息并不鲁棒，因为嫌疑人可以更换衣服以逃避。从这个角度来看，专注于低频组件的模型可能更鲁棒和泛化，但准确性较低。相反，专注于高频组件的模型可能更准确，但脆弱且不稳定。[23]、[25]、[36]提出，在对抗性攻击中起主要作用的对抗性扰动主要存在于HFCs中，因此各种对抗性样本中攻击不变的鲁棒特征主要存在于LFC中。我们的分析也为此提供了解释和研究方向，用于在准确性和对抗性鲁棒性之间的权衡。

尽管有上述经验观察，但在频率域中语义特征和对抗性噪声之间的数学界限很难准确给出，这仍然是一个开放的话题。

B. MID的交叉验证训练

交叉验证（CV）是评估泛化能力的常用训练协议。与我们工作接近的任务是领域泛化[27]，研究人员通常使用留一域出策略进行交叉验证，因为公共数据集的领域非常少。在我们的主要设置中，我们没有采用CV策略，因为攻击的数量太多，通过留一攻击出策略进行训练的成本是无法承受的。此外，生成每个攻击的对抗性样本也是非常耗时的。因此，我们固定训练期间的已知攻击作为主要设置，以追求对未知攻击可转移的攻击不变模型。为了验证MID在CV协议下的有效性，我们通过选择四种常用的攻击，即PGD、MIM、BIM和FGSM，进行交叉验证实验，其中3种攻击用于训练，剩余的一种用于测试。实验结果如表X所示，从中我们可以看到MID在各种设置中都取得了优异的对抗性鲁棒性。尽管如此，我们可能不会提倡对对抗性防御任务采用交叉验证设置，因为训练成本非常高，建议固定攻击者池。总体而言，在每种设置中，MID的优越性都得到了充分评估。

C. 在更大的攻击者池上训练

提出的MID旨在实现对未知攻击的泛化对抗性鲁棒性，这显然是一个棘手但研究不足的挑战。在MID中，总共有4种攻击，包括PGD和MIM的目标和非目标版本的攻击，被包含在基本攻击者池中，可以自由扩大。直观地说，通过扩大攻击者池可以提高泛化能力。因此，我们对这一观点进行了实验验证。我们考虑了两种新设置：+FGSM和+FGSM & BIM在基本攻击者池上。前者意味着在攻击者池中增加了FGSM攻击者，后者意味着同时增加了FGSM和BIM攻击者。注意，池的选择与训练协议无关。在不同攻击者池下MID的结果如表XI所示。显然，通过扩大攻击者池可以提高泛化性能，这符合我们的猜想。不可避免地，训练成本变得更大，并在下一节中讨论。

D. MID的局限性和失败

准确性与鲁棒性的权衡：如表II和III所示，尽管MID实现了对未知攻击的泛化鲁棒性和平均鲁棒性，但与[70]类似，MID并未完全解决准确性（良性样本）和鲁棒性（对抗性样本）之间的权衡问题，这是对抗性训练中的一个常见但棘手的问题。也就是说，在良性数据上的准确性有所下降。这可能是由数据分布的转变和模型容量引起的。有趣的是，在ImageNet上的实验初步验证了“大模型+微调”的训练范式可能会缓解这个问题，即MID实现了与原始模型几乎相似的准确性（79.56%对81.91%）。

计算成本：如表XI所述，更大的攻击者池可以帮助学习更好的攻击不变性，但这会导致计算成本的增加。我们在表XII中展示了不同数据集上每个周期的训练时间，MID的耗时是AT的5倍。我们观察到，MID在计算成本上与ERM[57]相当，但如表VIII所示，性能优于ERM（每个数据集的第一行和最后一行）。此外，我们使用WRN-34-10骨干网络进行AT训练，其大小是我们在白盒设置下使用的Resnet-18的5倍，CIFAR10上的平均性能为55.95%，低于我们的59.25%（见表II）。因此，MID的优势是显而易见的。

泛化鲁棒性的不足：尽管在鲁棒性泛化方面取得了进展，但未知攻击的性能与攻击者池中已知攻击的数量有关。当攻击者池中存在基于梯度的（MIM）攻击时，MID对基于梯度的攻击者（例如，FGSM）更具泛化性。类似地，当模型受到未知目标攻击（例如，BIMT）的攻击时，在包含目标攻击（例如，PGDT）的攻击者池中训练是有帮助的。这在表XIII中通过比较表II和III证实了我们的猜想，当攻击者池中缺少目标攻击时，MID对未知目标攻击的鲁棒性大大降低。值得注意的是，在表XIII中，我们仅使用非目标攻击PGDN、MIMN和良性样本来训练MID，并且测试目标攻击。然而，事实上我们无法获得所有未知攻击的全部先验知识，因此，这仍然是领域泛化（DG）的挑战。我们可能会建议通过随机生成攻击者池来进一步增强MID的泛化能力，以找到攻击不变性。此外，当前流行的测试时训练（TTA）训练范式也建议通过在线适应新的测试攻击者。

VI. 结论和未来工作

为了实现对未知攻击的泛化对抗性鲁棒性，我们提出了一种新的基于元学习的攻击不变防御方法，称为Meta Invariance Defense（MID）。通过迭代地执行对（模拟）已知攻击的防御，并适应（模拟）未知攻击的防御模型，所提出的MID网络逐步强调对所有攻击都有稳定激活的参数。然后进一步提出了一个由标签一致性、对抗性一致性和循环一致性组成的多一致性协议，以促进从像素级、特征级和预测级学习各种对抗性样本之间的攻击不变鲁棒特征，实现通用鲁棒性。理论和实证分析阐释了所提出的MID方法的合理性和有效性。对可解释性和频谱分量的深入见解被提出。

本文探索了通过学习攻击不变性来实现对未来攻击泛化鲁棒性的可能性，这符合领域泛化（DG）的普遍场景。这在机器学习和计算机视觉社区一直是一个巨大的挑战。尽管DG在领域不变性方面取得了很大进展，但很少有方法能够在现实场景中通过冻结训练好的模型并变得沮丧来真正起作用。特别是，未来对抗性攻击的类型是无穷无尽的。因此，受到大型模型在下游任务中的巨大好处的启发，未来的测试时训练（TTA）或在线适应新攻击的在线训练制度可以生动地描绘出来。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247493854&idx=1&sn=0cae1956cfbe55859ba4f3ac953687e3

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文