TPAMI 2024 | 通过系统性评估更好地理解归因方法的差异

文摘 2024-07-16 19:00 中国香港

点击上方“PaperEveryday”，选择加"星标"或“置顶”

顶刊论文解读，第一时间分享

题目：Better Understanding Differences in Attribution Methods via Systematic Evaluations

通过系统性评估更好地理解归因方法的差异

作者：S. Rao; M. Böhle; B. Schiele

源码链接：https://github.com/sukrutrao/Attribution-Evaluation.

摘要

深度神经网络（DNNs）在许多计算机视觉任务上非常成功，但由于其黑箱特性，很难解释其决策过程。为了克服这一点，提出了各种事后归因方法来识别对模型决策最有影响力的图像区域。由于不存在真实的归因基准，评估这些方法变得具有挑战性。因此，我们提出了三种新的评估方案，以更可靠地衡量这些方法的忠实度，使它们之间的比较更加公平，并使视觉检查更加系统化。为了解决忠实度问题，我们提出了一种新的评估设置（DiFull），在该设置中我们仔细控制输入的哪些部分可以影响输出，以区分可能的和不可能的归因。为了解决公平性问题，我们注意到不同的方法在不同的层应用，这扭曲了任何比较，因此我们在相同层上评估所有方法（ML-Att），并讨论这如何影响它们在定量指标上的表现。为了更系统化的可视化，我们提出了一种方案（AggAtt），以定性评估方法在完整数据集上的表现。我们使用这些评估方案研究了一些广泛使用的归因方法在广泛模型上的优势和不足。最后，我们提出了一种后处理平滑步骤，显著提高了一些归因方法的性能，并讨论了其适用性。

关键词

归因评估（Attribution evaluation）
归因方法（attribution methods）
解释性（explainability）
模型忠实度（model faithfulness）

I. 引言

深度神经网络（DNNs）在许多计算机视觉任务上取得了巨大成功。然而，它们作为"黑箱"，其决策过程难以解释，因此难以获得信任。为了阐明模型的决策过程，已经提出了几种方法，旨在为单个输入特征分配重要性值（见第II节）。然而，由于缺乏真实的基础事实重要性值，比较和系统地评估这些归因方法已被证明是困难的。

在这项工作中，我们扩展了[1]，采取了三管齐下的方法来解决这个问题。特别是，我们专注于评估中三个重要组成部分：可靠地测量方法的模型忠实度、确保方法之间公平的比较，以及提供一个框架，允许系统地检查其归因。

首先，我们提出了一种评估方案（DiFull），它允许区分可能的和不可能的重要性归因。这有效地为是否某个输入特征可能影响模型输出提供了基础事实注释。因此，它可以突出显示归因方法的不同失败模式（图1，左）。

其次，公平的评估要求在平等的基础上比较归因方法。然而，我们观察到不同的方法在不同的层次上解释DNNs，这扭曲了任何比较，因此我们提出了一种多层评估方案（ML-Att），在相同的层次上评估所有方法，并讨论了这对它们在定量指标上的性能产生的影响。当我们在相同的层次上进行比较时，我们发现一些方法之间的性能差异基本上消失了。

第三，依赖于个别例子进行定性比较容易使比较产生偏差，并且不能完全代表评估的归因方法。为了克服这一点，我们提出了一种定性评估方案，我们通过聚合多个输入样本的归因图（AggAtt）。这使我们能够观察到归因方法在完整数据集上的性能趋势，除了查看个别例子之外（图1，右）。

贡献。(1) 我们提出了一种新的评估设置，DiFull，在该设置中我们控制哪些区域不可能影响模型的输出，这使我们能够突出显示归因方法的明确失败模式。(2) 我们认为，只有在同一层次上评估方法时，才能公平地比较它们。为此，我们引入了ML-Att，并在多个层次上评估了所有归因方法。我们展示了，当公平比较时，一些方法之间明显的性能差异实际上消失了。(3) 我们提出了一种新的聚合方法，AggAtt，用于在数据集中的所有图像上定性评估归因方法。这允许在许多样本上定性评估方法的性能（图1，右），这补充了在个别样本上的评估。(4) 我们提出了一种后处理平滑步骤，显著提高了某些归因方法的定位性能。我们观察到在不同架构上评估这些平滑归因时存在显著差异，这突出了架构设计选择如何影响归因方法的适用性。

在这项扩展版本[1]中，我们额外提供了以下内容：(1) 我们在更多种类的网络上进行了评估，特别是具有更高分类准确率的深层网络，包括VGG19 [2]、ResNet152 [3]、ResNeXt [4]、Wide ResNet [5]和GoogLeNet [6]。我们展示了在[1]中讨论的结果和趋势很好地泛化到了不同的CNN架构。(2) 我们在多层相关性传播（LRP）[7]系列方法的多个配置上进行了评估，这些方法通过修改反向传播期间的梯度流来识别图像中对模型重要的区域。我们展示了尽管LRP可以超越所有其他方法，但要实现良好的定位需要仔细选择传播规则及其参数，并且对模型的制定和架构敏感。(3) 我们展示了在多个层次（ML-Att）上的归因方法的性能趋势，在[1]中的一小部分层次（输入、中间和最终）上进行了可视化，这些趋势泛化到了每个方法的各个层次和架构。我们的代码可在 https://github.com/sukrutrao/Attribution-Evaluation 上获取。

III. 评估归因方法

我们提出了评估设置，以更好地理解归因方法的优势和局限性。类似于Grid Pointing Game (GridPG) [31]，这些指标在具有多个类别的图像网格上评估归因方法。特别是，我们提出了一种新的定量指标，DiFull，以及它的扩展DiPart（第III-A节），作为比GridPG更严格的模型忠实度测试。此外，我们提出了一种定性指标，AggAtt（第III-B节）和一个评估设置，用于在相同层次比较方法，ML-Att（第III-C节）。

A. 定量评估：断开输入

接下来，我们介绍用于比较归因方法的定量指标。为此，我们首先描述GridPG及其使用的网格数据集构建[31]。然后，我们提出了一种新的设置，在该设置中，我们仔细控制哪些特征可以影响模型的输出。通过构造，这为可能或不可能影响模型输出的图像区域提供了基础事实注释。虽然GridPG评估了方法如何很好地定位类别区分特征，但我们的指标通过评估它们的模型忠实度来补充它。

Grid数据和GridPG：对于GridPG [31]，归因方法在n×n图像的合成网格上进行评估，每个类别最多出现一次。具体来说，对于每个出现的类别，GridPG测量分配给相应网格单元的正面归因分数与总正面归因量的比例。具体来说，设表示给第p个像素的正面归因。子图像的定位分数由下式给出：

一个“最佳”的归因图将产生，而均匀分配归因将产生。

通过仅使用来自不同类别的可靠分类图像，GridPG旨在确保模型不会在网格单元的其他类别中为任何出现的类别找到“积极证据”。然而，特别是对于共享低级特征的类别组合，这种假设可能不成立，见图3（右）：尽管左上角和右下角的两只狗作为单个图像被正确分类，网格图像中左上角狗的logit输出受到右下角狗特征的影响。由于GridPG中网格中的所有图像确实可以影响模型输出1，因此不清楚这样的归因实际上是否不是模型忠实的。

提出的度量：DiFull：正如讨论的，GridPG中的假设，即给定类别的子图像之外的任何特征都不应对相应类别的logit产生积极影响，可能不成立。因此，我们提议完全断开（DiFull）各个子图像与模型输出对其他类别的影响。

我们通过引入两个修改来实现DiFull。首先，在去除GAP操作后，我们使用n×n个分类头，每个子图像一个，并且只局部池化那些其感受野中心位于同一子图像上方的输出。其次，我们通过将相应连接置零，确保它们的感受场不会与其他子图像重叠。

特别是，我们通过将子图像分别通过所考虑模型的CNN主干传递来实现DiFull，见图2(b)。然后，我们分别将分类头应用于每个子图像的特征图。正如我们在补充材料中讨论的，DiFull具有与GridPG类似的计算需求。

结果，我们可以保证子图像之外的任何特征都不可能影响相应类别的logit - 它们确实被完全断开了。

请注意，这种设置与像素移除度量（例如[12]，[32]）不同，在这些度量中，“移除”输入处的像素补丁并用基线（例如零）值替换可能仍然会导致补丁影响网络的决策，例如基于补丁的形状和位置。相反，我们有效地将CNN主干和分类头之间的权重对于其他网格单元置零，这确保了来自这些网格单元的像素对输出没有影响。

自然扩展：DiPart：一方面，GridPG允许任何子图像影响任何其他类别的输出，而在另一方面，DiFull完全断开了子图像。与GridPG相比，DiFull可能被视为在典型网络中未见到的构建设置。因此，作为更自然的设置，我们提出了DiPart，我们只部分断开子图像与其他类别的输出，见图2(c)。具体来说，我们不是将所有连接置零（第III-A2节），而是只应用DiFull中的局部池化操作，从而为每个子图像获得局部分类头（如DiFull）。然而，在这种设置中，特定子图像的分类头可能会受到位于头部感受野内的其他子图像的特征的影响。对于具有小感受野的模型，这会产生与DiFull非常相似的结果（第V节和补充材料）。

B. 定性评估：AggAtt

除了定量指标外，通常还在个别例子上对归因方法进行定性比较，以进行视觉评估。然而，这可能会受到示例选择的影响，并不能提供方法性能的全面视图。通过构建标准化网格，在这些网格中，“好”和“坏”（GridPG）或可能和不可能（DiFull）的归因总是位于相同的区域，我们可以构建聚合归因图。

因此，我们提出了一个新的定性评估方案，AggAtt，我们为每种方法生成一组聚合图，逐步显示从最佳到最差定位的归因方法的性能。

为此，我们首先选择一个网格位置，然后按定位分数的降序对所有相应的归因图进行排序，见（1）。然后，我们将地图按百分位数范围进行分组，最后，通过平均单个箱体内的所有地图，获得每个箱体内的聚合图。在我们的实验中，我们观察到归因方法通常在广泛的输入范围内表现一致，但在分布的尾部（最好和最坏的情况示例）显示出显著的偏差。因此，为了获得一个简洁的可视化，突出显示归因方法的明显失败案例以及最佳可能结果，我们使用大小不等的箱。

具体来说，我们使用0-2%，2-5%，5-50%，50-95%，95-98%和98-100%的箱；见图1。此外，在实验中，我们评估了左上角网格位置的类别的归因。

C. 跨网络层的归因：ML-Att

归因方法在解释模型的程度上通常有很大的差异。像Grad-CAM [17]这样的基于激活的归因方法，例如，通常只应用于最后一个空间层，因此只解释了整个网络的一部分。这比解释整个网络（如典型的反向传播方法所做的）要容易得多。来自网络更深层的激活也将更好地定位，因为它们将代表网络检测到的更高级别特征（图1，左）。因此，网络被解释的程度与归因解释有多好定位之间可能存在潜在的权衡，这反过来可能决定归因对最终用户的有用程度。

为了在方法之间进行公平的比较，并进一步检查这种权衡，我们提出了一种归因的多层评估方案（ML-Att）。具体来说，我们在各种网络层评估方法，并比较它们在同一层的性能。为此，我们在多个网络架构的输入、中间和最终空间层评估所有方法，见第IV节详细信息。重要的是，我们发现在相同层次上进行比较时，一些归因方法之间发现的明显差异消失了（第V-A节）。

最后，我们注意到大多数归因方法已被设计为为模型的输入特征分配重要性值，而不是中间网络激活。然而，推广到中间层是直接的。为此，我们简单地将完整的模型分成两个虚拟部分：。具体来说，我们把视为预处理步骤，并使用归因方法来解释相对于输入的输出。请注意，在标准用例中，Grad-CAM的由模型的所有卷积层给出，而对于大多数基于梯度的方法，是恒等的。

IV. 实验设置

数据集和架构：我们在Imagenet [36]上训练的VGG19 [2]和Resnet152 [3]上运行我们的实验；在补充材料中可以找到在其他架构和CIFAR10 [37]上的类似结果。对于每个模型，我们从验证集中分别选择被分类为至少0.99置信度的图像。通过仅使用高度自信分类的图像 [31], [35]，我们确保每个网格单元内的特征对模型来说是其类别的积极证据，并且由于它们被分类为不同的类别，所以网格外的特征包含较低的积极证据。

在GridPG、DiFull和DiPart上的评估：我们在由可靠分类图像集合中随机抽样图像构建的2×2网格上进行评估（见上文）。具体来说，我们为GridPG、DiFull和DiPart每种方法生成了2000个归因。对于GridPG，我们使用来自不同类别的图像，而对于DiFull和DiPart，我们使用不同类别的图像，除了右下角使用与左上角相同的类别。通过在DiFull和DiPart中重复使用相同类别的图像，我们可以测试归因方法是否简单地突出显示与类别相关的特征，而不考虑它们是否被模型使用。由于在DiFull和DiPart中，子图像与其它位置的分类头是断开的，重复使用类别不会改变应该归因的区域（见第III-A2节）。

在中间层的评估：我们在每个网络的输入（图像）、中间层（Conv9对于VGG19，Conv3_x对于Resnet152）和最终空间层（Conv16对于VGG19，Conv5_x对于Resnet152）评估每种方法，见第III-C节。在输入层之外进行评估会导致归因图的维度降低，由这些层的激活图的维度决定。因此，正如常见的做法[17]，我们使用双线性插值将这些图上采样到图像的尺寸（448 × 448）。

在AggAtt上的定性评估：如上所述，对于AggAtt，我们使用不等大小的箱（见第III-B节）。具体来说，我们将归因图分为以下百分位范围：0-2%，2-5%，5-50%，50-95%，95-98%和98-100%；见图1。此外，在我们的实验中，我们评估了左上角网格位置的类别的归因。

归因方法：我们评估了多种归因方法，概览见第II节。如第III-C节所讨论的，为了将这些方法应用于中间网络层，我们将完整模型分为两个虚拟部分fpre和fexplain，并将fpre的输出视为fexplain的输入，以获得这些“预处理”输入的重要性归因。具体来说，我们评估了以下方法。在反向传播方法中，我们评估了Guided Backpropagation [9]、Gradient [8]、IntGrad [11]、IxG [10]和LRP [7]。在基于激活的方法中，我们评估了Grad-CAM [17]、Grad-CAM++ [18]、Ablation-CAM [19]、Score-CAM [20]和Layer-CAM [21]。请注意，在我们的框架中，这些方法可以被视为仅使用分类头（除了[21]）进行fexplain，见第III-C节。为了在较早的层评估它们，我们简单地扩展fexplain以包括更多的网络层。在基于扰动的方法中，我们评估了Occlusion [24]和RISE [23]。这些方法通常在输入层进行评估，并测量在输入处扰动（遮挡）时输出的变化（见图3，左）。请注意，Occlusion涉及将遮挡核大小为K，步长为s在输入上滑动。我们使用K=16，s=8对输入，以及K=5，s=2在中间层和最终层进行评估，以适应特征图的较低维度。对于RISE，我们使用M =1000个随机掩码，在不同网络层的评估中分别生成。

对于LRP，按照[35]，[38]，我们主要使用一个配置，该配置在网络的全连接层上应用ϵ规则，ϵ=0.25，在卷积层（除了第一层卷积层）上应用z+规则，在第一层卷积层上应用zB规则。我们在第V-E节中讨论了在其他配置中的性能，包括[14]提出的复合配置。请注意，由于某些LRP规则，例如z+规则，不是实现不变的[11]，相关性可能对于功能等价的模型以不同的方式分布。特别是，通过批归一化层的相关性传播可以以多种方式处理，例如通过将它们替换为1×1卷积或将它们与相邻的线性层合并。在我们的实验中，正如[14]中一样，批归一化层通过与相邻的卷积或全连接层合并来处理。我们进一步讨论了缺乏实现不变性对归因定位的一些影响以及补充材料中的第V-E节。

V. 实验结果与讨论

在这一部分中，我们首先给出了GridPG、DiPart和DiFull上所有属性方法的量化结果，并比较了它们在多个层上的性能(第V-A节)。此外，我们提出了一个简单的平滑机制，它在所有三种设置上都提供了高性能的属性，并讨论了影响其有效性的架构考虑因素(第五-C节)。最后，我们给出了使用AggAtt的定性结果，并展示了它在突出归因方法(V-D)的优点和不足方面的应用。

A. 在GridPG、DiFull和DiPart上的评估

我们使用ML-Att评估方案，针对输入层（Inp）、中间层（Mid）和分类头前的最终卷积层（Fin）x，对所有三种定量评估设置（GridPG、DiFull、DiPart）进行了评估，具体讨论见第III节。接下来，我们将根据其“方法家族”：基于反向传播的方法、基于激活的方法和基于扰动的方法，讨论方法的结果。

基于反向传播的方法：我们观察到，除了LRP外，所有方法在GridPG的初始层上表现不佳（见图4，左）。具体来说，我们发现它们产生的归因图很嘈杂，似乎没有反映出图像的网格结构；即，对于特定类别的子图像内外，发现正面归因的可能性几乎相同。

然而，它们在后续层中有所改进。在最终层，IntGrad和IxG显示出非常好的定位（与Grad-CAM相当），这表明当在同等条件下比较时，这些方法可能具有相似的解释能力。我们注意到，在最终层的IxG之前曾以DetGrad-CAM的名义提出过。

LRP在所有三层上都表现出色。我们认为，这很可能是因为在卷积层中使用的z+规则以一种有利于对最终输出有积极贡献的激活的方式向后传播相关性。由于定位度量仅考虑正面归因，这样的传播方案将导致高定位分数。请注意，这只评估了单一LRP配置，正如我们在第V-E节中讨论的，我们发现性能可能会根据使用的传播规则显著变化。

在DiFull上，所有方法在所有层上都显示出近乎完美的定位（见图8）。由于与它们相关的梯度为零（毕竟，它们完全断开了），因此不会给断开的子图像分配归因。然而，LRP缺乏实现不变性[11]意味着通过构建适当的功能等价模型，可以有效地使相关性通过断开的区域传播，正如我们在第V-E节和补充材料中讨论的。

在DiPart上，我们看到类似结果，但当从分类器向后移动时，定位会逐渐降低，这可以归因于在这种设置中，感受野可以与其他子图像重叠。总的来说，我们发现在DiFull和DiPart上所有方法的表现相似。

基于激活的方法：我们发现，除了Layer-CAM外，所有方法在所有设置上从输入层到最终层的定位性能都有所提高。由于归因是使用归因图的标量加权和计算的，这种改进可以通过后层激活的改进定位来解释。特别是，在早期层的定位非常差，这是Grad-CAM众所周知的局限性[21]。权重方案也导致除了Layer-CAM外的所有方法在DiFull上的最终层归因性能比GridPG差，因为这些方法将重要性归因于重复类别的两个实例（见图8）。Layer-CAM没有这个问题，因为它不应用池化操作。

扰动基方法：我们观察到（见图4，右）Occlusion在DiFull的所有层上表现良好，因为遮挡断开的子图像不会影响模型输出，因此不会被赋予重要性。然而，当向后层移动时，定位略有下降。这是因为遮挡核与相邻子图像的重叠区域相对于激活图的相对大小增加了。这突出了性能对超参数选择的敏感性，以及计算成本和性能之间的权衡。

在GridPG上，Occlusion的性能随着层的增加而提高。另一方面，RISE在所有设置和层上表现不佳。由于它使用随机掩码，与目标网格单元内的像素共享掩码的像素外部被同等地归因。因此，尽管归因倾向于更集中在目标网格单元内，但性能可能是不一致的（见图8）。

B. 跨网络深度的定位

在本节中，我们评估了七种模型（VGG19、VGG11 [2]、Resnet152、Resnet18 [3]、ResNeXt [4]、Wide ResNet [5]、GoogLeNet [6]）的全范围网络深度上的定位性能。我们之前的定量评估使用提出的ML-Att方案（见图4）集中在每个模型的三个代表性网络深度上——输入层、中间层和最终层。我们发现几种方法（例如IxG、IntGrad、Grad-CAM、LRP）在最终层定位良好。在这里，我们评估这三个层次上的性能是否代表所有层次的一般趋势，以及每种归因方法的趋势是否在不同的网络架构中普遍存在。

定量结果的子集可以在图9中找到；其余方法见补充材料。我们选择了四种方法，两种基于反向传播的（IntGrad、IxG）和两种基于激活的（Grad-CAM、Ablation-CAM），它们在图4中的性能从输入到最终层提高最为显著。此外，我们还展示了LRP的整体最佳性能方法的结果。所有方法的完整结果可以在补充材料中找到。对于每种归因方法，我们在所有网络深度上绘制了每个模型的平均定位分数。x轴显示模型深度的分数，其中0指输入层，1指最终卷积层，y轴显示定位分数。每条线为单个模型绘制了所有可能深度的平均定位分数。

我们发现，图4中选定的三个层次的性能趋势适用于所有层次，并且对于所有选定的方法（除了LRP），定位性能在更深层次上有所提高。此外，我们发现这些趋势也适用于不同的网络架构，并证明了ML-Att在公平比较时发现不同归因方法在相同深度上的相似性能的效用。我们发现IntGrad和IxG的性能从输入到最终层稳步提高，而Grad-CAM和Ablation-CAM的性能除了在最终层附近外都很差。另一方面，LRP在整个网络中得分都很高。

C. 归因平滑处理

从第V-A节中，我们了解到Grad-CAM在GridPG的最终层定位良好，但在所有其他设置中表现不佳，这是由于全局池化梯度（对于DiFull）和早期层特征定位差（对于GridPG早期层）的结果。由于IxG不使用池化操作，它在所有层次上的DiFull和GridPG的最终层表现良好。然而，由于梯度的噪声性，它在GridPG的输入和中间层表现不佳；IntGrad显示出类似的结果。

设计一种消除这种噪声的方法将提供在各种设置和层次上表现良好的归因方法。先前减少噪声的方法包括在许多扰动样本上平均归因图（SmoothGrad [40]，见补充材料中的比较）或在训练期间添加梯度惩罚[41]。然而，SmoothGrad计算量大，因为它需要多次通过网络来获得归因，并且对所选的扰动敏感。类似地，在训练期间添加惩罚项需要重新训练网络。

这里，我们提出简单地在现有的IntGrad和IxG归因上应用高斯平滑核。我们在DiFull和GridPG上评估了几种核大小，使用标准差K/4对大小为K的核。我们分别将平滑版本称为S-IntGrad和S-IxG。

在VGG19上（图5，顶部），我们发现S-IntGrad和S-IxG比IntGrad和IxG定位得更好，并且随着核大小的增加性能有所提高。具体来说，输入层上K=257的S-IntGrad超过了最终层的Grad-CAM，尽管它解释了整个网络。虽然在DiFull上的性能由于平滑操作导致归因泄漏到网格边界之外而略有下降，但S-IntGrad和S-IxG在所有设置和层次上都定位得很好。然而，在Resnet18上（图5，底部），虽然S-IntGrad的改进类似，但S-IxG却没有，我们将在下一部分讨论。

网络体系结构的影响：我们实验中使用的VGG19和Resnet152体系结构之间的一个关键区别是，VGG19没有批处理标准化(BatchNorm)层。我们注意到，批处理范数通过将输入集中在原点周围，有效地将输入向量的符号随机化到后续层(参见。[41]，[42])。由于输入的符号决定贡献(加权输入)是正还是负，BatchNorm层将随机化贡献的符号，并且贡献的‘价’将被编码在BatchNorm偏差中。为了验证我们的假设，我们在具有BatchNorm层的VGG19(图5，中间)上评估了S-IxG，并观察到类似于Resnet152的结果：即，我们没有观察到增加高斯平滑操作的核大小的系统改进。这表明，模型的体系结构选择可以对属性方法的性能产生重大影响。

D. 使用AggAtt进行定性评估

在本节中，我们使用AggAtt为在GridPG和DiFull上评估的选定归因提供定性结果，并在多层上进行评估。首先，为了研究平滑操作的定性影响，我们使用AggAtt比较GridPG上多层的IxG、S-IxG和Grad-CAM归因。我们在DiFull上使用AggAtt来突出一些归因方法的特定特征和失败案例。

AggAtt在GridPG上：我们在GridPG上使用VGG19对左上角的图像在三个层次上显示IxG、S-IxG、Grad-CAM和LRP的AggAtt结果（见图6）。对于每种方法，三行对应于输入层、中间层和最终层的归因。对于S-IxG，我们分别为K设置为129、17和9。我们还分别显示了每个方法的第一和最后一个箱的个别样本。

我们观察到，聚合可视化与定量结果（图4和5）以及每个箱显示的个别示例一致。IxG和Grad-CAM的性能从输入层到最终层有所提高，而S-IxG在三个层次上都定位得很好。LRP的归因通常在视觉上令人满意，在所有层次上都定位得很好。最后两列表明，所有归因方法对某些输入都表现“不佳”；例如，我们发现如果它们展示与左上角子图像类别一致的特征，IxG和Grad-CAM在最终层将重要性归因于其他子图像。虽然归因可能被认为是不正确的，但我们发现GridPG上的许多“失败案例”突出了底层模型实际上可能使用的特征，即使它们在另一个子图像中。鉴于缺乏真实情况，很难评估这些归因是否真实反映了模型行为或归因方法的不足。

尽管解释了更多的层，S-IntGrad和S-IxG在输入层不仅在定量上（见图5）和定性上（见图6）与最终层的Grad-CAM相匹配，而且对于个别解释也高度一致。具体来说，与IntGrad（输入层）相比，Grad-CAM（最终层）和S-IntGrad（输入层）的定位分数之间的Spearman等级相关性显著增加（例如，0.3→0.78在VGG19上），这意味着它们对任何输入的归因倾向于位于相同的AggAtt箱中（见补充材料）。

为了进一步理解平滑的效果，我们在变化的核大小下可视化了包括正面和负面归因的S-IxG（见图7）。第一行显示了整个数据集的聚合归因，中间和最后一行分别显示了GridPG和标准定位设置下的示例。我们观察到，虽然IxG归因看起来有噪声（第二列），但平滑使得正面和负面归因清晰地分开，正面归因集中在物体周围。例如，在第二行中，IxG归因集中在狗和狼周围，但S-IxG使用K=129正确地只将狗正面归因。这可能表明模型的有效感受野（RF）[43]有限。具体来说，请注意，对于分段线性模型，如果在RF内的所有输入维度上对贡献（由IxG给出）求和，则完全得到输出logit（不考虑偏差）。因此，具有小RF的模型将被适当大小的核的S-IxG很好地总结；我们在补充材料中对此进行了更详细的阐述。

AggAtt在DiFull上：我们在DiFull上使用每种方法家族的一种方法，即基于反向传播的（IxG，输入层）、基于激活的（Grad-CAM，最终层）和基于扰动的（RISE，输入层）方法，在它们各自的标准层上进行视觉评估归因（见图8）。第一行证实了反向传播方法在DiFull上显示出的近乎完美的定位。中间一行显示Grad-CAM归因集中在左上角和右下角，其中包含相同类别的图像，因为全局梯度池化使其无法区分两者，即使只有左上角的实例（这里）影响分类。最后，对于RISE，我们观察到，尽管归因在大约一半的图像中定位良好，但使用随机掩码导致下半部分的归因噪声很大。

E. 使用不同LRP配置的评估

从前几节中，我们看到使用[35]的配置的LRP在所有层上的表现超过了所有其他归因方法。更一般地说，LRP [7]是一个包含在反向传播期间修改梯度的一系列归因方法的范式。相关性传播的机制由一组在整个网络中使用的传播规则指定。通常根据层的类型和其在网络中的位置为每个层选择规则，将层映射到规则构成了一个独特的LRP配置。一些独立提出的现有基于反向传播的方法，如IxG [10]和Excitation Backprop [13]，可以被视为LRP [14]的特定配置。

在本节中，我们研究了规则选择及其超参数在LRP归因性能中的影响。具体来说，按照先前的工作[14]，我们考虑了一个复合配置（以下简称LRP-Composite），它在全连接层上应用ϵ规则，在除第一层外的卷积层上应用γ规则，在第一层卷积层上应用zB规则。与在传播相关性时平等考虑正面和负面贡献的ϵ规则不同，γ规则使用了一个超参数γ，增加了对正面贡献的权重。随着γ → ∞，仅根据正面贡献传播相关性，该配置与[35]中使用的配置相同，以及前几节中的（以下简称LRP-Focus）。在我们的实验中，我们调查了γ对LRP性能的影响，并使用{0, 0.001, 0.01, 0.1, 0.25}中的γ值评估了LRP-Composite。γ = 0对应于使用ϵ规则，其中不给予正面贡献额外的权重，而γ = 0.25是常用的值（例如[14]）。我们还评估了设置当γ → ∞，即使用LRP-Focus。两种模型在GridPG上的定量结果可以在图10中找到。

我们发现性能对γ的选择非常敏感。低γ值（高达0.01）定位很差，特别是在输入层。对于较高的γ值，包括LRP-Focus，其中γ → ∞，定位性能在两个模型的所有层上都很高。我们将其归因于以下原因：如果仅在中间层考虑正面贡献，则对最后层的归因的符号将在整个反向传播过程中得以保持。特别是，输入层的正面和负面归因的分布将在很大程度上取决于最终层的归因。因此，由于ϵ规则在最终层表现良好（类似于IxG和IntGrad），保持归因的符号将导致在输入层获得良好的结果，这是γ规则通过抑制负面贡献实现的。我们认为，理解如何更好地在反向传播过程中整合负面贡献以反映所有模型计算，是未来工作的一个有趣方向。

缺乏实现不变性：如[11]中讨论的，LRP通常不是实现不变的，即功能等价的模型对于相同的输入可能被分配高度不同的归因图。特别是，这也适用于在表现最佳的LRP-Focus配置中使用的z+规则。这导致了通过适当制定等价模型来控制哪些像素获得归因的可能性。重要的是，正如我们在补充材料中所示，这也可能使得对输出logit没有影响的像素获得高归因。这表明，尽管LRP可能表现优异，但在实践中使用它之前，必须仔细考虑所使用的参数和设置的属性。

VI. 讨论和结论

在本节中，我们总结了我们的结果，并讨论了高层次的建议。首先，我们提出了一种新的定量评估设置，DiFull，以分离模型的行为和归因方法的行为。这使我们能够通过将输入划分为可能和不可能影响模型决策的区域来评估模型的忠实度。使用这种方法，我们展示了（见图4）一些常用的归因方法，例如Grad-CAM，可能提供不忠实于模型的归因。另一方面，尽管有些嘈杂，基于反向传播的方法如IntGrad和IxG在这种设置下实现了完美的定位。我们注意到，我们的设置无法评估目标网格单元内归因的正确性，因此DiFull的高定位性能是一个好的归因方法的必要条件，但不是充分条件。换句话说，DiFull可以被视为任何模型忠实归因方法都应该通过的粗略的合理性检查，但我们的结果表明，许多方法没有通过。这可能在模型学习专注于图像中的固定局部区域以做出决策的用例中具有实际重要性。

其次，我们观察到不同的归因方法通常在不同的深度进行评估，这导致它们之间的比较是不公平的。为了解决这个问题，我们提出了一种多层评估方案，ML-Att，通过它我们在相同的模型深度比较每种归因方法（见图4和9）。我们发现，令人惊讶的是，包括基于反向传播的方法如IxG和IntGrad在内的多种方法在最终层表现非常相似并且定位良好。结合它们在DiFull上的完美定位，这表明当需要粗略定位时，IxG和IntGrad在最终层可以作为Grad-CAM的替代品。定量（见图4和9）和定性（见图6和8）中间层的结果也指向了忠实度和归因的粗糙度之间存在权衡，特别是对于像IxG和IntGrad这样的方法。虽然更接近输入计算的归因解释了网络的更大部分并提供了更细粒度的归因，但这种归因通常定位不佳，对最终用户不是很有帮助。另一方面，更接近最终层计算的归因只解释了网络的一小部分，但更粗糙，定位更好，更清晰地突出了对象特征。因此，计算归因的层次的选择将取决于用户在这种权衡中的偏好。

第三，我们提出了一种聚合归因评估方案，AggAtt，以全面可视化归因方法的性能。与在一小部分示例上评估不同，这显示了数据集中的全范围定位，并消除了选择示例时可能产生的偏见。此外，它允许人们轻松地可视化最佳和最差定位示例的性能，并可能有助于识别归因方法意外失败的情况。

第四，我们展示了一个简单的事后高斯平滑步骤可以显著提高某些归因方法（IntGrad、IxG）的定位（见图5和7）。与常用的平滑技术如SmoothGrad不同，这种方法不需要多次通过网络，也不需要选择超参数。正如我们在补充材料中所示，它还会产生更好的定位归因。这表明，尽管最初有噪声，从这些方法中获得归因图的局部摘要可能在实践中对人类有用。然而，我们发现平滑的有效性受到网络架构的影响，特别是批归一化层的存在，这表明在使用归因方法时必须考虑架构因素。

最后，我们发现某些配置的层级相关性传播（LRP）在所有网络深度上定量和定性上始终表现最佳。然而，通过在不同的LRP配置之间进行插值（见第V-E节），我们发现这可能是因为表现良好的LRP配置在反向传播过程中保持了对最终层归因的符号。因此，模型计算的某些方面可能没有反映在最终的归因图中（中间层的负面贡献被忽略了），最终归因在很大程度上取决于最终层的定位性能。如何在反向传播过程中更好地反映这些负面贡献，是未来工作的一个有趣方向。

虽然我们的工作集中在CNN上，但在最近提出的最先进的图像分类架构上进行全面评估，例如视觉变换器（ViTs）[44]，也是未来工作的一个有趣方向。

总体而言，我们发现公平的比较、全面的评估（DiFull、GridPG、AggAtt、ML-Att）以及仔细分离模型行为和解释，为归因方法的性能提供了更好的见解。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247495731&idx=1&sn=3f151d260067d9db8c2d99482dd1101f

PaperEveryday

为大家分享计算机和机器人领域顶级期刊