TPAMI 2024 | IG2：迭代梯度路径上的集成梯度用于特征归因

文摘 2024-11-03 19:00 中国

点击下方“计算机书童”卡片，每天获取顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

IG2: Integrated Gradient on Iterative Gradient Path for Feature Attribution

题目：IG2：迭代梯度路径上的集成梯度用于特征归因

作者：Yue Zhuo; Zhiqiang Ge
源码：https://github.com/JoeZhuo-ZY/IG2

摘要

特征归因通过提供输入特征对模型预测贡献的重要性分数，在实例层面上解释人工智能（AI）。集成梯度（IG）是一种针对深度神经网络的突出路径归因方法，涉及从被解释输入（explicand）到反事实实例（baseline）沿路径的梯度积分。当前的IG变体主要关注explicand输出的梯度。然而，我们的研究表明，反事实输出的梯度也显著影响特征归因。为了实现这一点，我们提出了迭代梯度路径集成梯度（IG2），同时考虑这两种梯度。IG2将反事实梯度迭代地纳入积分路径，生成了一条新颖的路径（GradPath）和一个新的基线（GradCF）。这两个新颖的IG组件有效地解决了早期IG方法中归因噪声和任意基线选择的问题。作为路径方法，IG2满足许多理想的公理，这些在论文中得到了理论证明。在XAI基准测试、ImageNet、MNIST、TREC问题回答、晶圆图故障模式和CelebA面部属性上的实验结果验证了IG2与最先进的技术相比提供了更优越的特征归因。

关键字

反事实解释
可解释人工智能（XAI）
特征归因
集成梯度

I. 引言

人工智能（AI）模型在工业控制和生物医学分析等关键领域变得越来越普遍。因此，对它们的可解释性（XAI）研究变得迫切需要。这对于保持人类参与循环以及帮助人们理解、解释和控制模型至关重要。给定一个输入实例（例如，一张图片），深度神经网络的特征归因量化了各个特征（如像素）对模型输出的贡献。这些结果可以帮助用户理解哪些输入元素驱动了模型预测。

梯度是特征归因的基本形式，它分析了深度网络的模型系数。早期的局部梯度方法，如香草梯度（Vanilla Gradient）、Grad-CAM和引导反向传播（Guided Backpropagation），受到梯度饱和问题的困扰，即输入邻域中的梯度具有误导性。最近，为了解决这个问题，提出了集成梯度（IG）作为一种路径方法，它在被解释实例（即explicand）和基线之间沿路径积分梯度。

IG方法引入了反事实解释的概念，通过对比性地解释模型，回答了：“哪些特征导致模型输出预测A（explicand的）而不是反事实预测B（基线的）？”从哲学和心理学的角度来看，反事实与人类对意外事件的解释认知一致，并且在许多归因方法中有所暗示，如SHAPley Additive exPlanations（SHAP）、DeepLIFT、SCOUT和子区域解释。

本研究的重点是IG，这是一种针对深度神经网络的著名路径（归因）方法。路径方法基于Aumann-Shapley博弈论，遵循许多可描述的公理。IG的归因性能取决于两个基本的超参数：路径和基线。传统的方法是香草IG，通常使用零基线（例如，全黑图片）以及直线路径。然而，这种选择是任意的，并且与模型和explicand无关，导致了几个缺点。例如，直线路径可能由于饱和效应引入归因中的噪声，使用黑色基线将导致归因不完整。

最近，提出了许多不同的路径和基线的变体路径方法来改进归因。对于积分路径，Guided IG通过选择具有最小偏导数的特征来自适应地选择路径；Blur IG在逐渐模糊的图像路径上积分梯度。对于基线，Expected IG从数据分布中采样基线；Sturmfels等人讨论了不同基线对路径方法的影响。

值得注意的是，尽管取得了这些进展，大多数现有的基线和路径被认为是模型不可知的和explicand不可知的。我们认为，优秀的基线和路径应该包含explicand和模型的信息，这激发了IG2的想法。表I总结了现有的基于IG的方法从路径和基线的角度，第V-B节详细对比了它们与我们的提案。

IG2：图1描述了IG2。从explicand开始，IG2迭代地在反事实梯度的下降方向搜索实例，最小化explicand和反事实之间的表示距离。在每一步搜索的所有样本集合被表示为GradPath，其端点是基线GradCF，一个反事实（CF）示例。顾名思义，IG2在积分过程中乘以两个梯度：一个是explicand预测的梯度，另一个是反事实类别的梯度，后者包含在GradPath中。IG2由于在路径方法的两个基本要素上的区别：积分路径和基线，提供了比现有技术更优越的归因。

GradPath在IG2中有效地减轻了饱和效应。这是通过与反事实梯度对齐实现的，导致模型对explicand的预测迅速下降。图1通过在α=1时的归因展示了GradPath的优点，其中三条路径具有相同的explicand梯度。GradPath通过指向区分explicand和反事实的显著特征，通过路径积分“过滤”了explicand梯度中的噪声。相比之下，香草IG的直线路径与explicand梯度的方向不同，导致图像背景中的噪声沿积分路径累积，导致饱和效应；Guided IG与IG2有类似的想法，但其路径方向受到限制，导致归因不如IG2完整。

GradCF是IG2中提出的新基线，其优势在图2中用不同的基线对比explicand进行了说明。GradCF可以显著突出关键特征。对于[Doberman]示例，GradCF准确地用反事实梯度突出了狗的身体。相反，使用黑色基线忽略了狗上的黑色像素，反而错误地归因给了白色背景。虽然Expected IG使用反事实数据作为基线来解决这个问题，但这种在输入空间的简单对比仍然与explicand无关，导致噪声。对于其他两个数据集，GradCF也准确地突出了关键特征，区分了数字5和数字6，以及有缺陷的晶圆图与正常晶圆图之间的区别。

在这项研究中，我们的主要贡献是引入了IG2，一种新颖的路径归因方法。IG2包括一个新的基线GradCF和一个新的积分路径GradPath。据我们所知，这是第一次将反事实梯度整合到路径归因方法中。通过在不同领域的数据集上进行广泛的实验，定性和定量结果一致地证明了IG2优于现有的最先进的归因方法。此外，我们通过消融研究证明了GradCF和GradPath各自的有效性。

论文的其余部分组织如下：第II节介绍了路径方法的初步知识；第III节详细展示了我们的提案；第IV节深入洞察IG2并理论上证明了其公理；第V节将我们的方法与不同领域的相关工作进行了对比；第VI节展示了实验结果以验证IG2的归因性能；第VII节介绍了IG2的实现细节；第VIII节总结了论文。

II. 路径方法的初步知识

路径方法基于Aumann-Shapley理论，具有许多理想的属性。给定n维输入实例x ∈ R^n，路径梯度积分的形式定义为α ∈ [0, 1]的γ(α)。路径γ(α) : [0, 1] → R^n由R^n中的一组点组成，从基线x'到explicand x（即，γ(0) = x' 和 γ(1) = x）。

给定一个路径γ和模型f : R^n → R（在分类模型中，只考虑explicand的类标签输出），路径积分梯度通过沿路径γ(α)i积分模型输出相对于第i个特征值的梯度来归因第i个特征，定义为[9]：

其中第一个乘数是explicand的模型预测梯度，第二个乘数是路径方向。

基线：基线x'的选择是多样的，目前还没有共识哪个基线是最好的。工作[20]仔细研究了主流基线，我们总结在表I中。零（黑色）实例x' = \vec{0}，一个（白色）实例x' = \vec{1}和训练数据x' ∼ D_{\text{train}}是三个常用的基线。

直线路径：常用的路径是从explicand x到基线x'的直线，由γ(α) = x' + α × (x − x')对α ∈ [0, 1]指定。

在实践中，直接计算（1）中的积分是不切实际的。相反，使用黎曼和来近似离散近似，积分区间内有k个点。在直线路径上，IG[9]通过以下方式计算：

III. IG2的方法论

IG2是一种路径方法，通过引入一个新的基线（GradCF）和一个新的积分路径（GradPath）来扩展IG[9]。顾名思义，IG2不仅累积了explicand预测的梯度，还累积了反事实梯度，后者包含在GradPath的方向中。

给定一个explicand x，IG2首先采样一个具有与x不同类别标签的反事实参考xr。我们将xr称为参考而不是基线，因为它不是IG2的积分端点。

定义1.（IG2归因）：设xr表示参考，γG表示GradPath，f和分别表示被解释模型的预测和表示层，IG2归因explicand x的第i个特征定义为：

其中Wj是归一化系数，η是步长超参数。

(3)明确揭示了IG2的本质：两个梯度的乘法。与(2)中的香草IG相比，主要区别在于explicand梯度的黎曼求和权重：反事实梯度的权重可以突出关键特征，而香草IG中的权重是常数。直观地说，IG2引入了模型表示差异的信息，而不仅仅是输入特征空间中的朴素差异（即，）。

总体上，IG2建立在两个阶段之上：构建GradPath和在GradPath上积分梯度。以下各节分别介绍它们，推导出(3)中的IG2。

A. 构建GradPath

图3说明了在迭代搜索GradCF期间如何构建GradPath。GradCF的动机是提供反事实解释：

给定有限的扰动资源，哪些特征在explicand x上的扰动可以使模型认为被扰动的explicand与（反事实）参考xr最相似？

这种相似性可以通过两个模型表示之间的距离来衡量，扰动搜索可以转换为最小化问题。表示网络表示为，扰动为δ，欧几里得距离度量为，GradCF的优化目标为：

我们迭代地使用归一化梯度下降在每一步解决(4)。GradPath γG是通过迭代过程中归一化梯度下降的轨迹构建的，端点x + δ是目标反事实基线，GradCF。

定义2.（GradPath）：给定参考xr和模型表示，GradPath由离散函数γG定义，在可行集{0, 1/k, ..., (k-1)/k, 1}上，对于0 ≤ j ≤ k − 1，j ∈ N：

其中Wj在算法1的第5行中引入。

GradCF作为解释（GradCFE）：我们可以使用GradCF和explicand之间的差异来提供反事实特征归因：

B. 在GradPath上积分梯度

IG2以与路径方法相同的方式积分特征梯度（在(1)中）。由于GradPath γG是一个离散函数，它没有连续的梯度，我们可以操作有限差分来近似路径梯度。前向差分和后向差分都是可行的。根据(5)，GradPath的路径梯度可以由以下两种差分计算：

其中第一行是前向差分，第二行是后向差分。

使用(7)中的后向差分和(1)中的黎曼和，我们推导出IG2归因（对于第i个特征）：

其中两个分母被替换为，因为（算法1第8行）。

实际上，积分方向（从基线到explicand）与GradPath搜索方向（从explicand到基线）相反。因此，后向差分需要先计算完整的GradPath，然后积分梯度。如果使用前向差分，梯度积分可以与GradPath同时计算。

对于IG2的实现细节，第VII节全面讨论了超参数对IG2归因的影响，包括参考、步长、步数、归一化和相似性度量。还分析并比较了IG2与其他归因方法的计算成本。

IV. 解释IG2

新的基线（GradCF）和新的积分路径（GradPath）是IG2的两个主要贡献，所以我们通过解释这两个组成部分的优越性来讨论IG2。具体来说，第IV-B节和第IV-A节回答了为什么GradCF和GradPath是比现有方法更好的基线和积分路径的问题。理论上，第IV-C节证明了IG2和GradCFE的期望公理。

A. GradPath：减轻饱和效应

从饱和效应的角度讨论了GradPath对特征归因的优越性。

定义3.（饱和效应）：[18]，[23] IG的直线路径容易穿过模型输出相对于α基本不变的饱和区域。在这个区域，特征梯度并不指向积分路径。这种现象导致噪声归因的累积，称为饱和效应。

(1)中的积分值可以分解为两个乘数：（输入）特征梯度和路径方向。饱和区域的存在表明特征梯度和积分路径方向不一致（否则，模型预测应该迅速下降），这意味着路径没有在重要特征上移动。这将导致错误的特征归因，一个好的积分路径应该避免这个不良区域。

饱和效应在[18]，[23]中进行了分析。提出了一些技术来解决这个问题，例如，通过多个直线路径平均[26]，[27]和将直线路径分割成不同段落[18]。Guided IG[23]通过设计路径明确避免饱和区域，该路径基于特征梯度的绝对值。然而，Guided IG的路径仍然限制在以直线路径为对角线的超矩形中。

GradPath有效减轻了饱和效应。回顾(4)中GradCF的目标，我们最小化了与反事实模型表示的距离，这意味着同时最小化了explicand的预测。GradPath的每一步都指向迅速降低模型预测的陡峭方向（图4所示）。

作为图1的补充，图4(b)显示了在三个数据集上的平均输出曲线。与直线相比，Guided IG的路径和GradPath都避开了饱和区域。由于Guided IG的路径受到限制，GradPath可以更快地摆脱饱和区域。

B. GradCF

基于在反事实解释（CFE）领域的工作，我们总结了一个好的反事实基线在路径方法中应该具备以下理想属性：

有效性[11]：反事实基线应该被分类为期望的类别（与explicand不同）。
数据流形接近度[28]：如果一个反事实基线导致了分类器以前从未见过的特征组合，那么很难信任这个反事实基线。因此，生成的反事实应该在实际上是接近训练数据的，即在特征流形上是现实的。
Explicand相关性：一个好的反事实示例应该与explicand相关，以直接对比特征。尽管几乎所有的CFE方法[28]都是基于explicand生成反事实示例的，但大多数现有路径方法的基线是explicand不可知的（见表I）。

常用的不具信息的基线（黑色和白色）违反了所有三个属性，它们是不现实的，并且没有任何类别信息。例如，黑色像素将不会用全黑基线进行归因，即使它对模型输出有贡献。

Expected IG[19]通过使用数据分布中的样本（图4中的CF1）解决了这个问题，它满足了有效性和数据流形接近度。然而，训练数据的采样过程是explicand不可知的，这在特征空间中提供了不准确的对比（在图6(a)中讨论）。

一个基本的反事实示例（图4中的CF2）也进行了比较。CF2是使用投影梯度下降（PGD）[29]攻击生成的，该攻击引起了最小扰动，使模型给出反事实预测[30]。尽管这个基本CF与explicand相关，但它通常是不现实的，违反了数据流形接近度。

独特地，GradCF满足了所有三个可描述的属性，它与explicand相关并且保持在反事实数据的流形上。换句话说，GradCF的生成同时意味着接近explicand和反事实的特征流形。

MNIST示例：图6(a)展示了Explicand相关性的重要性。使用数字7作为参考，我们在不同位置解释移位的数字1。根据人类直觉，区分数字1和7的关键区域在数字1的左上角（见红色框）。图6(a)显示，IG2突出显示的区域与explicand和关键区域的移动同步，即Explicand相关性。

对于Expected IG，使用参考样本作为基线只提供了输入特征空间中的朴素像素对比。这将导致与explicand无关的解释，这显然与直觉不一致（见图6中的最后几行）。

C. IG2的公理

作品[9]，[12]，[17]声称路径方法是唯一满足某些理想公理的方法。作为路径方法的一个子集，我们证明了IG2满足以下四个公理：完整性、虚拟性、实现不变性和对称性，GradCFE也满足了后三个。

定义4.（完整性）：对于每个explicand x和基线x'，归因加起来等于预测差异f(x) − f(x')：

IV-C. IG2的公理

定义4.（完整性）：对于每个explicand x和基线x'，归因加起来等于预测差异f(x) − f(x')：

备注1：像其他路径积分方法一样，IG2也在保守（输入）向量场中积分。由于所有路径方法都满足完整性，无论路径形状如何（见[9]，[31]），IG2满足完整性。

由于我们的提议利用了模型表示，我们扩展了其余三个公理的定义到表示层版本，扩展分别是（即，分别）在括号内显示的。值得注意的是，如果我们使用输出层作为表示，就不需要扩展。

定义5.（虚拟性）：虚拟特征获得零归因。如果对于任何两个值xi和x'i，以及任何其他特征xN\i的值，f(xi; xN\i) = f(x'i; xN\i)（分别表示为）。从概念上讲，模型没有引用的特征自然需要零归因。

备注2：IG2满足虚拟性，GradCFE满足表示层的虚拟性。后者是前者的充分条件。

证明：根据(5)，给定任何在GradPath上的点γG(α)，特征γG(α)i的变化与归一化梯度成正比：

根据虚拟性的定义，，因此

根据(3)和(6)的定义，我们得到了IG2和GradCFE对于虚拟特征在表示层的零归因。

IG2的虚拟公理不要求特征在表示层是虚拟的。假设特征仅对模型输出（未扩展的定义）是虚拟的。在这种情况下，IG2仍然分配零归因于这个特征，其证明类似于（3)中虚拟特征的explicand梯度恒等于零），此处不再重复。

定义6.（实现不变性）：如果两个网络对于所有输入的输出（分别表示）相等，尽管它们的实现非常不同，那么这两个网络在功能上是等价的。归因方法应满足实现不变性，即对于两个功能上等价的网络，归因始终相同，并且不涉及实现细节。

备注3：IG2和GradCFE满足实现不变性。前者是后者的充分条件。IG2和GradCFE仅依赖于输出和表示的模型梯度（GradCFE仅关心表示梯度），这些对于模型在表示层之前的内部实现是不变的。

定义7.（对称性）：对于每个函数f（分别表示为）在两个变量i和j上是对称的，如果f(· · ·, x_i, x_j, · · ·) = f(· · ·, x_j, x_i, · · ·)（分别表示为）。如果explicand x是这样的，xi = xj，那么对于对称函数的特征i和j的归因应该是相等的。从概念上讲，在对称函数下，相同的对称变量获得相同的归因。

备注4：IG2和GradCFE保持对称性。前者是后者的充分条件。值得注意的是，之前的路径方法要求基线x'中的变量i和j的值也相同，即，而我们的方法则不需要。具有相同对称变量的explicand将导致GradPath上每一点对称变量的值相同。因此，IG2和GradCFE为对称变量提供相同的归因。

命题1：（Guided IG [23]）如果对称变量的值在积分路径的每个点上都相等，那么它们的归因也相等。因此，这样的路径归因方法是对称性保持的。

证明：根据命题1，如果IG2和GradCFE在GradPath γG上的对称变量的值在每个点上都相等，那么它们就保持对称性，证明如下。

给定explicand x，我们只关注对称变量i和j，x = (· · · , x_i, x_j, · · ·)，其中 x_i = x_j。根据(5)，变量x_i沿GradPath γG的变化是：

同样，我们可以得到变量x_j的变化：

因为对变量i和j是对称的：

(15)和(17)中的两个梯度相等，我们得到变量i和j的相同变化：

从explicand的相同值 xi = xj 开始，我们可以得到对称变量 xi 和 xj 在 GradPath 的每一步都是相等的。因此，IG2和GradCFE为对称变量提供相同的归因。□

V. 相关工作

本节首先介绍XAI领域中的先前归因方法，然后系统地将我们的提案与三个子领域中的相关工作进行对比：路径归因、Shapley值和对抗性反事实解释。

A. 特征归因

特征归因是一种事后方法，通过评分模型输出对输入特征的贡献来解释AI模型[32]。基于梯度的方法广泛用于归因。最早的成功工作之一是DeconvNet[33]，它对梯度计算应用了ReLU非线性。基于香草梯度[4]和DeconvNet，引导反向传播[6]引入了来自高层的额外引导信号。进一步地，类激活图（CAM）被开发出来[34]，其变体如Grad-CAM[5]也取得了成功。

另一类基于扰动的归因方法通过扰动输入特征来分析模型的敏感性。遮挡敏感图[33]是早期的方法之一，它用灰色方块扰动输入图像并观察模型预测。LIME[35]不仅限于深度模型，可以应用于任何预测模型，通过训练一个线性代理模型。

Shapley值可以被认为是一种特殊的基于扰动的方法，被认为是唯一满足某些理想公理的方法[36]。然而，计算确切的Shapley值是NP难的[37]，这对于深度神经网络是不切实际的。因此，相关工作致力于通过较少的模型评估来高效近似Shapley值。一些工作基于采样：Strumbelj等人[38]和Mitchell等人[39]分别提出了蒙特卡洛和准蒙特卡洛方法来随机采样排列；KernelSHAP[12]使用LIME来减少样本数量；Chen等人[40]利用底层图结构来处理结构化数据；Wang等人[41]利用贡献合作者选择的优势；Ancona等人[42]引入了概率深度网络来近似通过网络层传播Shapley值。为了进一步加速近似，FastSHAP[43]训练了一个替代模型来快速生成解释，避免了昂贵的采样过程；DeepSHAP[12]在每一层近似Shapley值，并通过DeepLIFT[7]以反向方式合并。

B. 路径方法

路径方法是一种流行的特征归因方法，它沿路径积分梯度。表I总结了据我们所知的现有路径方法。IG2是第一个具有特定于模型的路径和基线的方法。

与Blur IG[24]对比：Blur IG与IG2在迭代算法的同时构建基线和积分路径方面相似。Blur IG的本质是迭代地从explicand到完全模糊的explicand的基线构建路径。由于模糊的基线完全依赖于explicand，它缺乏模型和数据分布中的反事实信息。此外，Blur IG仅限于图像，不适用于表格数据。

与Expected IG[19]对比：Expected IG使用来自数据分布的信息性基线，这是我们提案的参考。然而，基线与explicand无关，其直线路径通过特征空间中的朴素差异对比基线和explicand，这仍然受到饱和效应和噪声问题的影响。值得注意的是，Expected IG2（在第VII-A1节中）遵循Expected IG的思想，通过从数据分布中采样参考来计算平均归因。

与Guided IG[23]对比：Guided IG是与IG2最接近的工作之一。首先，我们的提案隐含了与Guided IG（在第IV-A节中讨论）类似的动机。其次，两个积分路径都是基于梯度信息迭代计算的，以明确或隐含地避免饱和区域。我们认为GradPath的形状是Guided IG路径的概括。如果我们使用(2)中的归一化，GradPath与Guided IG的路径形状相同。我们选择具有最大反事实梯度的稀疏特征，而Guided IG选择最小explicand梯度的相反方向（相同的形状并不意味着相同的积分路径）。

C. Shapley值

IG方法被认为是Aumann-Shapley值的概括，Shapley值的连续设置扩展，继承了理想的归因公理[9]。与基于采样的Shapley值近似相比，IG2主要在两个方面进步：

r 可扩展性：尽管最近的算法可以实现高效近似，但对于高维输入特征（例如，ImageNet样本）仍然不切实际。它们不得不应用超像素（组像素）来降低输入维度[12]，[39]，[42]，这损害了解释质量。在大型模型上，IG基础方法比大多数Shapley值算法更有效，计算时间与基于采样的KernelSHAP的比较报告在附录A.5中。

r 隐含的零基线：与香草IG一样，许多Shapley值方法需要通过将特征替换为零值来指示特征的缺失，这隐含地定义了一个零基线。零基线的不利影响已经在前面的部分中讨论过。

与DeepSHAP[12]对比：与其他基于采样的近似不同，DeepSHAP与IG方法更相关。其核心部分，DeepLIFT，用每个非线性函数的平均梯度替换梯度，被证明通常是IG的良好近似[44]。

总之，尽管有相同的理论基础，我们认为IG和Shapley值近似是两条不同的轨道：前者主要设计用于解释具有可访问梯度的大型网络，后者更适合于准确近似确切的Shapley值，更适合于小型黑盒模型。

D. 对抗性反事实解释

对抗性学习与反事实解释共享相同的优化目标，它们是紧密相关的[30]。一些工作[45]，[46]利用对抗性攻击来解释网络。GradCF与反事实解释和对抗性攻击不同，在违反反事实解释应是explicand上的微小扰动的原则方面[28]。因此，我们认为GradCF既不是规范的反事实解释（GradCF仍提供反事实解释），也不是对抗性攻击。

从方法论的角度来看，(4)中的迭代梯度下降优化方法遵循了对抗性攻击方法。优化与归一化来自投影梯度下降（PGD）[29]，而归一化来自稀疏对抗性攻击[47]。唯一的区别是对抗性攻击方法将计算出的实例限制在explicand的邻域内，以保证不可感知的扰动。

值得注意的是，相同的归一化优化方法也在工作[48]中使用。然而，他们专注于在对抗性攻击下搜索鲁棒特征，而模型解释不在他们的范围之内。

VI. 实验

我们在一个人造数据集XAI-BENCH和四个真实世界任务上进行了归因实验：ImageNet上的形象分类、TREC上的问题分类、晶圆图故障模式的异常分类和CelebA上的人脸属性分类。我们将IG2与六种方法进行了比较：

（香草）梯度：基于反向传播的基本特征归因方法，使用输入梯度相对于模型预测来生成显著性图。
香草IG、Guided IG、Expected IG：在前几节中讨论的基于IG的三种方法。
KernelSHAP：一种基本的采样方法，用于近似黑盒模型的Shapley值，是近似算法的常见基线。由于可扩展性限制，在用KernelSHAP对ImageNet和晶圆图样本进行归因时应用了超像素技术。
DeepSHAP：一种针对深度模型的高速Shapley值近似，基于DeepLIFT。

对于比较方法的基线，香草IG、KernelSHAP和Guided IG都使用黑色图像作为（隐含的）基线，Expected IG和DeepSHAP从与IG2的反事实参考相同的分布中采样基线。

A. XAI基准测试

首先，我们在XAI-BENCH[50]发布的合成数据集和指标上评估我们的提案，XAI-BENCH是特征归因算法的基准。合成数据集允许有效计算地面真实Shapley值和其他指标，这在真实世界数据集上是不切实际的。我们在XAI-BENCH工作[50]中简要介绍了数据集和指标，详细信息可以在文献中找到。

1) 合成数据集：特征是从多元正态分布X ∼ N(µ, Σ)中采样的，其中µ是均值向量，Σ是协方差矩阵。标签是二元的（0和1），在具有函数Ψ(x)的分段分布上定义。被解释的模型是在合成数据集上训练的三层感知器，用于回归任务。模型和合成数据集的规范报告在附录B.2中。

2) 指标：我们使用了XAI-BENCH中的五个指标：(1) 忠实度计算归因和每个特征的近似边际贡献之间的皮尔逊相关系数；(2) 单调性计算特征归因顺序i的边际改进分数大于特征归因顺序i + 1的边际改进分数的比例；(3) ROAR是移除并重新训练，重新训练模型并计算模型的AUC；(4) GT-Shapley计算特征归因与地面真实Shapley值（地面真实边际改进）之间的皮尔逊相关系数；(5) 不忠计算将每个特征替换为嘈杂基线条件期望的影响。

3) 结果：表II报告了在XAI-BENCH数据集上评估特征归因的五个指标。香草IG和Guided IG使用零基线的不同路径，Expected IG使用数据分布作为基线。我们还使用随机生成的归因（随机）作为弱比较。

这些结果评估了小型模型和低输入维度的特征归因。IG2通常在前三个指标上优于大多数其他方法。不足为奇的是，Shapley值采样方法（KernelSHAP）在GT-Shapley指标上表现最佳。Expected IG比其他IG方法的改进揭示了使用数据分布基线除外的归因是有效的。

B. 真实世界数据集的指标

我们采用了两种类型的定量指标来评估真实世界数据集上的特征归因：

真实世界注释[51]：第一个指标需要人类注释的地面真实分割。更好的归因应该更接近地面真实注释。具体来说，这个指标将归因视为二元分类预测分数。通过改变归因分数的阈值，将特征添加到背景中，计算接收者操作特征曲线下面积[23]，称为地面真实-AUC。我们也可以使用方法（归一化）归因分数和地面真实的乘积来显示注释特征上的归因总和，称为地面真实-SUM。
Softmax信息曲线（SIC AUC）[26]：这个指标不需要地面真实注释，并且测量归因特征可以多大程度上影响模型预测，这与Shapley理论中的边际贡献概念类似。更好的归因应该有更好的关注点，模型真正关注的地方。有两个不同方向的指标。第一个指标逐渐将explicand的特征值添加到背景中。通过滑动归因阈值，首先添加具有最大归因的特征，最后添加最小的。更好的归因方法应该更快地增加模型预测，这可以通过Softmax预测曲线相对于阈值的面积来量化，称为SIC AUC-ADD。相反，另一个指标删除最重要的特征，直到所有特征都被背景替换[19]。类似地，更好的归因方法应该更快地减少模型预测，其中阈值相对于AUC称为SIC AUC-DEL。

表III总结了三个真实世界数据集的四个指标，IG2通常优于其他方法。

C. 图像分类解释

1) 数据集：我们验证了IG2在标准图像分类数据集ImageNet上的性能。我们从ILSVRC[21]子集（1k类别）中取出被解释的图像，并使用Inception-v3[22]的预训练分类器，输入大小为299×299。我们只考虑Inception-v3分类器预测为前5个类别之一的图像。

2) 归因：图7显示了用四种基于IG的方法和两种Shapley值方法解释的ImageNet图像，其中IG2通常优于以前的技术。虽然引导IG通过构建避免饱和区域的路径有效地减少了噪声（在第IV-A节中讨论），但由于任意基线包含的反事实信息较少，其归因仍然不完整。这个问题在黑色主体图像（图7中的图像#1、#2、#4和#5）中尤为明显。

Expected IG和DeepSHAP通过使用数据分布上的有信息基线来解决这个问题，提供了更多关于图像主体的归因，但它仍然受到不希望的噪声问题的影响。这在有干扰物的图像中尤为明显（例如，#6[basketball]中的狗和#7[sax]中的球员）。Expected IG和DeepSHAP会错误地突出显示这些与explicand类标签无关的对象。

IG2结合了Guided IG和Expected IG的两个优势，分别归因于两种技术，GradPath和GradCF：

通过GradPath减少噪声：如第IV-A节所讨论的，IG2的积分路径成功减轻了饱和效应。图7中的图像归因也验证了这一优势。IG2提供了明显少于IG和Expected IG的噪声归因（背景或无关对象上的噪声）。与Guided IG相比，IG2在某些样本上具有竞争力，甚至稍好一些（例如，图像#7）。

通过GradCF更完整的归因：如第IV-B节所讨论的，IG2的特定于explicand的GradCF可以突出显示区分explicand与反事实参考的关键特征。对于ImageNet上的图像，关键区域应该是explicand标签的主题。在线附录图6显示了explicand与GradCF之间的差异（即，GradCFE）。基于这种反事实对比，IG2归因突出显示了比IG、Guided IG甚至Expected IG更完整的关键特征。

表III中的定量指标显示，我们的提案取得了最佳性能。尽管归因不完整，但Expected IG突出显示的特征足以使分类器给出错误的预测。这就是为什么Expected IG在SIC AUC-DEL值上与IG2相当，但在SIC AUC-ADD和地面真实度量上表现要差得多，这两者更依赖于归因的完整性。由于超像素技术使高归因集中在小区域，KernelSHAP在地面真实注释度量上表现相对较好，但其SIC AUC度量并不理想。

D. 问题分类解释

1) 数据集：在自然语言处理（NLP）领域，问题回答是一个重要任务。问题分类可以将问题归类为不同的语义类别（问题是否涉及地点、人物或数字信息等），这可以对潜在答案施加约束。例如，问题——“几内亚猪起源于哪里？”应该被归类为具有答案类型[location]。

我们使用TREC问题数据集[52]，涉及六个语义类别，并训练了一个基于CNN的分类器（TextCNN）[53]。我们对单词级特征进行归因，以寻找对答案类型贡献最大的触发词。

2) 归因：图8列出了从TREC数据集中抽取的来自五个类别的问题，并用IG2和IG进行了单词归因，其中IG2比IG更符合人类语法感知。我们总结了IG2相对于IG的两个优势：

减少对弱疑问词的归因：一些初始疑问词与问题类型有很强的关联，例如“where”表示[location]问题，“who”表示[human]问题（见图8中的#2和#7问题）。在这种情况下，这些疑问词应该被强烈归因。另一方面，一些疑问词关系较弱。例如，“what”和“which”可能几乎表示所有类型的问题（#1、#3、#4、#5、#8和#9问题）。“how”这个词本身是模糊的，只有与其他词结合时才成为触发短语（#6和#10问题）。这些关系较弱的疑问词应该被较少归因。如图8所示，香草IG强烈归因所有疑问词，而IG2则精确地归因不同的疑问词。IG2在强疑问词上保持较大的归因（#2和#7问题中的“where”和“who”），对弱疑问词提供较少的归因（其余问题）。

更多对关键短语的归因：与IG相比，IG2的归因更集中在关键短语上，例如，对于[entity]（#3和#4问题中的“drug”和“name revolt”），对于[description]（#6问题中的“how do”），对于[human]（#7问题中的“sought to”），以及对于[numeric]（#9问题中的“lengths”）。表III验证了IG2的单词归因比其它方法更符合模型行为。由于TREC数据集的输入特征数量较少（最多37个单词），基于采样的KernelSHAP与其他路径方法具有竞争力。

E. 晶圆图故障模式解释

1) 数据集：晶圆图分析对日常半导体制造操作至关重要。晶圆图提供视觉细节，这对确定晶圆图案故障发生阶段至关重要。而不是手工作业，自动识别不同类型的晶圆图故障模式可以有效地提高半导体制造过程的效率。

分类深度神经网络对晶圆图故障模式的解释可以确定哪些部分（像素）的晶圆图是导致故障的原因。这种解释增强了模型自动识别异常晶圆图原因的能力，而不仅仅是识别故障类型。

具体来说，我们使用了WM-811 K数据集[25]，这是公开可用的最大的晶圆图数据集。我们使用整个数据集的子集来训练基于卷积神经网络（CNN）的分类模型，在训练和测试集上均实现了超过98.5%的分类准确率。分类模型的实现细节和WM-811 K中的样本实例在附录B.5中提供。

2) 归因：首先，图9直接比较了WM-811 K数据集中具有不同模式的八个样本的不同归因。与朴素的梯度方法相比，集成梯度显著改善了特征归因。尽管如此，香草IG未能完全突出显示故障模式（如红色地面真实所示），并且受到噪声问题的影响。虽然Guided IG通过设计路径有效地减少了无关特征上的噪声，但其归因仍然不完整，这是由包含较少反事实信息的任意基线引起的。Expected IG和DeepSHAP通过使用[nonpattern]实例的数据分布上的有信息基线来解决这个问题，但其直线路径仍然引入了一些噪声（特别是在圆形边缘上）。

我们的GradCF解决了现有基线中的不准确反事实信息问题，如图9所示。它突出显示了模型表示explicand和参考之间差异的特征。然而，它同时在无关特征上累积了许多不必要的噪声。IG2通过整合explicand预测的梯度，成功解决了这种副作用，显著减少了通过过滤出对explicand类别输出贡献较小的特征来减少噪声归因。

总体而言，与现有的先进归因方法相比，IG2提供了与专家知识和人类直觉最一致的、噪声更少的归因。此外，表III报告了评估归因的定量指标。结果表明，IG2通常优于其他先进的路径归因方法和KernelSHAP。我们的提案显著提高了香草IG的性能，并且与Expected IG和DeepSHAP具有竞争力。

F. 人脸属性分类解释

1) 数据集：CelebA中的每张人脸图像都有40个人脸属性标签，表示特定面部属性的存在或缺失，如微笑、戴耳环或有胡子。我们在CelebA数据集上训练了基于MobileNet-v2[55]的人脸属性分类模型，有40个输出节点对应于每个人脸属性。每个人脸属性的分类准确率在附录B.6中报告。

对于多标签分类器，我们分别解释每个输出标签，即一次一个面部属性[16]。我们使用与explicand最相关的反事实参考，即在解释属性上标签不同但在其他面部属性上最接近的面部。参考对CelebA的影响将在第VII-A4节中分析。

2) 归因：图10展示了在CelebA面部图像上的特征归因。特征归因方法的有效性取决于其准确强调与解释标签相关联的图像区域（如图10中红色虚线区域所示）。以带有标签[Black_Hair]的面部图像为例，IG2方法展示了更集中于头发区域的归因，与其他方法相比噪声更少。相反，香草IG和Guided IG在面部图像中遇到黑色基线问题，错误地忽略了黑色像素。尽管香草梯度和Expected IG方法在CelebA数据集上表现相对较好，但它们仍然受到饱和效应的影响，导致在无关像素（如图像背景）上产生不希望的归因。

总体而言，IG2方法的归因更精确地与解释标签相关的面部区域对齐，而其他方法则倾向于在关键面部区域产生更嘈杂、准确性较低的归因。

G. 消融研究

此外，基于晶圆图数据集，我们研究了GradCF和GradPath作为路径方法的基线和积分路径的独立影响。表IV报告了三种不同的基线（黑色、训练数据和GradCF）在三种不同的路径（直线、Guided IG的路径和GradPath）下的表现。作为一个基线在直线路径和Guided-IG的路径下，GradCF在大多数指标上都取得了最佳性能，与其他两个基线相比。另一方面，GradPath在GradCF基线下的表现优于其他两条路径。

总的来说，我们可以得出结论：(1) GradCF是一个良好的基线，即使独立地与其他路径结合。(2) GradPath在GradCF基线下的表现优于其他路径，实现了IG2。

VII. 实现细节

我们讨论了IG2的细节，包括参考、步骤、归一化、相似性度量和计算成本。我们对这些超参数的不同选择进行了深入分析。一些补充实验报告在附录A中。

A. 参考

IG2的一个主要超参数是反事实参考的选择。具体来说，IG2归因对反事实参考的类别很敏感，但对同一类别的不同样本相对不敏感。

参考类别的选择：对于不同数据集上的分类任务，采样参考的方式也不同：

异常分类：对于由异常和正常样本组成的数据集（例如，晶圆图故障模式），很自然地使用正常类别的样本作为异常explicand的参考，而不是其他异常类别。
通用分类：大多数数据集没有这样的自然类别作为参考，如ImageNet、TREC等。通常，我们从不同类别中随机采样参考。经验上，我们建议从更多类别中均匀采样参考，并每个类别几个（1或2）样本。
减少噪声的技巧：在实验中，我们发现使用与explicand密切相关的类别的参考可以减少归因中的噪声，但代价是失去完整性。这将有利于具有干扰项的explicand，例如一些ImageNet样本（第VII-A2节）和多标签CelebA样本（第VII-A4节）。

通常，我们采用默认参考选择策略（无去噪技巧）。参考类别对IG2归因的影响在四个数据集上进行了讨论：MNIST（图6）、ImageNet（第VII-A2节）、TREC（第VII-A3节）和CelebA（第VII-A4节）。

1) 参考的Expected IG2：为了消除参考选择的影响并减少噪声，我们使用IG2的期望值作为最终归因。Expected IG2是在采样自反事实类别的参考上平均的，定义为：

其中是explicand的反事实类别的数据分布，是由(3)定义的xr的函数。以下，我们不区分IG2和Expected IG2，并在实验中使用Expected IG2作为实践。

2) ImageNet的参考：在ImageNet的实验中，我们发现参考类别会影响IG2归因。我们将参考分为两类：相关参考和不相关参考。相关参考是与explicand密切相关的类别的样本，例如，模型前3个预测中的类别，不相关参考是其他类别的样本。

通常，我们发现仅使用相关参考会导致更集中（噪声更少）但不完整的归因。相反，不相关参考可以确保完整的归因覆盖整个图像主体，但代价是引入更多噪声。图11和在线附录图7直观地比较了不同参考下的IG2归因。此外，我们提出了一个技巧来解决参考选择中的权衡问题。

技巧：参考选择：经验上，具有干扰对象的explicand将从相关参考中受益（见图11(a)和在线附录图7(a)），其干扰对象的归因将较少。相反，带有纯背景的解释主体的图像将从不相关参考中受益（见图11b和在线附录图7(b)），其中归因将在主体上更完整。这条规则允许我们从特定类别中采样参考，以提高归因质量。

这种技巧与反事实解释的直觉一致：模糊（难以识别）类别之间的对比将突出explicand最关键的特征。值得注意的是，这种技巧只对特定数据集中的某些explicand有必要。在更一般的情况下，我们只需要从反事实类别中均匀采样参考。我们在ImageNet数据集上对不同的参考选择策略进行了定量评估，结果报告在表V中。我们将被解释的样本分为两个子集：一个子集包含干扰对象，另一个子集在纯背景上。我们考虑两种策略：“相关”从顶部4个预测的相关类别中选择参考；“不相关”从其他类别中随机均匀采样参考。

通过去噪技巧（使用相关参考），归因更加集中，这导致了所有图像的地面真实-SUM和SIC AUC-DEL的显著提高。由于在ImageNet测试集中，纯背景图像占多数（约72%），两种参考选择策略在整个测试集上具有竞争力。通常，在ImageNet数据集上，IG2使用默认策略进行随机采样参考。

3) TREC的参考：图12列出了针对图8中问题#4的IG2归因，针对不同参考。图12直观地表明，不同类别的参考提供了不同的反事实对比，这使得IG2解释更符合人类编写的语法规则。根据语法规则，问题#4（类别[entity]）的主语短语应该是“起义的名字”。香草IG最归因的两个词是“what”和“against”（见图12中的REF #0），这是不准确的，因为它们并不决定类别[entity]。

IG2使用了参考#1到#8，其中一些洞见可以发现在反事实解释中：相比于IG，所有的参考都使IG2对“what”的归因少得多，这与类别[entity]无关。值得注意的是，即使参考中的疑问词不是“what”，IG2的归因仍然显著减少（见REFs #4到#8）。几乎所有的反事实参考都对比性地突出了“revolt”，因为修改这个词是将explicand变为另一类别的最快方式。6 REF #3是一个例外，其解释是：如果我们只修改单词“revolt”，句子几乎不可能变成类别[description]；但如果去掉短语“the name of”，被解释的问题将与参考#3相似。几乎所有的反事实参考都对比性地突出了“revolt”，因为修改这个词是将explicand变为另一类别的最快方式。6 REF #3是一个例外，其解释是：如果我们只修改单词“revolt”，句子几乎不可能变成类别[description]；但如果去掉短语“the name of”，被解释的问题将与参考#3相似。

单词“name”也被IG2更多地突出显示，但类别[human]和[location]的参考没有提供这种对比。这是因为单词“name”也与类别[human]和[location]相关（例如，“律师的名字”和“国家的名字”）。

最后，图12中的REFs #9和#10列出了与同一类别的参考下的归因，其中单词“revolt”以相反的方向突出显示。非反事实参考下的归因是混乱的，这就是为什么我们在计算Expected IG2时只考虑不同类别的参考。

4) CelebA的参考：我们利用一个多标签数据集来定量评估参考的选择。因此，我们可以使用标签向量的ℓ1距离来衡量参考和explicand之间的相似性，然后构建参考类别和特征归因之间的定量相关性。

图13(a)报告了特征归因度量曲线与CelebA标签距离的关系，平均超过300个CelebA样本。图13(b)显示了一个带有解释标签[Wearing_Earrings]的explicand，展示了其针对不同参考的归因。非反事实参考具有与explicand相同的解释标签，反之亦然。

结果表明，相似的反事实参考（标签距离小）会导致更好的特征归因（例如，突出显示耳环像素）。较高的标签距离会导致归因度量的下降。非反事实参考不能对比解释的标签，这将导致最差的特征归因。

基于结果，我们对多标签数据集的参考选择得出两个结论：(1) 参考应该在解释的标签上是反事实的；(2) 使用相关参考将有利于多标签样本的特征归因。第二个结论与上述图像的去噪技巧一致。在多标签分类中，未解释的标签（例如，除了[Wearing_Earrings]之外的面部属性）可以被视为干扰对象，因此相关参考将使特征归因更少噪声，更集中在解释的图像部分。

B. 步长和步数

附录图1使用ImageNet示例来说明步长和步数对IG2归因的影响。附录图1(a)显示了优化GradPath时的目标损失曲线，附录图1(b)显示了不同步长和步数下的IG2归因。为不同数据集选择的步长和步数报告在附录表1中。

步长可以影响IG2归因。在步长上有一个权衡问题：小步长倾向于导致噪声较少但不完整的归因，而大步长导致完整但噪声较多的归因。这是直观的：当总幅度更有限时，扰动将集中在一些更重要的特征上。在实践中，我们选择一个适中的步长，可以很好地平衡这两个方面。

步数不是关键的超参数。附录图1显示，当目标损失接近收敛时，IG2归因没有显著变化。因此，我们将步数设置为一个相对较大的值，允许大多数explicand的优化收敛。

C. 表示距离度量

IG2通过最小化参考和explicand之间的模型表示距离来构建GradPath和搜索GradCF。方程(4)显示了这个优化目标，其中两个向量之间的距离基于欧几里得度量。使用欧几里得距离的灵感来自GAN训练中的特征匹配技巧[56]和对抗性鲁棒性工作[48]。此外，余弦相似性和范数是向量距离的两个常用度量。我们进行了消融研究，比较了IG2中不同的距离度量。

附录表2报告了余弦相似性和范数与欧几里得距离的性能差距，附录图4显示了用三种不同的度量归因的ImageNet样本。基于定量和定性结果，我们认为欧几里得距离并不显著优于余弦相似性，而范数不是IG2归因的好选择。经验上，IG2默认使用欧几里得距离，这在我们实验中取得了略高的评估指标。

D. 计算成本

我们分析了IG2的计算成本。路径方法的主要计算成本是梯度计算。由于GradPath需要与梯度积分相同的梯度计算次数，IG2至少需要其他方法两倍的计算成本。另一方面，IG2通常需要大约10个参考才能获得所需的性能，而其他方法只需要一个。因此，IG2中的梯度计算次数大约是其他方法的20倍。

在实践中，我们可以通过一次批量计算不同参考的梯度来减少运行时间。IG2的实际运行时间大约是(预期)IG的10到20倍，大约是Guided IG的3倍。附录表3报告了不同方法每个样本的平均解释时间。尽管计算成本增加，IG2的运行时间仍然是实际可行的。与基于采样的KernelSHAP方法相比，即使使用超像素技术，IG2在高维数据集上也显著更快。

除了上述超参数外，关于归一化和表示层的讨论在附录A2和A3中提供。

VIII. 结论

本文提出了一种新颖的特征归因方法，迭代梯度路径集成梯度（IG2），它同时结合了explicand和反事实的两个梯度。IG2提出了路径方法的两个新的基本组成部分：基线（GradCF）和积分路径（GradPath）。GradPath将反事实梯度纳入其方向，并隐式解决了饱和效应和噪声归因问题。GradCF是第一个包含模型和explicand信息的基线，避免了先前任意基线选择的问题。

我们将工作与路径方法和反事实解释领域的工作进行了对比，并认为我们的工作可以被视为Guided IG的概括。我们直观地解释了我们的提案，并在理论上证明了IG2的期望公理。IG2的有效性通过XAI基准测试和多个来自不同领域的真实世界数据集得到了验证，定性和定量结果一致证明了IG2优于现有的最先进归因方法。此外，消融研究揭示了GradPath和GradCF各自改进了IG方法的归因，这两者由IG2协调一致。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 计算机书童 小编

http://mp.weixin.qq.com/s?__biz=MzkxNTY5NzI4Mw==&mid=2247494591&idx=2&sn=23d29c77636c35ca5b52a7ece9b13d97

计算机书童

为大家分享计算机、机器人领域的顶会顶刊论文