TPAMI 2024 | 通过寻找相关子空间对神经网络预测进行解耦解释

文摘 2024-10-29 19:01 辽宁

点击下方“PaperEveryday”，每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

Disentangled Explanations of Neural Network Predictions by Finding Relevant Subspaces

题目：通过寻找相关子空间对神经网络预测进行解耦解释

作者：Pattarawat Chormai; Jan Herrmann; Klaus-Robert Müller; Grégoire Montavon
源码：https://github.com/p16i/drsa-demo

摘要

可解释人工智能旨在通过为其预测生成解释来克服复杂机器学习模型（如神经网络）的黑箱特性。这些解释通常采取热图的形式，识别对模型决策相关的输入特征（例如像素）。然而，这些解释将进入整体复杂决策策略的多个因素纠缠在一起。我们提出通过在神经网络的某个中间层提取子空间来解耦解释，这些子空间捕获与预测相关的多种且不同的激活模式（例如视觉概念）。为了自动提取这些子空间，我们提出了两种新的分析方法，扩展了 PCA 或 ICA 中的原则以用于解释。这些新的分析方法，我们称之为主要相关成分分析（PRCA）和解耦相关子空间分析（DRSA），最大化相关性而不是方差或峰度。这允许分析更加集中于机器学习模型实际使用的内容。本文接收日期为 2022 年 12 月 30 日；修订日期为 2024 年 3 月 27 日；接受日期为 2024 年 4 月 7 日。发布日期为 2024 年 4 月 12 日；当前版本日期为 2024 年 10 月 3 日。Pattarawat Chorma 的工作部分由 Max Planck Society 支持，部分由德国教育研究部通过 Max Planck School of Cognition 支持，部分由 Konrad Zuse School of Excellence in Learning and Intelligent Systems (ELIZA) 通过 DAAD 程序 Konrad Zuse Schools of Excellence in Artificial Intelligence 支持，由德国教育研究部赞助。Klaus-Robert Müller 的工作部分由信息与通信技术规划评估研究所（IITP）支持，部分由韩国政府（MSIT）根据 2019-0-00079 号赠款（韩国大学的人工智能研究生院项目）和 2022-0-00984 号赠款支持，部分由德国教育研究部（BMBF）根据 01IS14013A-E、01GQ1115、01GQ0850、01IS18025A、031L0207D 和 01IS18037A 号赠款支持，部分由 BASLEARN—TU Berlin/BASF 联合实验室共同资助，由 TU Berlin 和 BASF SE 共同资助。建议由 X. Cao 接受。（通讯作者：Grégoire Montavon。）

关键字

解耦表示
可解释人工智能
神经网络
子空间分析

I. 引言

机器学习技术，特别是深度神经网络，在将大量数据转换为复杂且高度准确的预测模型方面取得了成功。因此，这些模型被考虑用于越来越多的应用。然而，它们复杂的非线性结构使得它们的决策不透明，模型表现为一个黑箱。在敏感和高风险应用的背景下，部署前彻底验证这些模型的决策策略至关重要。这一重要方面促进了被称为可解释人工智能的研究领域的出现，其目标是使用户更容易理解机器学习模型及其预测。

一类流行的可解释人工智能技术，通常称为“归因”，确定了对于给定数据点每个输入特征对预测的贡献。归因技术在广泛的应用中证明了其有用性。它们可以识别科学兴趣中的非线性关系中的相关特征，或者启用当前模型的进一步验证。然而，对于某些应用和数据类型，简单地将决策函数归因于输入特征可能用处有限。具体来说，它可能未能暴露特定输入特征为何贡献或决策策略的哪个组成部分对此贡献负责。

这些局限性促使了更丰富的结构化解释的发展。发展包括“高阶解释”，旨在提取输入特征与其他输入特征之间的关系贡献，以及“层次解释”，其中首先提取概念（例如激活空间中的方向），然后利用这些概念来识别联合特征-概念贡献。基于概念的解释提案通常构建一个潜在空间，该空间与某些真实注释最大相关，或者学习一个潜在空间，该空间最大化投影激活的一些统计数据。

然而，这些方法并不保证专注于对模型做出决策最重要的特征；它们有时可能提取模型大多不敏感的激活空间中的方向。

为了满足对更有结构和专注的解释的一般需求，我们提议为可解释人工智能配备一种新的表示学习形式：提取一组解耦解释的子空间（即将其分解为多个对模型整体预测策略有贡献的语义上不同的组成部分）。技术上，我们贡献了两种新的分析方法：主要相关成分分析（PRCA）和解耦相关子空间分析（DRSA），实现了表示学习目标的两种特定风味。PRCA 可以看作是结合了模型响应的众所周知的 PCA 的扩展。同样，DRSA 可以看作是 ICA 类似子空间分析的扩展。因此，PRCA 和 DRSA 继承了它们所建立的方法的有利属性，如简单性和优化的便利性。

此外，我们贡献的 PRCA 和 DRSA 方法可以透明地集成到多种流行的归因技术中，特别是集成梯度、Shapley 值和层级相关传播。因此，这些常见的归因技术产生的任何解释现在都可以通过我们的方法被解耦为几个有意义的组成部分。此外，我们提出的方法保留了底层归因技术的有用属性，如守恒和它们的计算/鲁棒性配置文件。图 1 显示了我们的 PRCA/DRSA 方法产生的解耦解释的例子，我们观察到 VGG16 网络对“篮球”类别的总体预测策略分解为多个子策略，包括检测篮球场、服装、面部和球。

通过在图像分类的最新模型上进行大量实验，我们定性和定量地证明了我们的方法比我们或其他文献中的一些基线提出了更好的解释能力。特别是，我们观察到我们的解耦解释更清晰地捕获了模型用于预测的多种视觉模式。

最后，我们提出了三个用例来说明我们提出的解耦解释：（1）我们展示了解耦解释如何使用户能够简单高效地识别和移除某些感兴趣模型中的 Clever Hans 效应。（2）我们在包含不同蝴蝶类别的 ImageNet 子集上展示了解耦解释如何丰富我们对视觉特征和蝴蝶类别之间关系的理解。（3）我们使用 PRCA 分析通过输入图像的微扰对手解释进行操作的情况，使我们能够将原始解释与其对抗性组成部分解耦。

III. 联合像素-概念解释

我们关注通常研究的归因问题，即询问每个输入特征对给定预测的贡献程度。Shapley 值 [7]、[10]、[32]、集成梯度 [9] 或逐层相关传播（LRP）[8]、[34] 可以被称为“标准”归因方法，因为它们解决了将输出分数分解为单个输入像素（或补丁）的贡献的问题。这些归因技术的概述见补充说明 A。这些方法的一个共同局限性是它们不提供有关使特定像素相关的底层原因（或概念）的信息 [24]、[47]。

更近期的可解释人工智能方法，如 [23]、[73]、[50] 或 [74] 因此旨在以机器学习模型用于产生整体决策策略的中间概念的形式解决输入特征贡献。在那些概念在某个中间层容易识别的有利情况下，更具体地说，当输入-输出关系可以通过两步映射来表述时：

其中是形成输入图像的个像素（或补丁）的集合，其中是编码每个概念的神经元组，是网络的输出（例如，网络对图像类别的证据）。从这个两步映射中，可以通过相应的两步解释过程生成更丰富的联合像素-概念解释：

符号读作“用解释 ”，或“将归因于 ”。分数表示概念对预测的贡献。然后分数可以被解释为输入像素和概念对预测的联合贡献。例如，在图 1 中，对于某个给定的输入图像，分数（其中）将测量“服装”对预测“篮球”的贡献，而将是服装内特定像素的贡献。所有的集合形成了联合像素-概念解释。

在实践中，当使用诸如 LRP 这样的反向传播方法时，这样的两步解释过程采取通过特定神经元过滤反向传播的形式，我们在图 2（右）中突出显示了这个过程。过滤方法也在 [39]、[20]、[23] 中找到。我们在补充说明 B.1 中提供了非传播归因技术，如 Shapley 值 [7]、[10] 和集成梯度 [9] 的两步过程的推导。

当在每一步使用的归因技术遵循守恒原理（对于上述所有归因方法直到某种近似都是如此）时，我们得到了守恒方程。此外，在对模型和归因技术的某些合理假设下（见补充说明 B.1），我们得到了更强形式的守恒。然后，联合像素-概念解释就变成了将标准像素级解释分解为多个子解释，反之亦然，标准像素级解释可以被看作是联合解释的简化（或粗化）。

A. 概念作为正交子空间

我们到目前为止假设了模型中的中间表示，变量编码了模型用于预测的不同概念。然而，在大多数深度神经网络中，我们只有一个层序列，每个层都是一个大型的、主要是非结构化的神经元集合，其角色或对神经网络输出的贡献并不总是容易识别的，可能没有很好地解耦（例如 [51]、[75]）。正如一些早期工作所展示的 [24]、[25]、[76]、[77]，有意义的概念通常可以从某个精心选择的层的激活集合中恢复（例如，使用线性变换）。

我们提议在这样一个激活层上附加一个虚拟层，该层使用某个正交矩阵的大小将激活映射到某个潜在表示，并返回。矩阵被结构化为

其中每个块，大小的矩阵，与概念相关，并定义了一个投影到维的子空间上。虚拟层在图 2（左）中描述，其映射可以表示为：

突出了（1）由于正交性属性，它保持了整体决策函数不变，以及（2）提取了产生联合像素-概念解释所需的变量，根据（1）和（2）。

B. 表达概念相关性

有多种方法可以学习矩阵，例如，使用 PCA 或其他无监督分析对一组激活向量进行分析，类似于 [25]。然而，我们的目标是学习与决策函数特别相关的子空间，即具有高相关性分数的子空间。为了实现这一点，我们首先需要用变换矩阵来表达（由（2）定义）。我们为 LRP [8] 归因技术提供演示。

回想一下虚拟层在（4）中的定义，并观察到每个重构的激活可以用下一层的概念表示为：

其中是矩阵的第行。假设我们已经使用 LRP 将神经网络输出向下传播到重构激活的层，并为每个获得了相关性分数。LRP-0 规则 [8]、[34] 让我们将这些分数传播到代表概念的下一层：

其中在所有激活的神经元上运行。经过一些重新排列，相同的可以被重述为：

其中是一个维向量，其元素由给出，对于所有激活的神经元，并且否则。向量可以被解释为模型对激活的局部变化的响应，我们在以下内容中将其称为“上下文向量”。

在补充说明 B 中，我们展示了其他归因方法，如 Gradient × Input [78] 和集成梯度 [9]（带有零参考值），也产生了形式为（6）的相关性分数，我们为它们各自的上下文向量提供了表达式。

由于基于 Shapley 值的方法 [7]、[10] 不产生形式为（6）的相关性分数，因此需要对后者进行近似。具体来说，我们的解决方案是首先计算相对于激活（或其组）的 Shapley 值，然后使用（5）中的 LRP 规则对概念进行传播步骤。

IV. 学习相关子空间

在用已知量表达概念相关性之后，具体对于每个数据点，（i）我们可以收集的激活向量和（ii）我们可以计算的上下文向量（例如，使用 LRP），我们可以为变换矩阵制定各种概念相关性最大化目标。

A. 主要相关成分分析（PRCA）

我们提出的第一目标是提取一个与模型预测最相关的子空间。考虑我们的虚拟层具有简单的块结构

其中定义了一个投影到固定维度的子空间，而投影到正交补空间。我们询问“什么矩阵产生了一个对预测最相关的子空间”。从（6）中相关性表达式开始，我们可以通过优化问题来找到这样的最相关子空间：

受限于：

其中期望表示在某个数据集上的平均（例如，给定类别的图像和相关的激活和上下文向量）。使用线性代数身份，相同的优化问题可以被重新表述为：(\max_{U} \text{Tr}(U^T \mathbb{E}[ac^T] U)U^T U = Iac\Sigma = \mathbb{E}[ac^T + ca^T]d$ 个最大特征值对应的特征向量（见补充说明 C.2 以了解推导）。在实践中，因此可以使用常见的特征值求解器计算正交矩阵（7）：

并且，假设特征向量按递减的特征值排序，我们恢复该矩阵的块为

提出的 PRCA 与标准 PCA 不同，它还通过上下文向量 —— 即网络对激活的响应 —— 来考虑。因此，PRCA 能够忽略数据中的高方差方向，当模型对这些变化不敏感或响应负面时。图 3 在二维数据上提供了这种效应的插图，显示 PRCA 子空间比 PCA 更紧密地与模型响应对齐。

请注意，已经提出了几种将 PCA 重新聚焦于特定任务特征的相关方法，尽管与可解释人工智能的上下文不同。这包括“有向 PCA”[79]、[80]，在运行 PCA 之前选择一组与任务相关的特征。它还包括“监督 PCA”[66]，它制定了一个涉及输入和标签的迹最大化问题，以及基于偏最小二乘的方法[81]。

B. 解耦相关子空间分析（DRSA）

我们现在扩展上述方法，目的是将解释分解为多个代表整体决策策略中不同概念的组成部分。具体来说，我们将激活空间划分为多个子空间，以优化的方式子空间最大化相关性分数的某些高阶统计数据。

让与我们的虚拟层相关的正交矩阵被结构化为一般形式（3）。让为不同数据点的索引，并且

是与子空间相关的相关性的正部分，根据（6）对于给定的数据点。ReLU 操作允许我们在后续分析中专注于提取显著的正贡献。特别是，我们定义我们的解耦目标为：

受限于：

其中在实践中我们使用。算子表示一个广义的 F-均值，其函数。特殊情况和可以被解释为软最小和最大池化。在数据点上的软最大池化服务于鼓励子空间与具有特别高相关性分数的实例对齐。这些实例可以被解释为每个识别的决策策略组成部分的原型。另一方面，子空间上的软最小池化，服务于支持平衡不同子空间所赋予的总相关性的解决方案。其他嵌套池化结构在 [30]、[31] 的独立子空间分析算法中找到。这些嵌套结构也在 [82] 中进行了更深入的研究。DRSA 在合成的二维激活空间和单一一维子空间上的行为如图 4 所示。

虽然上述优化问题是非凸的，并且没有封闭形式的解，但我们可以从头开始迭代，从一个随机的正交矩阵开始，类似于 [30]，交替进行梯度上升和正交化步骤（）。

C. 理论属性

提出的相关子空间分析具有一些理想的理论属性：

命题 1： 让是由形成的正交矩阵。使用相关性的公式，其中是这样的，使得，我们有守恒属性。此外，当与时，我们必然有。

（证明可以在补充说明 C.1 中找到。）这些属性源于矩阵上的正交性约束。第一个属性（守恒）确保了我们的方法产生的两步解释保留了它所基于的原始解释技术的守恒属性。第二个属性（正性）确保了决策函数中没有矛盾（例如，激活和模型响应之间的完美对齐）会导致概念上没有矛盾。

命题 2： 当上下文向量等同于激活向量时，PRCA 分析简化为未居中的 PCA。此外，如果我们假设激活被白化，即且，并且每个矩阵投影到一维子空间，那么参数的 DRSA 分析简化为以峰度作为子空间独立性度量的 ICA。

（证明可以在补充说明 C.1 中找到。）换句话说，当参数受到某些限制时，我们提出的算法简化为 PCA 和 ICA，当模型响应与激活很好地对齐时。与 PCA 和 ICA 不同，我们的分析能够提取与预测相关的子空间，即使模型响应与激活对齐得不好。

考虑到我们的方法对模型的访问级别，它可以被描述为一种白盒方法。具体来说，我们的方法要求至少访问一个中间层来执行 PRCA 和 DRSA。当与 LRP 等归因方法一起使用时，需要访问模型的所有层以实施 LRP 传播规则。

V. 定量评估

为了评估我们的 PRCA 和 DRSA 方法在提取相关子空间和产生解耦解释方面的性能，我们在 ImageNet [85] 和 Places365 [86] 数据集上进行了实验。对于 ImageNet，我们考虑了 50 个类别的子集，并且考虑了三个公开可用的预训练模型。这些模型是两个 VGG16 [26] 模型 —— 来自 TorchVision (TV) [27] 和 NetDissect (ND) [51] 存储库的，分别表示为 VGG16-TV 和 VGG16-ND4 —— 和 NFNet-F0 模型（最新的 Normalizer-Free Networks (NFNets) [88] 架构的最小变体）来自 PyTorch Image Models [89]。对于 Places365，我们考虑了七个类别的子集 [86] 和 ResNet18 [90] 模型，该模型由 [47] 提供。

我们使用 Shapley Value Sampling（对经典 Shapley value 的近似）和 LRP 来评估我们提出的 PRCA 和 DRSA 方法；这两种归因技术的选择基于 patch-flip 实验 [91]（见补充说明 D）。我们使用 Captum [92] 中的 Shapley Value Sampling 实现。我们的 VGG16 的 LRP 实现基于 [19] 中使用的 LRP-γ。对于 NFNets，我们贡献了一个新的 LRP 实现（见补充说明 K）。对于 ResNet18，我们使用了 Zennit [93] 中的 LRP 实现。我们在补充说明 D 中提供了这些归因方法的超参数细节。

以下内容，我们专注于使用 VGG16 在 Conv4_3（ReLU 后）的激活、NFNet-F0 在 Stage 2 的激活，以及 ResNet18 在 Layer 4 的激活来评估我们提出的方法。我们参考补充说明 F 中关于层选择和子空间数量选择的消融研究。

为了提取子空间，我们随机选择每个类别的 500 个训练图像，并获取它们在感兴趣层的特征映射激活。对于每个图像，我们随机选择特征映射中的 20 个空间位置。这个过程为每个类别产生了 10000 个激活向量。我们还收集了与 Shapley Value Sampling 和 LRP 归因方法相关的上下文向量。我们在补充说明 E 中总结了这些细节。我们所有的评估都在与用于训练网络和优化 PRCA/DRSA 子空间的数据不同的验证集上执行。

A. PRCA 的评估

我们测试了我们的 PRCA 方法提取保留模型用于构建其预测的输入特征的低维子空间的能力。提取 ML 模型中相关（与不相关）的内容最近在模型压缩的上下文中找到了应用（例如 [94]）。我们首先回顾一下第 III-B 节中，任何激活子空间的提取，以及投影到它的矩阵的大小，体现了可以表达的相关性量：

然后，可以使用 LRP 或 Shapley 实例将相关性归因于输入空间。我们使用 patch-flip（在我们的情况下，‘patch-flip’）来量化产生的解释多么接近地描述了神经网络预测策略，这是一种常见的评估方案，有时也被称为删除/插入实验 [95]。

Patch-flip（在我们的情况下，‘patch-flip’）通过根据解释从输入图像中移除补丁，从最相关到最不相关进行。当补丁被迭代地移除时，我们跟踪网络输出，然后计算“patch-flip 曲线下面积”（AUPC）[91]：

其中表示在次移除步骤后的图像，是直到所有补丁都从图像中移除的步骤数，表示在验证集中类别的图像上的平均值，是我们对类别应用了整流函数的神经网络输出。权重函数是在 -th 和 -th 步骤中翻转的补丁百分比之间的差异。为了使实验在合理的时间内执行，我们测量了大小为 16 × 16 的补丁的相关性，并且我们在每个步骤中翻转这样的补丁。AUPC 得分越低，解释越好，子空间越好。

据我们所知，文献中没有现有的基线设计来提取可以保留给定类别的决策策略的激活子空间。8 因此，作为比较，我们考虑了几个基线：1）一个随机子空间；9 2）标准（未居中）PCA 在激活上的第一个特征向量的子空间；3）与个最相关特征映射相对应的子空间（Max-Rel）[23]。

我们可以将基线的选择视为 PRCA 的特殊消融研究。具体来说，PCA 对应于上下文向量代表模型响应设置为激活向量的 PRCA（命题 2）；Max-Rel 是 PRCA 的简化，其中子空间的基是规范的；随机方法可以被视为“未训练”的 PRCA。

结果在表 I 中给出，对于子空间尺寸。我们观察到，PRCA 在各种配置中都强烈超过了基线方法。这一观察表明，PRCA 能够识别出与预测相关的激活子空间。

接下来，我们研究子空间维度对子空间质量的影响。我们分析了不同值的 AUPC 得分。我们在 VGG16-TV 模型上进行了 LRP 实验。图 5 显示了 PRCA 在不同值下具有最低的 AUPC 得分。结果支持了前几个 PRCA 主成分准确地捕获了神经网络对图像类别构建的证据的结论。PRCA（以及 Max-Rel）比没有子空间投影（即保留整个激活空间）表现更好的事实表明，原始热图中存在一些抑制信号，这些信号掩盖了原始热图中的轻度相关特征。根据构造，前几个 PRCA 组件是最大相关方向，将激活投影到它们上减少了这种抑制信号的数量。我们在第 VI-C 节中展示的展示中，我们使用 PRCA 来增强在对抗性操纵下解释的鲁棒性，证实了上述解释。

B. DRSA 的评估

我们考虑的第二个问题是解释是否可以被解耦为多个对预测明确相关的组成部分。具体来说，我们将激活空间划分为个子空间，由它们各自的变换矩阵定义。从这些个子空间中，可以检索每个解释组成部分作为。我们的基准中的所有方法都产生了一个固定数量组成部分的分解（它们只在选择矩阵上有所不同）。

为了评估目的，我们提出了 patch-flip 过程的扩展，该过程在第 V-A 节中使用。扩展过程允许我们量化解耦的程度，具体来说，验证多个解释组成部分突出显示对神经网络预测有贡献的不同（空间上不重叠）视觉元素。我们的扩展包括并行运行多个 patch-flip 实例（每个组成部分一个）并聚合来自每个组成部分的补丁移除。更具体地说，用表示基于第个组成部分在步骤后移除的补丁的指示向量，我们定义在这些步骤后要移除的补丁的总体集合为，其中并集操作以元素方式应用。图 6 给出了修改后的 patch-flip 过程的插图。类似于第 IV-A 节，随着 patch-flip 的进行，我们跟踪模型输出并计算 AUPC 得分。我们的扩展 patch-flip 过程与 [25]、[48] 中的评估程序共享相似性，后者也根据不同的解释组成部分（或概念）移除特征。

我们在多个设置中评估了我们的 DRSA 方法，并与几个基线进行了比较。第一个基线是从一个随机的正交矩阵构建的随机子空间。第二个基线，称为 DSA，是 DRSA 目标的消融，其中我们用激活向量本身替换上下文向量。

对于 ImageNet 实验，第三个基线是 NetDissect [51]，这是一个将神经元与 Broden 数据库 [52] 中提取的大量真实概念联系起来的最先进的框架。该方法将每个层的特征映射中的滤波器与数据集中的概念联系起来。对于每个识别的概念，我们定义其子空间为与相关滤波器相关的标准基向量的张成。我们参考补充说明 H 以了解 NetDissect 的复制细节。对于 Places365 实验，第三个基线是来自 IBD [47] 的概念方向。由于这些概念向量不构成正交基，我们相应地调整了虚拟层的公式（详细信息见补充说明 I）。

我们将子空间的数量设置为。对于随机子空间、DSA 和 DRSA，我们选择每个子空间的维度为。为了构建 DSA 和 DRSA 子空间，我们使用与第 V-A 节中设置类似的每个类别的激活（和上下文）向量。我们在补充说明 E 中提供了 DSA 和 DRSA 的训练细节。由于 Shapley Value Sampling 计算量大，我们报告了每个类别仅 10 个验证实例的平均值。

表 II 显示了不同设置中的 AUPC 得分。我们观察到，我们提出的方法（DRSA）在这些设置中获得了最低的得分。这一观察也与本文前面图 1 中的视觉检查一致，其中可以从 DRSA 解释中识别出空间上不同的概念。结果表明，DRSA 的子空间捕获了神经网络决策中独特相关的组成部分。

当根据 DRSA 在 VGG16-TV 上对 50 个 ImageNet 类别的 AUPC 得分进行排名时，我们观察到“斑马”类别位居第一。随后的视觉检查揭示，类别斑马的证据来自多个空间上解耦的概念，例如斑马的形状、其独特的纹理和它们所处的环境。我们在补充说明 G 中提供了类别比较的详细信息和定性示例。

我们还进行了关于层选择和子空间数量的消融研究。这些研究的结果与表 II 中的结论一致。此外，我们还进行了实验，验证了所产生的解释的某些固有属性。我们参考补充说明 F 以了解这些结果。

VI. 应用展示

我们展示了三种可能的应用案例，即我们提出的 PRCA 和 DRSA 方法：（1）通过检测和移除模型中的 Clever Hans 策略来构建更值得信赖的 ML 模型，（2）通过突出显示输入和输出变量之间的多种关系来获得更好的洞察力，以及（3）对被操纵的解释问题进行进一步了解。

A. 检测和减轻 Clever Hans 效应

ML 模型的一个常见问题是，它们有时依赖的不是真正的特征——应该支持 ML 决策——而是与目标标签在可用数据上偶然相关的人工特征。这种有缺陷的 ML 模型策略通常被称为“Clever Hans” [17]、[36]。Clever Hans 模型逃避了传统的模型验证技术，例如交叉验证，当偶然相关性在训练和测试数据中都存在时。然而，可解释 AI 可以揭示这些 Clever Hans 策略；具体来说，用户将检查一些决策策略的解释，并验证人工特征没有被突出显示为解释中的“相关”。

我们在本展示中展示了如何使用提出的 DRSA 分析高效地检测和减轻 Clever Hans 效应。与现有的最先进的 Clever Hans 检测 [36] 和减轻 [17] 方法相比，我们的方法可以利用 DRSA 快速识别的多个子策略，其中一些可能是 Clever Hans 性质的。特别是，对于检测 Clever Hans 策略，可以让用户检查由 DRSA 识别的一个或几个代表性示例。

我们在已知的 Clever Hans 策略示例上测试了我们的方法：VGG16-TV 在预测“纸箱”时依赖汉字水印 [17]。图 7（顶部）显示了三个“纸箱”类别的训练图像和使用 LRP（在 Conv4_3 应用 DRSA，K = 4）的标准和 DRSA 热图。从热图中，我们可以看到，与其他子空间相比，当水印显著时（例如，第一和第二个示例），子空间 S4 非常突出地捕获了汉字水印。因此，我们确定 S4 对应于汉字 Clever Hans 策略。我们发现 S4 能够以 0.909 的 AUROC 将 Clever Hans 与非 Clever Hans 实例区分开。我们将 DRSA 的 Clever Hans 检测能力与 SpRAy [36] 进行了比较。SpRAy 方法包括对标准 LRP 热图进行聚类，并检查单个聚类。在这种情况下，我们选择了与 DRSA 子空间数量相同的聚类。相比之下，SpRAy 最具辨识能力的聚类实现了稍低的 AUROC 0.842。实验的详细信息和完整的 ROC 曲线见补充说明 J.1。当输入图像中的 Clever Hans 特征出现在不同位置时，我们的方法比 SpRAy 有更大的优势。总的来说，我们的实验证明了 DRSA 在识别 Clever Hans 效应方面的有效性。

在减轻 Clever Hans 策略方面，我们再次提议利用 DRSA。具体来说，基于使用 DRSA 识别为 Clever Hans 类型的子空间，我们提议通过从预测中减去与这些子空间相关联的相关性分数来提炼类别的预测：

在实践中，我们发现被识别为 Clever Hans 类型的子空间仍然包含残余的非 Clever Hans 贡献，特别是负面的。因此，我们提议只考虑由

给出的过量相关性，其中期望是在类别的训练图像集上计算的，这里的“纸箱”。然后我们在 (12) 中使用代替。

我们现在将提出的方法应用于减轻汉字水印的影响，重点关注类别纸箱和其他 VGG16-TV 倾向于将其误认为“纸箱”的类别。我们说 VGG16-TV 将一个类别与类别“纸箱”混淆，如果它在验证图像的前三个预测中至少有 10% 的频率有类别纸箱。根据这些标准，这些类别是“板条箱”、“信封”、“数据包”和“保险箱”。使用这些类别的验证图像和类别“纸箱”，我们构建了一个分类问题，其中一些非纸箱图像被随机汉字水印（我们准备的三个中的一个；见补充说明 J.1）污染。我们应用了 25% 的污染，即 25% 的非纸箱图像被汉字水印修复。我们观察到原始模型在污染数据上的分类准确度下降（从大约 82% 下降到 76%）。下降表明我们的污染过程有效地愚弄了 VGG16-TV。

图 7（底部）显示了原始和精炼模型在 25% 污染数据上的准确度差异。我们看到，基于排除 S4 证据的精炼模型具有最高的分类准确度（在未精炼模型的准确度分数上增加了 3.6%）。我们进一步调查了图 8 中的混淆矩阵，该矩阵显示了原始和精炼模型在干净和 25% 污染数据上的预测和目标类别之间的关系。经过精炼后，我们观察到错误分类的非纸箱示例数量显著减少。我们最后将我们的方法与 [64] 中的方法进行了比较，该方法包括在污染数据上对模型的最后一层进行重新训练。我们发现重新训练方法的准确度提高了 4.8%，略高于我们基于 DRSA 的方法。我们的方法具有不需要合成人工 Clever Hans 实例或选择特定污染水平进行重新训练的额外优势。在 Clever Hans 特征与图像中包含的其他对象紧密交织的背景下，这些优势是决定性的。我们参考补充说明 J.1 了解实验的详细信息，包括不同的污染水平。

总的来说，这个展示证明了 DRSA 可以是检测和减轻复杂 ML 模型中 Clever Hans 效应的有效工具。此外，我们强调我们的方法完全是无监督的：它不需要组装一个根据模型用于预测它们的策略对示例进行标记的数据集，也不需要生成剥离或人为添加 Clever Hans 特征的合成示例。此外，我们对 Clever Hans 的减轻方法是“事后的”：除了 DRSA 分析之外，我们的方法不需要对神经网络模型进行任何训练或重新训练。

B. 通过解耦解释获得更好的洞察力

可解释人工智能已被证明是提取数据和生成数据的系统或过程的有前途的方法 [2]、[6]。一些最近的工作已经展示了在生物医学或物理应用中的成功使用。例如，可解释人工智能使人们对分子的哪些几何方面预测毒性有了更好的理解（或“毒物”）。它还允许预测人类细胞中的蛋白质相互作用 [14]，从而支持识别信号通路的研究。还有更多关于在地质学 [12]、水文学 [11]、量子化学 [100]、[101]、神经科学 [102]、[103]、病理学 [15]、[104] 等领域使用可解释人工智能提取科学洞察力的成功案例。

在这些工作中，作者经常使用突出显示一个特征或一组特征对整体预测贡献程度的标准热图。

然而，可以从标准解释中提取的洞察力受到多个概念纠缠的事实的限制，因此很难获得输入和输出之间关系的有结构的理解。我们在以下内容中展示了我们提出的 DRSA-LRP 方法如何使提取更复杂的洞察力成为可能。我们为了说明目的考虑了获得对 ImageNet 数据集中存在的六种蝴蝶类别的视觉差异的洞察力的任务：“海军上将”、“环状”、“君主”、“卷心菜”、“硫磺”和“莱卡恩”蝴蝶。

对于这个目标是让用户从模型中获得洞察力的展示，选择最好的模型是很自然的。我们选择了 NFNet-F0，其整体 top-1 准确率达到 82%，相比之下 VGG16-TV 和 -ND 分别达到 72% 和 70%。我们从这些蝴蝶类别中选择 125 个训练图像，形成一个训练集。我们使用 NFNet-F0 在 Stage 1 的激活和上下文向量，并使用 LRP（参数用于计算解释）。我们使用与第 V-B 节（另见补充说明 E）中类似的优化细节，使用 DRSA 提取八个子空间。

首先，我们想建立一个类别和概念之间的对应表，指示每个类别哪些概念是特定的。我们提出了以下简单的统计测试，考虑到概念通常只在给定类别的图像子集中表达。设是类别的验证图像集，是所有验证图像的集合（在我们的展示中，所有蝴蝶图像）。我们考虑子空间特定于类别如果

其中是给定分布的 -分位数，。在我们的实验中，我们选择和。在这个方程中，分数是通过测量的。

图 9 说明了匹配类别与 DRSA 子空间的过程。矩形的右边和虚线对应于 (13) 的左手边和右手边。分析揭示了 10 个类别-子空间匹配（用红色突出显示）。我们观察到，除了子空间 S1 和 S4 匹配多个类别，表明在多个类别之间共享的视觉概念之外，每个 DRSA 子空间都与一种蝴蝶类型相关。此外，与特定类别相关联的概念数量从一到三个不等（卷心菜蝴蝶）。

图 10（左）使用三维散点图，探索了蝴蝶与其相应类别之间的关系是如何通过我们的 DRSA 分析的子空间 S4、S5 和 S7 来解决的。图中的每个点对应一个示例，其坐标由分数给出。如在图 9 中已经注意到的，我们观察到“君主”是沿着 S4 和 S5 轴共同表达的，“海军上将”是沿着 S4 和 S7 轴共同表达的。这些子空间对其他类别不相关；因此，它们各自的示例出现在原点附近。

图 10（右）显示了一些选定类别的最典型示例的标准和 DRSA 热图。我们观察到 S1 对应于黄色表面，这似乎是环状和硫磺蝴蝶共有的。S4 对应于白点纹理，这在君主的翅膀和身体上以及海军上将的翅膀上都能找到。S5 的模式特定于君主翅膀上的橙/黑纹理。S7 捕获了海军上将翅膀上突出的橙色图案。最后，我们发现 S8 捕获了出现在环状种类翅膀上的独特的点状图案。我们在补充说明 J.2 中提供了这些子空间热图的完整集合。

总的来说，通过这个展示，我们已经证明了我们的方法能够提供对视觉特征和类别成员资格之间复杂关系的进一步洞察。除了突出显示预测类别成员资格的特征外，我们还识别了多个类别之间共享的独特视觉概念，例如点状图案或黄色纹理。这些共享的视觉模式为蝴蝶种类及其视觉特征之间的非线性关系提供了结构化的理解。

C. 使用 PRCA 分析被操纵的解释

可解释人工智能的前提是促进利益相关者的信任，但以前的工作 [37]、[105] 表明解释技术容易受到操纵。更具体地说，输入的轻微扰动可能导致其解释发生巨大变化，同时保持与原始图像的视觉相似性和其他统计数据（例如模型输出）不变。至关重要的是，[37] 表明这种扰动可以导致解释发生任意变化，这些变化与输入或原始热图无关。图 11 对比了这种情况（其中肇事者微调图像以操纵其解释）和常规的可解释人工智能场景。

当然，对扰动的脆弱性不仅引起实际关注，还引发了关于这种现象如何发生以及这种变化如何在特定层表现的理论问题。因此，一些理论分析 [37]、[105] 已经进行，以研究扰动脆弱性的原因。特别是，[37] 的调查阐明了解释可以变化的程度部分由数据点处的主曲率上界所限制。此外，[37] 表明，对于具有 ReLU 的神经网络，可以通过用 softplus 激活函数近似 ReLU 来减少主曲率。通过控制 softplus 函数的平滑参数，[37] 表明可以有效地提高解释操纵的鲁棒性，以事后的方式。

然而，从层级表示的角度来看，仍然不清楚扰动如何导致解释发生如此剧烈的变化，或者这种变化如何在某个层表现出来。因此，我们的目标是展示 PRCA 可能为回答这些问题提供线索。

作为一个概念验证，我们研究了在 VGG16-TV 的 Conv4_3 层上，对 ImageNet 数据集 [85] 中的“西藏梗”类别的验证图像的 LRP 解释进行 PRCA 分解。更具体地说，我们对来自该类别的 500 个训练图像的激活和上下文向量集合执行 PRCA（设置与第 V-A 节相似）。

为了操纵解释，我们使用 [37] 提出的优化程序，找到一种扰动，使得每个图像的解释发生任意变化，同时保持原始和扰动图像之间的相同模型响应水平和视觉相似性。任意变化是由目标解释引起的，这是来自不同类别的随机图像的解释。此外，我们还约束原始和操纵解释具有相似的总相关性分数。我们在补充说明 J.3 中总结了算法的详细信息。

从定性上讲，图 11（底部）显示，由第一个 PRCA 组件生成的热图保留了原始热图中突出显示的特征，而残差热图（第一 PRCA 组件的正交补）包含原始和目标热图的特征。

查看残差热图的正负部分，我们观察到前者在很大程度上类似于目标热图，而后者与原始热图的一部分非常相似，其符号与 PRCA 热图中表达的部分相反。当使用更多的 PRCA 组件时，PRCA 热图变得类似于目标热图（见补充说明中的图 J.8）。这种行为表明，对于 VGG16-TV 在 Conv4_3 和“西藏梗”类别，第一个 PRCA 组件是受扰动影响最小的方向。

从定量上讲，图 12 显示了操纵热图（及其 PRCA 分解版本）与原始或目标热图之间的均方误差：误差是在“西藏梗”类别的 50 个验证图像上平均的。我们首先观察到，操纵热图与目标热图之间的误差低于与原始热图之间的误差。这证实了 [37] 提出的优化确实是有效的，并且也适用于我们施加的额外约束。

其次，当我们查看操纵热图在第一个 PRCA 组件（PRCA-1）上的误差时，我们观察到这些热图比目标热图更接近原始热图。两个误差之间的差异很有趣，因为它表明 PRCA 确实捕获了受扰动影响最小的类别特定表示的部分。这种洞察可能为理解和增强解释操纵的鲁棒性提供了新的视角（另见 [38]）。

结论和讨论

在这项工作中，我们提出了将神经网络模型的解释解耦为多个组成部分，以便为用户提供比标准解释更有用的信息。

技术上，所需的解耦是通过在神经网络模型的某个中间层进行无监督分析来实现的。我们提出的方法的一个独特方面是，它联合分析了数据和模型对数据的响应。因此，与纯粹的数据驱动方法不同，我们的方法可以更专注地解耦，有效地忽略模型不敏感的数据方面。此外，我们的方法不需要任何专门的数据集或概念注释，并且可以应用于任何可以归因于输入特征的深度神经网络模型的预测。我们的方法与广泛的最新归因框架一起工作，如 Shapley 值和 LRP。

我们证明了我们解耦方法的高性能，在基准测试中的得分显著高于其他方法。通过我们为最新 NFNet 模型实现的 LRP 实现，我们进一步证明了我们的方法可以为高度复杂的预测功能提供更多见解。基于现有的归因技术，我们的方法也继承了归因问题的挑战，如适应 ML 模型的快速增长的复杂性。

在实际说明中，我们在三个应用案例中展示了我们的方法：1）检测和减轻流行的 VGG16 图像分类器中的 Clever Hans 策略，2）深入探索由最新 ML 模型包含的复杂非线性关系，以获取新的领域知识，以及 3）调查被操纵的解释问题，我们可以获得新的理解。

在未来的工作中，我们计划将我们的方法应用于分析复杂的科学数据，从而帮助领域专家获得新的科学见解。此外，我们的方法可以扩展到提取不相关的子空间。然后，这些子空间可以从 ML 模型中剪枝，例如用于压缩目的，或增强模型对未知、潜在的偶然决策策略的鲁棒性 [63]。最后，我们提出的方法，结合了可解释 AI 和表示学习，可以在归因框架之外进行探索，例如在反事实解释的背景下（例如 [106]）。

数据和代码可用性

我们在 https://github.com/p16i/drsa-demo 提供了演示代码。该存储库包含了与我们的解耦解释框架兼容的 VGG16 和 NFNets 的 LRP 实现，以及执行 DRSA 优化的功能。在 ‘notebooks’ 目录中，我们提供了两个 Jupyter 笔记本演示 1）解耦解释框架的步骤和图 1 的再现；以及 2）NFNets 的 LRP 实现。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

#论文推广#

让你的论文工作被更多人看到

你是否有这样的苦恼：自己辛苦的论文工作，几乎没有任何的引用。为什么会这样？主要是自己的工作没有被更多的人了解。

计算机书童为各位推广自己的论文搭建一个平台，让更多的人了解自己的工作，同时促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人，在我们的平台上分享自己论文的介绍、解读等。

稿件基本要求：

• 文章确系个人论文的解读，未曾在公众号平台标记原创发表，

• 稿件建议以 markdown 格式撰写，文中配图要求图片清晰，无版权问题

投稿通道：

• 添加小编微信协商投稿事宜，备注：姓名-投稿

△长按添加 PaperEveryday 小编

http://mp.weixin.qq.com/s?__biz=MzI3NzI0MTk1OQ==&mid=2247502296&idx=1&sn=be42c4d4ed420f33f1892b7ef73b26ea

PaperEveryday

为大家分享计算机和机器人领域顶级期刊