ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

创业   科技   2022-05-31 19:00   北京  

作者:Yibing Liu, Haoliang Li*, Yangyang Guo, Chenqi Kong, Jing Li, Shiqi Wang

链接:https://arxiv.org/abs/2201.12114

代码:https://github.com/BierOne/Attention-Faithfulness

简介:当下,注意力机制已被广泛应用与各种神经网络模型以及各项任务。它所产生的注意力分布也被广泛用于解释模型的预测结果。然而,在本工作中,我们发现注意力解释所具有的一个关键限制:难以识别特征影响力的极性。即,具有较高注意力权重的特征可能不会忠实地对模型预测做出贡献;相反,它们可能施加抑制效果。通过这一发现,我们反思了当前基于注意力的解释性方法。我们首先提出了一种可行的的诊断方法(以下称为忠实违规测试)来衡量解释权重和影响极性之间的一致性(polarity consistency)。通过广泛的实验,我们随后发现,大多数解释方法都受限于忠实度违规问题,尤其是原始的注意力分布。我们对影响违规问题的因素进一步进行了实证分析,以对设计新的解释方法提供了有用的观察结果。

1. 动机

「“正向的注意力权重”不一定意味着“特征在模型预测上具有促进作用”」

以情感分类任务为例。在下图中,输入的文本为“good service but horrible garbage food and small portions”。该文本中包含两种情感极性的词语:good(正面情绪)和horrible(负面情绪)。可以预见,这两种极性的词语在情感分类上,应该起到相反的作用。比如,假设模型的预测结果为“正面情绪”,那么good应当是会促进模型做出做出该预测结果;而horrible应当是在抑制模型输出“正面情绪”。

可是,如果我们利用注意力的分布来解释模型的输出(上图“RawAtt”)。因为我们仅仅具有正向的注意力权重(注意力分布为softmax的输出),我们不能通过符号来辨别哪一个词在预测上起到促进还是抑制作用。但是这一点在模型解释上应当是至关重要的。

2. 「忠诚度违规测试(Faithfulness Violation Test)」

我们期望该测试能够检测解释权重(explanation weight)与特征影响力(feature impact)之间的极性一致性关系。为了减少噪声,我们仅检验解释权重最大的特征

具体来讲,我们首先通过置信度扰动(confidence perturbation test)来计算特征x*的真实影响力ΔC。

紧接着,我们通过指示函数来测量解释权重的极性w(x*)与影响力极性ΔC的一致性。

3. 「实验分析」

为了保证实验结果的可靠性,我们在六个任务以及九个数据集上进行了实验。总的来说,我们验证了八种基于注意力机制的模型,以及九种解释性方法(下图为解释性方法)。另外,为了减少分布外样本(out-of- distribution)对忠诚度违规测试的影响,我们在置信度扰动测量(perturbation test)中采用了3种特征替换策略。在后文,我们简要介绍三部分实验。

3.1. 「为什么我们需要忠诚度违规测试?」

我们首先与现有的忠诚度测量指标进行了比较。部分实验结果如下图所示。我们可以看到,现有的忠诚度测量指标难以对极性上的忠诚度违规问题进行检验。

3.2. 「现有的解释性方法在忠诚度上表现如何?」

为了全面分析,我们涵盖了现有的忠诚度测量指标。如下图所示(其中“V”代表忠诚度违规测试),我们的结果出乎意料地表明,在极性一致性方面,大多数测试的解释方法都受限于忠实度违规问题。另外,单极性方法(例如,Raw Attention)往往表现最差,而基于梯度的注意力解释的方式可以在很大程度上缓解违规问题。

3.3. 「影响忠诚度违规问题的因素?」

我们验证了导致违规问题的主要因素。如下图所示,我们发现模型架构的复杂性和分配极性的能力起着重要作用。

4. 「总结」

在本文中,我们从极性一致性角度,重新思考了当下注意力模型下的解释性方法的忠诚度。这些实验结果不仅展示了注意力解释方法的当前状态,也突出了设计和测试未来解释方法的挑战。最后,我们希望该研究可以为后者提供进一步的动力,以设计出具有良好忠实度的解释方法和可解释能力的注意力模型。


王晋东不在家
分享科研与研究生活的点点滴滴,包括但不限于:机器学习、迁移学习、元学习等,以及研究生、博士生生活的经验教训。
 最新文章