ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

创业科技 2024-10-11 08:22 北京

虽然，现代神经网络仍然无法摆脱“黑盒”困境，但这些年，网络的可解释研究始终在向前发展。解释方法的公式透明化对于阐明神经网络的预测行为至关重要。近来比较受欢迎的分层相关性传播（Layer-wise Relevance Propagation，LRP）方法可以透明地计算出反向传播的相关性分数，并在模型预测时追踪其在整体架构中的流动情况。但这种方式缺乏进一步的发展，例如传统的LRP方法没有充分考虑网络中跳跃连接的存在，因此其在广泛使用的ResNet架构中尚未得到研究。
本文介绍一篇发表在ECCV 2024上的工作，在本文中，作者通过对跳跃连接和残差块的输出收敛性进行相关性拆分，从而将LRP 扩展到 ResNet 网络中。本文的证明公式拥有高度的过程守恒性，保证了生成解释的质量和完成性。此外，本文在ImageNet 和 Caltech-UCSD Birds-200-2011两个权威的数据集上进行了实验验证，本文方法在现有可解释评估指标上实现了SOTA性能。

论文题目：
Layer-Wise Relevance Propagation with Conservation Property for ResNet
论文链接：
https://arxiv.org/abs/2407.09115
项目主页：
https://5ei74r0.github.io/lrp-for-resnet.page/
代码仓库：
https://github.com/keio-smilab24/LRP-for-ResNet

一、引言

现有的神经网络可解释方法可以通过添加噪声扰动或基于梯度信息在图像上生成解释，例如非常具有代表性的RISE[1]和Grad-CAM[2]等方法。后续出现的LRP方法可以清晰的计算出反向传播的相关性分数，同时还可以捕获其在网络内部的流动情况，这对于理解网络最终的决策具有重要意义。但美中不足的是，传统的LRP方法无法很好地处理ResNet这类带有跳跃连接的模型，因此需要对LRP进行扩展和改进，作者重点考虑了以下几个关键问题：

如何在LRP的框架下有效地传播ResNet中跳跃连接处的相关性评分?
如何保证整个相关性传播过程满足"相关性保守"的性质，确保预测结果的完整性和可解释性?
如何改善LRP生成的视觉解释，防止过度集中在无关区域?

本文的核心贡献是引入了一种“相关性拆分（Relevance Splitting）”机制，整体框架如上图所示，即在ResNet的Bottleneck模块中，对跳跃连接和残差块的输出进行深度拆解，并以守恒的形式对相关性分数进行传播。这种拆分机制可以同时考虑跳跃连接和残差块的贡献，从而为ResNet模型生成高质量、透明的解释。

二、LRP的基础概念

LRP方法的核心思想是通过反向传播的方式，将模型的预测结果分解到输入特征上，从而生成可视化的解释。对于一个给定的输入样本，LRP会计算每个输入特征对最终预测结果的贡献度，也就是该特征的"相关性"。随后，LRP会将输入特征上的相关性得分以热力图的形式呈现出来，从而给出一个可解释的视觉解释。热力图中越亮的区域，代表对最终预测结果贡献越大。在对相关性分数进行传播时，LRP引入了多种不同形式的传播规则，这些规则必须满足两个基本条件：

相关性保守性：每一层的相关性得分之和等于前一层的相关性得分之和。这确保了相关性得分在整个网络中得到完整传递，没有遗漏。
非负性：每个特征的相关性得分都应该是非负的。这是为了确保相关性热力图的直观性，即越亮的区域代表越重要的特征。

在满足上述两个条件的前提下，LRP可以根据当前的网络层类型进行细则的定制，例如对于线性变换层（如全连接层），LRP可以使用z-Rule来计算相关性:

其中，是权重矩阵的元素，是第层的第个特征。分母项确保了相关性在层间的保守传递。通过定制不同的传播规则，LRP能够适用于各种类型的神经网络层，如卷积层、池化层、全连接层等。

三、本文方法

3.1 将LRP扩展到ResNet架构中

由于ResNet网络中每个Bottleneck模块都会有一个跳跃连接，可以将前层的特征直接传递到后层，形成了多个非线性的相关性传播路径，而标准的LRP传播规则无法很好地处理这种情况。为此，本文对LRP方法进行了ResNet架构的适配，整体框架如下图所示。

作为ResNet中的关键的模块Bottleneck，本文提出的LRP扩展方法主要针对Bottleneck进行设计，具体来说，假设Bottleneck模块的输入为，输出为，其中表示层索引。LRP的目标是计算出中每个元素对最终预测结果的贡献度，即相关性得分。为了使该分数能够同时兼顾跳跃连接和残差块对结果的贡献，论文提出了一种"相关性拆分"机制。即将第 层的相关性得分 分为两部分：其中 负责表示跳跃连接传播的相关性得分， 负责表示残差块传播的相关性得分。为了确保"相关性保守"性质，作者设定。

3.2 对称拆分与比率拆分

在对相关性分数拆分时，作者引入了两种具体的拆分方式，分别是对称拆分（Symmetric Splitting）和比率拆分（Ratio-Based Splitting），拆分过程如下图所示。

对称拆分的过程是直接将平均分成和，即。这种方法简单直观，但没有考虑 中各元素的差异。

相比之下，比率拆分方法会首先估计 和 的绝对值大小，随后按照比例分配 到和中，分配公式可以表示如下：

这种方法考虑了跳跃连接和残差块输出的相对大小，能够更好地反映它们对最终预测的贡献。同时比率拆分方法仍然满足相关性保守的要求，即每一层的相关性得分之和等于前一层的相关性得分之和，计算如下：

3.3 引入热力量化（Heat Quantization）

前文提到，传统的LRP方法在某些情况下生成的相关性热力图，会过度集中在一些无关的区域，从而降低了解释的有效性。因此本文对这一方面也进行了改进，提出了一种热力量化策略，可以形式化表示为：

其中是LRP直接生成的热力图，是最终的"量化"热力图，是量化的bin数（本文设为8）。这种量化策略可以将过于集中的热力图值进行分散处理，使得最终的可视化结果更加均匀，而不会过度关注无关区域。

四、实验验证

本文的实验在Caltech-UCSD Birds-200-2011 (CUB) 数据集和 ImageNet 2012 验证集上进行，这两个数据集都是视觉解释生成任务的标准数据集。其中，CUB 数据集包含来自 200 个鸟类物种的 11,788 张图像。ImageNet 验证集包含 50,000 张来自 1,000 个类别的图像。神经网络架构使用ResNet-50，并在ImageNet上进行了预训练。作者选用了Insertion、Deletion和Insertion-Deletion (ID)三个标准的可解释指标来评估本文方法的性能。下图首先展示了本文方法与其他对比baseline方法对给定图像生成的热力图，其中图（a）为原始输入图像，图（b）-（f）展示了其他基线方法的生成效果。

可以看出，其他基线方法生成的热力图中，或多或少存在一些噪点，无法充分突出相关区域。图(e)和(f)展示了基于Grad-CAM和Score-CAM生成的解释，它们的结果覆盖整个了相关物体的关注区域，但同时也关注了周围的背景。相比之下，本文的方法能够更好地聚焦于目标物体，而不会过度关注背景区域。

除了可视化实验，作者也在CUB数据集和ImageNet数据集上进行了定量对比实验，对于CUB，作者进行了5次实验并计算了平均值和标准差。对于 ImageNet，作者只进行了一次实验。上表列出了本文方法与其他基线方法的对比情况，评价指标使用插入(Insertion)、删除(Deletion)和插入-删除(ID)三种指标，其中ID得分被视为主要评估指标。插入和删除得分是根据插入和删除曲线下的面积计算的。ID得分被定义为插入得分和删除得分的差值。在CUB数据集中，本文方法的ID得分为0.582，显著优于最好的基准方法Score-CAM，提高了0.125。此外，在ImageNet上，本文方法也获得了SOTA性能。

为了对ResNet内部相关性传播规则进行深入探索，作者还进行了一系列消融实验，结果如上表和上图所示。其中方法(iv)的ID得分为0.545，高于方法(iii)的0.510，说明将相关性分配到具有恒等映射的跳跃连接是有效的。方法(iv)的ID得分也超过了方法(ii)的0.517，这表明采用考虑跳跃连接和残差连接输出比例的比率拆分方式，能产生更高质量的可解释图。从可视化图中观察，当使用方法(iv)时，LRP可以更加精确的定位到图像中的关键目标，这进一步说明比率拆分相比对称拆分拥有更优秀的解释性能。

四、总结

本文将传统可解释方法LRP扩展到了现代神经网络架构ResNet上，在ResNet的Bottleneck模块中，作者提出在跳跃连接的输出与残差块的输出汇聚处，采用相关性拆分策略来传播相关性得分。这种拆分机制可以同时考虑跳跃连接和残差块对结果的贡献。在设计相关性拆分机制时，作者确保了整个相关性传播过程满足"相关性保守"的性质，即每一层的相关性得分之和等于前一层的相关性得分之和。这保证了解释的完整性和可靠性。作者指出，尽管本文实验是在ResNet上进行的，但该方法也有潜力应用于其他具有残差连接的模型。

参考资料

[1] Petsiuk, V., Das, A., Saenko, K.: RISE: Randomized Input Sampling for Explanation of Black-box Models. In: BMVC. pp. 151–164 (2018)

[2] Selvaraju, R., et al.: Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization. In: ICCV. pp. 618–626 (2017)

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650514337&idx=1&sn=170d50456cd96a70e50c5d5b99961bad

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

最新文章

Talk预告｜澳门大学田春霖：小参数大作为，揭秘非对称LoRA架构的高效性能

NeurIPS 2024 | 解锁大模型知识记忆编辑的新路径

ECCV 2024 | 南洋理工人体动作生成新范式：统一多模态的动作生成大模型

NeurIPS 2024 | 类脑智能与黎曼图学习：黎曼脉冲神经元初探

Talk预告｜UT-Austin樊志文：端到端从多视角图片解析3D与全景3D生成

NeurIPS 2024 | 让大语言模型使用代码解决图分析推理任务

Talk预告｜中国科学院大学教授高林：高真实感三维建模与生成研究进展

活动报名 | 探秘自主机器人领域：19 位青年报告嘉宾集结，ARTS 2024研讨会震撼来袭！

MoA：混合稀疏注意力加速长文本生成，实现最高8倍吞吐率提升

Talk预告｜香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

ECCV 2024 | 利用函数映射优化图像对应关系：零样本推理的新方法

Talk预告｜北京大学余旺博：探索视频扩散模型在3D生成和重建中的应用

EMNLP 2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

NeurIPS 2024 | 自监督湍流分析，减少99%标注数据需求

HazyDet：利用深度线索的雾天无人机目标检测开源基准

将门月报 | 文远知行正式登陆纳斯达克、智谱与中国三星宣布战略合作、帷幄与永旺在印尼达成紧密合作......

Talk预告｜香港中文大学汪福运：Rectified Diffusion - 一般扩散模型的ODE轨迹修正

ICML 2024 | 知识感知的强化学习优化的蛋白质定向进化方法

Talk预告｜西安电子科技大学曾泽群：CLIP是否有能力做零样本的图像描述生成？

NeurIPS 2024 | MoGU：用于增强模型安全性并保持其可用性的框架

将门创投早期项目「文远知行」正式在纳斯达克挂牌上市

NeurIPS 2024 | AdaptiveDiffusion - 为每个prompt量身定制的扩散加速方案

ECCV 2024 | 推动纯视觉自动驾驶落地，单目三维检测实时泛化

Talk预告｜南开大学李政：视觉语言模型CLIP的提示学习方法研究

贝联珠贯完成Pre-A轮数千万元融资，将门创投领投

Talk预告｜香港中文大学邵昊：LMDrive - 大语言模型加持的闭环端到端自动驾驶框架

NeurIPS 2024 | VFIMamba：基于状态空间模型的视频插帧新SOTA

业内首个突破十亿参数的时序大模型，引领预测性能新高峰!

活动报名 | 将门横琴科技创新日暨人工智能加速器开业仪式

EMNLP 2024 | 从特征解耦角度重新审视单义神经元及其在对齐算法中的作用

图少样本学习综述：从元学习到预训练和提示学习

Talk预告｜香港科技大学高深远：构建通用可泛化的自动驾驶世界模型

NeurIPS 2024 | 结构信息原理指导的高效智能体探索

Talk预告｜香港中文大学王鸿儒：工具学习 - 杂谈 apple intelligence 和 o1 的异同

ICML 2024 | 论扩散模型采样轨迹的规律性及快速采样算法

ECCV 2024 | 研究残差及跳跃连接的可解释性，层相关性传播LRP在ResNet网络中的适配

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

Talk预告｜香港科技大学黄华健：高写实三维数字化时代下的在线同时定位和建图

CoRL 2024 | InstructNav：通用指令导航大模型系统

Talk预告｜普渡大学倪瑞祺：基于物理信息机器学习的运动规划

ICLR 2024 | BioBridge：通过知识图谱桥接生物医学基础模型

将门月报 | 格灵深瞳携手北京铁路局、文远知行与Uber达成战略合作、帷幄与华为云建立战略合作伙伴关系......

清华、北大等发布Self-Play强化学习最新综述

ECCV 2024 | 代码开源&方法简单，探索基于相机RAW图像的High-level视觉任务：RAW-Adapter

ICML 2024 | 从拓扑视角出发，10行代码提升类别不平衡图节点分类

Talk预告｜慕尼黑工业大学翟光耀：SG-Bot - 基于场景图生成式模型的机械臂操作和物体重排

300篇文献！大模型走向物理世界：TeleAI发布大模型驱动的具身智能综述

Talk预告｜北京航空航天大学阮受炜：探索视觉感知的3D视角鲁棒性

ECCV 2024 | EchoScene：通过场景图扩散生成3D室内场景

一张图搞定3D视效！深度解读北大、港中文、腾讯等联合开源项目ViewCrafter

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉