首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

一文读懂模型的可解释性（附代码）

科技 2024-10-30 10:05 中国香港

大模型的可解释性非常重要。随着模型越来越大，其“黑盒子”特性会严重影响模型结果的准确性，增加对模型的优化难度，以及在医学、金融等领域带来很高的应用风险。

因此提高大模型的可解释性，不仅能优化我们的实验结果，其方法本身也是一个可发paper的创新点。

今天总结一下目前最全的大模型可解释性技术。

首先按照大模型的训练范式分类：传统 fine-tuning 范式 和 基于 prompting 的范式。

基于传统 fine-tuning 范式的模型解释，又可分为局部解释和全局解释。

基于 prompting 的范式，分为对基础模型的解释，和对助手模型的解释。

其中每种解释还有细分内容。为了方便大家学习，我按照上面的分类，整理了118篇可解释性的精选论文，有开源代码的也一并整理。扫码免费领取。

扫码免费获取全部论文+开源代码

来看一下具体的分类。

传统 fine-tuning 范式中的局部解释

局部解释是对语言模型如何针对特定输入实例进行预测的理解，对单个样本预测进行解释。

具体方法包括特征归因、基于注意力机制的解释、基于示例的解释、基于自然语言的解释。

传统 fine-tuning 范式中的全局解释

全局解释从模型的角度出发，了解各个组件（神经元、隐藏层和更大的模块）编码的内容，为大模型的工作机制提供更高阶的解释。

全局解释有三种主要方法：分析模型表征和参数的探测法、确定模型输入响应的神经元激活分析，以及基于概念的方法。

这些方法旨在理解模型的组件所编码的知识/语言属性，并解释每个组件所学习的内容。

全部118篇可解释性的精选论文，扫码免费下载。

扫码免费获取全部论文+开源代码

基于 prompting 的范式中的基础模型解释

具体方法为解释上下文学习、解释CoT提示、表征工程。

基于 prompting 的范式中的助手模型解释

助理模型通常经过两个阶段的训练：无监督预训练和有监督对齐微调。关于可解释性的研究在于确定模型知识的来源，以便更好地改进和解释其性能。

研究方法包括解释微调的作用、解释幻觉、不确定性量化。

扫码免费获取全部论文+开源代码

本文总结了LLM可解释性技术的主要方法，一共118篇论文与已开源的代码。无论你是用来优化模型还是寻找idea，都能有帮助。需要的同学扫上方二维码即可全部免费下载。

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625991&idx=1&sn=f54de6d9a74c7e413178bf63d597ff49

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 厦门大学人工智能研究院计算机视觉方向博士招生

Python中进行特征重要性分析的9个常用方法

6 年半亏掉 528 亿的某汤，用裁员开启下一个十年。

算法工程师大致是做什么的？

labelGo：基于 YOLOv5 的辅助标注工具

作为审稿人，你什么情况下会选择拒稿？

用不需要手工标注分割的训练数据来进行图像分割

轰动视觉领域｜ChatGPT完成论文写作、科研应用，数据处理，太方便了…

YOLO 系列目标检测大合集

最全深度学习训练过程可视化工具（附github源码）

ResNet到底在解决一个什么问题呢？

最后机会！2024年剩余EI检索学术会议时间表大揭秘！

【魔改UNet系列】ID-UNet: 一种用于红外小目标分割的密集连接UNet架构

ResNet是否只是一个深度学习的trick？

Python图像处理:频域滤波降噪和图像增强

一文读懂模型的可解释性（附代码）

YOLOv11 架构改进 & 常见指令

顶刊解读 | 基于自适应四阶偏微分方程的遥感图像超分辨率重建

AI，正在疯狂污染中文互联网

【魔改UNet系列】Mamba-UNet: 医学图像分割的UNet类纯视觉Mamba

CNN 的一些可视化方法！

遥感顶刊 TRGS'24 | AODet: 基于 Transformers 的前景区域航空目标检测

Linux常用命令大全 | 176个

【魔改UNet系列】LightM-UNet：Mamba与UNet结合实现轻量级图像分割

顶刊解读 TGRS | 用于半监督旋转目标检测的伪孪生教师模型

OpenCV 也可以检测、跟踪移动物体

医学图像数据读取及预处理方法总结

传统图像处理还有前景么？

Pytorch里面多任务Loss是加起来还是分别backward？

Python并行编程？

一种基于计算机视觉和深度学习的番茄外部缺陷检测方法

PyCharm vs VSCode，是时候改变你的 IDE 了！

C++ OpenCV实现图像去阴影

这17 种方法让 PyTorch 训练速度更快！

导师：自己每天科研工作近10小时，都觉得不够。研究生们，每天工作不够5小时，拿什么去竞争？

CNN是不是一种局部self-attention？

一份微调YOLOv11的小指南

Transformer小目标检测

PyTorch可复现/重复实验的相关设置

245个目标检测开源项目合集，建议收藏！

【魔改YOLO系列】YOLO-SLD: 在YOLO中引入注意力机制，实现精准车牌检测

论文解读 | EATFormer：受进化算法启发改进视觉Transformer

直线检测算法汇总

一个小改动，CNN输入固定尺寸图像改为任意尺寸图像

医图顶会 MICCAI'24 | LKM-UNet: 用于医学图像分割的大内核视觉Mamba UNet

总结 | 半监督目标检测

Numpy中数组和矩阵操作的数学函数

完爆YOLO家族？新一代目标检测器又有新突破！

顶刊MIA'24 | 用于图像分割的双坐标交叉注意力Transformer

无需标注海量数据，目标检测新范式OVD让多模态AGI又前进一步

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉