机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

健康 2024-11-21 07:49 浙江

2024-2025 课程介绍

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等。11.30-12.1 R语言构建机器模型课程开启

之前我们分享了发表在期刊《Annals of Internal Medicine》的一篇题为：“Practical guide to SHAP analysis: Explaining supervised machine learning model predictions in drug development”的研究论文。文章提供了可解释机器学习预测模型文章几乎都会用到的SHAP法的实用指南。

我们把它做成一个系列进行解读：

1. SHAP法可解释性机器学习介绍：理论与方法

2. SHAP可视化方法，临床预测模型解释新框架！

3. 如何解读机器学习黑箱模型SHAP法的结果？

如果你需要全文，请公众号后台回复关键词“pdf”。

本文是系列的第三篇！在这篇文章中，我讨论SHAP法应用到具体的案例中应该如何解读结果。

具体来说，作者展示了对流行的机器学习黑箱模型进行SHAP分析的结果解读（如XGBoost、随机森林和神经网络（多层感知机模型）），涵盖了分类和回归问题。

另外，为了帮助读者更好地理解如何解读黑箱模型的SHAP分析，作者还将这一方法应用于线性回归和逻辑回归模型，使用的是模拟数据。这有助于读者在熟悉的框架下理解如何解读不同的可视化图表。

SHAP法分析常见机器学习框架

在分析之前，首先用我们常见的机器学习（ML）法对以下数据集进行建模。

数据来源：美国国家健康与营养调查（NHANES）数据，该数据用于评估美国成人和儿童的健康与营养状况；

特征变量：性别、体重指数（BMI）、年龄、过去一年中饮酒天数和一周内进行中度或剧烈运动的天数等特；

数据拆分：70%数据作为训练集、30%数据作为测试集；

任务：预测血压；

模型：XGBoost、随机森林和神经网络模型作为回归模型；

可解释性分析：在确认模型拟合良好之后，使用SHAP包计算了训练集和测试集的SHAP值。

（一）条形图

下图展示了对XGBoost、随机森林和神经网络模型使用SHAP分析的条形图，可以看到，在三个模型中，年龄的平均绝对SHAP值都是最高的。

然而，在XGBoost和神经网络模型中，BMI的SHAP值排在第二位，其次是性别。

而在随机森林模型中，性别的SHAP值排在第二位，其次是BMI。

（二）蜂群图

下图展示了对XGBoost、随机森林和神经网络模型使用SHAP分析的蜂群图。

所有模型都显示出年龄和BMI之间的正相关关系，尤其是神经网络，颜色渐变从蓝到红，表明关系几乎单调递增。

对于随机森林和XGBoost，接近0的SHAP值呈现混合颜色。

因此，我们可以观测到性别特征在三个模型中都呈现明显的负相关关系。
而酒精年数（AlcoholYear）和每周体育活动天数（PhysActiveDays）的蜂群图则没有明显趋势，尤其在随机森林和神经网络模型中。

SHAP法分析常见统计学方法

（一）SHAP值解析线性模型

首先，我们假设有2000个来自线性回归模型的观测值，模型中包含两个均匀分布的特征 x1和 x2。

设定了线性关系 y=b0+b1x1+b2x2，其中 b0=−10、b1=6、b2=−3。

然后，假设数据生成过程是未知的，我们需要通过线性回归模型对这些数据进行拟合，得出每个特征的 SHAP 值。

对于没有交互项的线性回归模型SHAP 值计算公式为：SHAP(xj)=bj⋅(xj−π(xj))，
其中 bj是回归系数，
π(xj) 是特征 xj的样本均值。

注：公式推导可参考Christopher Molnar的书籍第7章。

下图展示了对线性模型使用SHAP分析的条形图，特征 x1对预测结果的影响更大，因为其回归系数 b1=6＞ b2=−3，这与 SHAP 值的可视化结果一致。

下图展示了对线性模型使用SHAP分析的蜂群图，特征 x1的SHAP值分布范围更广，说明它对预测的影响更显著。

此外，随着特征值的增大，x1的SHAP值也逐步增大（从蓝到红），而 x2的SHAP值则逐渐减少（从红到蓝），呈现出负向影响。

下图展示了对线性模型使用SHAP分析的散点图，也符合数学模型的关系

下图展示了对线性模型使用SHAP分析的瀑布图。

在右图中，特征 x1的SHAP值为11.07，表示它相对于平均预测值增加了模型的输出；
而特征 x2 的SHAP值为12.55，也进一步增加了预测值。

最终，该样本的预测值为 f(xi)=6.839+11.07+12.55=30.459。

（二）SHAP值解析逻辑回归模型

我们同样需要先用逻辑回归模型生成数据，构建了两个特征 x1和 x2x，它们遵循均匀分布 U[0,10]。

模型定义如下：设定参数 b0=10, b1=2, b2=−6，我们生成线性模型并将其转换为概率形式，利用生成的概率对数据进行伯努利采样，得到2000个样本 {(x1,i,x2,i,yi)}i=12000，其中 yi是基于概率 pi的伯努利试验结果。

使用逻辑回归模型拟合生成数据，所得参数与生成过程中的参数一致。

然后，假设数据生成过程是未知的，我们用逻辑回归模型拟合生成的数据，所得参数与生成数据的模型参数匹配。

下图展示了对逻辑回归模型使用SHAP分析的条形图，分别解释了预测概率（左图）和预测对数几率（右图）。

通过对比条形图，我们发现特征 x2x_2x2 的平均绝对SHAP值高于特征 x1x_1x1，说明 x2x_2x2 对模型的影响更大。

这种结果也可以通过传统的回归系数大小来解释：在逻辑回归中，特征 x2的系数大于 x1，从而表明它对模型预测更为关键。

下图展示了对逻辑回归模型使用SHAP分析的蜂群图，与条形图一致，左图为预测概率，右图为预测对数几率。

解释预测概率时，SHAP值的分布是非均匀的；
而当解释预测的对数几率时，特征 x1 和 x2的SHAP值则呈现均匀分布。

下图展示了对逻辑回归模型使用SHAP分析的散点图，左图为预测概率，右图为预测对数几率。

可以发现，在解释预测概率时，特征与SHAP值之间的关系是非线性的。
而在解释预测的对数几率时，特征与SHAP值之间的关系是线性的，这符合预期。

总体来看，解释预测对数几率的SHAP值的可视化图表与线性回归模型的SHAP值的可视化图表类似。

这是因为在对数几率尺度下，预测变量遵循的是线性回归模型。

我们的SHAP法系列文章就介绍到这里了，SHAP法本身并不难，只需要一行代码，就能给出解释模型的最佳方案。

趁现在SHAP法还比较新、热度还在，推荐大家都可以尝试一下。

如果您对机器学习预测模型感兴趣的话，来看看我们的机器学习与预测模型服务吧，一对一指导！详情可咨询助教，微信号：aq566665

关于郑老师团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

我们开展对临床预测模型、轨迹增长模型、医学免费数据库NHANES、GBD数据库、孟德尔随机化方法1对1R语言指导（一年内不限时间，周末、晚上均统计师一对一指导）。

①指导学习R语言基本技巧

②全程指导课程学习

③课程R语言代码运行bug修复

④支持学员一篇SCI论文的数据分析

1对1R语言指导详情介绍

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉