时代变了,“SHAP” 取代“列线图”,成为预测模型文章的重点

学术   2024-11-05 14:01   北京  


最近,发现现在预测模型的文章,大多数都在用机器学习来建模和验证了,并且,可以看出,文章的题目已经不再强调“列线图”,现在文章多强调“SHAP”法。

举几个例子。

图1 使用环境挥发性有机化合物暴露识别美国人群心血管疾病风险:基于SHAP方法的机器学习预测模型
图2 糖尿病患者ICU住院期间压力损伤发生预测模型——XGBoost机器学习模型可基于SHAP进行解释

图3 融合机器学习与SHAP值算法的居民需求响应个体异质性因素挖掘与应用研究
图4 解释机器学习模型对糖尿病血糖预测的重要性:使用SHAP进行分析

在机器学习领域中,模型的可解释性一直备受关注,是一个重要的课题。尽管复杂的模型如深度神经网络和集成模型(如XGBoost、LightGBM)在预测性能上表现优异,但通常被视为“黑箱”,难以解释其内部决策过程。
然而,SHAP(SHapley Additive exPlanations)是一种解决这一问题的工具,用来解释机器学习模型预测结果的方法,由Scott Lundberg和Su-In Lee于2017年提出。它基于博弈论中的Shapley值概念,为模型的每个特征分配重要性值,从而解释模型的预测过程。
SHAP支持多种机器学习框架,如XGBoost、LightGBM、sklearn、TensorFlow等,使用SHAP时,通常包括以下步骤:
  • 训练模型:使用数据集训练机器学习模型
  • 计算SHAP值:使用SHAP库计算每个特征的SHAP值
  • 可视化与解释:通过可视化方法展示SHAP值,进行模型解释
在文章中的展示图如下:
1.模型中变量的SHAP值排序
2.摘要图(Summary Plot)
3.力图(Force Plot)
4.依赖图(Dependence Plot)
SHAP作为机器学习模型的解释工具,已经是一项重大突破,通过量化特征对预测的贡献,提供可视化功能。
我们也要跟得上时代的脚步,用上新的方法!


Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资源。你现在也在考虑从 Python 入门机器学习吗?我们精心设计了一门课程《从零基础掌握Python机器学习与深度学习》,本课程能帮你成功上手,从零基础掌握 Python机器学习与深度学习。



课程内容

第一模块 Python基础知识串讲

1、Python软件和模块安装、编程环境搭建

2、Python基本语法和操作

3、Python流程控制

4、Python函数与对象创建与使用

第二模块 Python科学计算

1Matplotlib的安装与图形绘制

2Numpy常用函数简介与使用

3、Pandas常用函数简介与使用

4、cipy常用函数简介与使用

5、实操练习

三模块Python统计分析与可视化

1、统计学基础知识(描述统计、统计推断、时空统计)

2、统计数据的描述与可视化

4、回归分析(多元线性回归模型、变量选择与模型优化、多重共线性与解决方法;Ridge回归;LASSO回归;ElasticNet回归等)

5、实操练习

四模块Python树模型(4课时)

1、机器学习概述、数据预测与预测建模

2、决策树模型

3、随机森林模型

4、Bagging与Boosting的区别与联系

5AdaBoost vs. Gradient Boosting的工作原理

6、常用的GBDT算法框架(XGBoost、LightGBM)

7、SHAP法解释特征重要性与可视化(SHAP值的可视化与特征重要性解释)

8、部分依赖分析

9、实操练习

第五模块 因果推断与因果学习(4课时)

1、因果推断概述

2、因果推断范式(潜在因果推断、结构因果推断)

3、因果推断实现(传统方法、机器学习方法)

4、因果机制识别与发现(因果效应估计、非线性因果效应估计、因果作用未来预测)

5、时空因果推断

6、实操练习

第六模块 Python深度学习(6课时)

1、人工神经网络

2、深度学习模型原理

3、深度学习模型实现

4、案例演示与实操

第七模块 典型论文讲解与研究设计复现、答疑与交流(2课时)

1、树模型案例分析与实现

2、深度学习模型案例分析与实现

3、因果学习案例分析与实现

4、课程相关资料拷贝与分享

5、答疑与讨论(大家提前把问题整理好)


讲授/答疑老师:
李老师,985高校本硕,中科院博士,本科高校副教授,长期从事机器学习、贝叶斯统计、医学统计等科研和教学工作,具有丰富的科研和授课经验。某省高等学校优秀青年学术带头人、拔尖骨干人才、C刊学术编辑。主持国社科基金、教育部人文社科项目等课题多项,参与国社科重大、科技部973项目、国自然基金等项目多项,以第一或通讯作者在Lancet子刊、PloS Medidcine、Environment International、《统计研究》、《数理统计与管理》、《经济地理》等高质量期刊发表论文30多篇,担任多个SSCI\SCI期刊的审稿人。

目标受众:
零基础可学,适用于经济管理、医学、社会学以及公共卫生等领域的本科生、硕博研究生和青年教师,尤其是实证基础薄弱但是希望能够掌握Python机器学习与深度学习同学和老师。

上课时间(暂定):
11月23日  8:30-12:00    14:00-17:30
11月24日14:00-17:30    18:30-21:30
11月30日  8:30-12:00    14:00-17:30
【可长期回放+1年答疑】


课程特色:

提供ppt讲义+案例+数据+python代码 


课程价格:优惠价1299

学术严选会员及老学员有优惠,具体请联系陈老师(微信 xsyxkf001)



报名:倘若您对课程感兴趣,扫描上方二维码可直接购买,
可开培训费、资料费、技术服务费、信息服务费等,可公对公转账,提供培训通知。请扫描下方二维码可添加助教微信询问课程详情及发票事宜。
     
          助教二维码,联系咨询               


学术严选
致力于学术资源创作、搬运、遴选,提供高质量的学术资源下载
 最新文章