果叔手把手带你复现XGboost和LightGBM机器学习算法特征重要性排名和 SHAP 汇总图

学术 2024-10-09 14:13 上海

前言

XGBoost（eXtreme Gradient Boosting）和LightGBM（Light Gradient Boosting Machine）是两种流行的机器学习框架，特别适用于梯度提升算法。目前，在很多文章中，尤其是非肿瘤的文章中应用广泛。XGBoost和LightGBM生成的模型被视为“黑箱模型”，即通过常规的重要性评估，我们只能确定对模型最关键的特征。然而，对于这些关键特征如何影响模型的最终结果指标，我们却一筹莫展。因此，2017年，Lundberg和Lee的论文提出了SHAP值这一通用方法，用于解释各种模型（包括分类和回归）。其中最大的受益者是之前难以理解的黑箱模型，例如XGBoost和LightGBM模型。下面跟着果叔来复现下面文章中的机器学习过程吧！

今天果叔和大家分享的是2022年12月发表在 “Frontiers in Immunology” 上的分的非肿瘤免疫分型结合多种机器学习算法文章——《Identification of immune microenvironment subtypes and signature genes for Alzheimer's disease diagnosis and risk prediction based on explainable machine learning》。

原文中机器学习模型的应用和解释

1.通过SHAP值阐明每个特征变量对预测模型的影响。基于 XGBoost 模型的 SHAP 汇总图对特征变量的重要性排序表明，对 XGBoost 模型贡献最大的前 5 个变量是 CXCR4、PPP3R1、HSP90AB1、CXCL10 和 S100A12（图6A）。

2. 采用 SHAP 依赖分析来描述单个特征变量如何影响 XGBoost 预测模型的结果（图 6B）。特征变量的 SHAP 值越高，AD 的可能性就越大。

3.LightGBM模型中最重要的5个变量与XGBoost模型中的变量一致（图6C）。SHAP 依赖分析也用于解释每个特征变量对 LightGBM 模型输出的影响（图6D）。

下面开始我们的实战了，果叔提醒大家本次复现的内容运算起来比较费时、占用内存比较大，建议各位小伙伴可以使用服务器运行，这样就不会出现跑不动或者黑屏的情况了！！如果没有自己的服务器欢迎联系我们使用服务器租赁~价格便宜到超乎你想象！！真的是花小价钱办大事，性价比超级高哦！！！

跑代码时卡顿、电脑不给力让人抓狂！找大侠试用稳定高速的服务器，让分析顺畅无比！

代码学不会？bug 频繁出现，束手无策？实操生信分析课程赶快学起来！滴滴大侠领取体验课程哦~

线上课程教学

课题设计、定制生信分析

云服务器租赁

加微信备注99领取使用

代码复现

首先，我们来看看如何构建XGBoost机器学习模型并通过模型进行特征选择。

XGBoost 机器学习模型是一种高效且可扩的展的机器学习分类器，由 Chen 和 Guestrin 在 2016 年推广。XGBoost原理是是在决策树的基础上产生迭代，它以 boosting 的方式结合了多个决策树。通常创建每棵新树是为了通过梯度提升来减少先前模型的误差，误差指的是实际值和预测值之间的差异。把误差作为协变量参与下一个模型的预测，反复执行这个过程，降低出错率，直到决策树指定阈值，模型已经被训练成功。XGBoost 具有与梯度提升相同的原理，它使用提升次数、学习率、二次采样率和最大树深度来控制过度拟合并增强更好的性能。

Xgboost相对于线性模型在进行预测时往往有更好的精度，但是同时也失去了线性模型的可解释性。所以Xgboost通常被认为是黑箱模型。

2017年，Lundberg和Lee的论文提出了SHAP值这一广泛适用的方法用来解释各种模型（分类以及回归），其中最大的受益者莫过于之前难以被理解的黑箱模型，如boosting和神经网络模型。

本教程中，我们在真实数据集上进行实操，利用SHAP来解释Xgboost模型。

XGBoost

shapviz: 提供了用于SHAP值可视化的函数。

ggplot2: 用于绘制图形。

xgboost: XGBoost模型。

##加载相关的R包rm(list = ls())library(shapviz)    library(ggplot2)library(xgboost)inputFile="SHAP.csv"   #输入文件                      #读取输入文件data=data.table::fread(inputFile)data=data[,-1]data=t(data)data=t(data)dat <-data#对数据进行一些预处理，包括转置（t）和删除缺失值（na.omit）。dat <- na.omit(dat)vfactor <- c("group")set.seed(123)dtrain <- xgb.DMatrix(data.matrix(dat[,-1]),                       label = dat[,1])# 构建模型#使用xgb.DMatrix将数据转换为XGBoost的数据格式。#使用xgboost函数构建XGBoost模型，指定一些参数，如eta（学习率）、eval_metric（评估指标）、nrounds（迭代次数）等。fit <- xgboost(params = list(eta = 0.1,                                   eval_metric = "logloss",                               nthread=2,                               eval_metric="auc"),                 data = dtrain,                 prediction=TRUE,                 nrounds = 100)           #使用shapviz中的函数计算SHAP值，并通过sv_waterfall、sv_force、sv_importance、sv_dependence等函数对SHAP值进行可视化。shap <- shapviz(fit,X_pred =data.matrix(dat[,-1]))           sv_waterfall(shap,              row_id = 3,             max_display = 30,             fill_colors=c("#FF0000", "#0085FF"))           sv_force(shap,         row_id = 2,         max_display = 30,         fill_colors=c("#FF0000", "#0085FF"))           sv_importance(shap, kind = "beeswarm",                  max_display = 30)           # 绘制条形图sv_importance(shap,fill = "#0085FF",              max_display = 30)

以上是对模型重要的特征。然而，如何去解释以上特征对模型的贡献呢？这个时候就需要计算SHAP值。

#SHAP dependence plots（SHAP依赖图）sv_dependence(shap,                   v = "SERPINA3", ##这个地方注意要换成自己的基因哦！！              color_var = NULL)           #计算并可视化SHAP值的交互作用，使用sv_interaction函数。shp_i <- shapviz(fit,                  X_pred =data.matrix(dat[,-1]),                  interactions = TRUE)           sv_interaction(shp_i)+   theme(axis.text.x = element_text(angle = 45, vjust = 1, hjust = 1))

图解：变量名沿纵坐标表示，模型的重要性从上到下递减。紧接着的数值是所有样本SHAP值的平均值。图中每个点代表一个样本的SHAP值，颜色接近黄色表示值较大，接近紫色表示值较小。

LightGBM

使用LightGBM模型计算SHAP（Shapley Additive exPlanations）值，并使用shapviz包中的可视化函数对模型的解释结果进行展示。SHAP值提供了对模型预测输出的解释，以及每个特征对于预测结果的贡献程度。

LightGBM在XGBoost上主要有3方面的优化。

1，Histogram算法:直方图算法。

2，GOSS算法:基于梯度的单边采样算法。

3，EFB算法:互斥特征捆绑算法。

XGBoost生成一片叶子的复杂度可以粗略估计为 = 特征数量*候选分裂点数量*样本的数量。

Histogram算法的主要作用是减少候选分裂点数量，

GOSS算法的作用是减少样本的数量，

EFB算法的作用是减少特征的数量。

通过这3个算法的引入，LightGBM生成一片叶子需要的复杂度大大降低了，从而极大节约了计算时间。同时Histogram算法还将特征由浮点数转换成0~255位的整数进行存储，从而极大节约了内存存储。

加载R包

#shapviz: 提供了用于SHAP值可视化的函数。#ggplot2: 用于绘制图形。#lightgbm: LightGBM模型。library(shapviz)library(ggplot2)library(lightgbm)inputFile="SHAP.csv"        #输入文件               #读取输入文件data=data.table::fread(inputFile)data=data[,-1]data=t(data)data=t(data)dat <-datadat <- na.omit(dat)vfactor <- c("group")df[vfactor] <- lapply(df[vfactor], factor)set.seed(123)#模型构建#使用LightGBM的lgb.Dataset将数据转换为LightGBM的数据格式。#使用lgb.train函数构建LightGBM模型，指定一些参数，如objective（目标函数）、learning_rate（学习率）等。dftrain <- lgb.Dataset(data=data.matrix(dat[,-1]),label = dat[,1])lgb <- lgb.train(params = list(objective="binary",                               learning_rate=0.3),                 data=dftrain,                 nrounds=1000,                 verbose = -1)           # 计算SHAP值    #使用shapviz中的函数计算SHAP值，并通过sv_waterfall、sv_importance等函数对SHAP值进行可视化。shp <- shapviz(lgb,X_pred =data.matrix(dat[,-1]))           #waterfall plotsv_waterfall(shp,row_id = 2,max_display = 30)

#SHAP summary plot（变量重要性）           sv_importance(shp, kind = "beeswarm",max_display = 30)               # 条形图sv_importance(shp,fill="#0085FF",max_display = 30)

结语

好啦，今天的学习就到此结束了，小伙伴们快去试试吧！想要今天示例数据的小伙伴们，赶快去后台领取吧！！最后，大家如果对生信分析感兴趣但还不熟悉，又想尝试一下处理自己的数据，不妨试一下果叔开发的生信云平台哦，一键出图，一键导出CNS级别的Figture！！赶快去试试吧！！点击 http://www.biocloudservice.com/home.html。

不会分析还想用生信工具助力发文咋办？有这顾虑的朋友，想一步到位就带着想法来，不论是代码实操还是在线文章结果复现，果叔照样能提供，还有大家都想要的服务器，找果叔获取就对了！

定制生信分析

服务器租赁

扫码咨询果叔

往期回顾

“顶刊中的小弟，水刊中的大哥”说的就是Nature Communications！杭师大团队靠UKB数据库，简简单单5张图搞定！

恭喜拿下一区8.5分！电子科大绵阳中心医院借MIMIC数据库之力发文，「TyG 」真就高分敲门砖呗！

国产一区7分“神刊”，多领域沾边就收，纯生信文章超香，看这篇示例就懂！！

IF:18.8!这套思路转化价值极高！深度学习+多模态数据+生物标志物，正成为国自然临床口子新宠，原来可以做这么多方向！

http://mp.weixin.qq.com/s?__biz=Mzg3OTg3MjQyNg==&mid=2247504203&idx=2&sn=6c357575c49240e7567ff7eb86c49932

生信果

生信入门、R语言、生信图解读与绘制、软件操作、代码复现、生信硬核知识技能、服务器等

样本量爆棚？分析深度加码？选对服务器，省心科研无忧！

UKB数据库真的牛！3天接受，10天发表！免费新数据绝佳发文时期，拼的就是手速！仅2张图就能拿下IF:13.4分？！

Nature Methods佳作！双注意力机制新型图神经网络SpatialGlue破译空间多组学的空间域

基于机器学习识别潜在疾病生物标志物，5分超级易复现！就是这么简单！（附十大机器学习库，超全速码~）

网络药理学大神进阶！筛选PPI网络，给你的论文”精装修“,再也不被期刊卡图！

16.6分亮相！重医团队推出：孟德尔随机化数据库DMRdb，专治不会MR的你，“医” 路畅通无阻！保姆级别的教学，还不快码住！

网络药理学大神进阶！筛选PPI网络，给你的论文”精装修“,再也不被期刊卡图！

IF=11.4南京医科大“本科生一作”发中科院1区，后浪真的强啊！预后模型纯生信分析还能发11分，得好好看看怎么做的~

当实验无趣时：如何通过租赁服务器开启科研新篇章

水刊拒稿莫慌，也许是 “福” 从天降！Heliyon on hold不打紧，转投1区神刊，力挽狂澜斩获6分+！

空间转录组学数据处理只依赖R语言？让我们从scanpy开始，拥抱python吧！

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

IF=58.7，这泼天的多组学富贵可得接住！系统生物学研究团队开挂思路，机器学习助力个性化医疗，你就学吧，一看一个不吱声！

没听错吧！单细胞中也可以进行免疫浸润分析？SpatialCells带给你新的体验！

当实验无趣时：如何通过租赁服务器开启科研新篇章

“made in China”嘎嘎好用！中国人自己的数据库就是香！暨南大学：CHARLS+Cox回归分析，8.5分信手拈来超牛！

目标达成！服务器独享拼团，优惠力度超乎想象！

羡慕了！不做实验照样高分 “开挂”！中南大学雷光华团队玩转MR，3表2图成就1区7.6分佳绩！纯生信发文妙招你悟了吗？！

没听错吧！单细胞中也可以进行免疫浸润分析？SpatialCells带给你新的体验！

0实验，10天见刊？中国医科大学团队1区：“机器学习+GEO数据库”入门级分析，也能轻松拿捏6分SCI！复现赶紧速速走起！

26天接收？又快又“水”的救命神刊！不信看山东中医药大学的这篇“网络药理学”佳作，看了的人都说发文so easy！

目标达成！服务器独享拼团，优惠力度超乎想象！

IF=13.0!又被孟德尔随机化给“秀”到了！复旦大学郁金泰团队挖掘UKB数据库，仅5张图拿下高分！

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

BIG胆！研究生“豪横”放7天，导师灵魂拷问：几篇SCI就敢浪？10月新增的这几本On hold期刊别说不知道！

干货！快进来看看！motifStack包，序列logo定制的艺术大师！！体验科学研究的视觉盛宴！

机器学习当真是牛哄啊！这谁能想到2024诺贝尔物理学奖竟颁给了交叉学科，速看官方如何“狡辩”！

果叔手把手带你复现XGboost和LightGBM机器学习算法特征重要性排名和 SHAP 汇总图

有这思路，复现爽歪歪！扬州大学团队1区7+：“网络药理学+分子对接+分子动力学”三连击，毕业so easy！

目标达成！服务器独享拼团，优惠力度超乎想象！

网药惊喜！17天接收，速度 “飞” 天！毕业神刊加持，网药+分子对接+分子动力学，2区稳稳哒，中医药学子赶紧的冲！

干货！快进来看看！motifStack包，序列logo定制的艺术大师！！体验科学研究的视觉盛宴！

这就是咱们国人之光哇！同济医院骆翔团队以 “UKB 数据库+孟德尔随机化” 斩获一区5分，试问实验还卷得动吗？

果叔教你使用spatialLIBD语言包分析生物空间数据

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

心脏警报，摆烂的年轻人注意了！北大团队10万国人研究：不健康生活方式让冠心病风险激增，你还敢任性吗？

不会在服务器使用百度网盘？bypy来帮你

目标达成！服务器独享拼团，优惠力度超乎想象！

我缺的是Nature Communications吗？我缺的是能上顶刊的创新思路！中山大学巨噬细胞携手胞葬作用登顶NC！

牛掰啊！本科生一作0实验发Top纯生信！“代谢重编程+机器学习”就这点东西做完直接毕业！

浙江大学研究团队发文有高招！“单细胞+空转+巨噬细胞”这个“王牌套路” 学会，发它个10篇，普通青椒/医生晋升的路这不就通了吗！

这是咱们国人的杰作啊！同济医院骆翔教授团队利用“UKB数据库+孟德尔随机化”顺利收获一区5分，有这思路还卷什么实验啊！

从前对“网络毒理学”爱答不理，如今高攀不起！0实验成就海南医科大学团队6分+文章，新赛道就是发文福地，易复现，转头又是一篇！

从临床到生信：医生们 “躺平式” 发文新打法，干湿结合的侧重点该如何把握？

IF 27.7！TCGA+GTEx老树开花，纯生信轻松卷上Mol Cancer！不是实验做不起，而是纯生信更有性价比！

从前对“网络毒理学”爱答不理，如今高攀不起！0实验成就海南医科大学团队6分+文章，新赛道就是发文福地，易复现，转头又是一篇！

目标达成！服务器独享拼团，优惠力度超乎想象！

刚复现的生信文章投稿被拒？别慌！这一文了解常见拒稿原因及应对策略，实测有效！

牛掰啊！本科生一作0实验发Top纯生信！“代谢重编程+机器学习”就这点东西做完直接毕业！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉