使用gam.hp包进行广义可加模型（GAM）解释变量相对重要性的评估

文摘 2024-06-23 09:05 江苏

广义可加模型（GAM）作为广义线性模型（GLM）的扩展，摒弃了对变量间预设参数关系的依赖，从而能够敏锐地捕捉数据间的复杂关联。它不仅具备识别线性关系的能力，更能游刃有余地处理数据间的非线性关系，这使得构建更为贴切的非线性模型成为可能。因此，GAM在气候变化、环境科学、生态学等诸多研究领域中得到了广泛的应用。然而，尽管GAM模型在数据处理和分析中展现出显著的优势，但在其结果分析过程中，一个常见的挑战在于缺乏直观且有效的方法来量化各解释变量对模型拟合度贡献率的大小。这一点在共线性或共曲线性的情况下尤为重要，因为它直接关系到我们如何准确评估各解释变量的相对重要性。因此，寻找简单而有效的途径来定量分析各解释变量的贡献率，成为当前GAM模型应用中亟待解决的问题。

图1. 平均共享方差理论示意图. 原理是将共享方差平均分配给相关的解释变量，每个解释变量的贡献率由独自解释（unique）部分和所分配的平均共享方差的和，优势是所有解释变量贡献率总和刚好等于总拟合度（R2）.

为了解决这一问题，Lai et al. (2024) 将“平均共享方差”的思想拓展至GAM模型，研发R包 gam.hp 在线发布于CRAN（https://cran.r-project.org/web/packages/gam.hp/index.html），该包主要作用是定量分解由mgcv包给出的GAM模型的校正R2或离差解释率（explained deviance），提供了在共线性或共曲线性情况下定量评估变量拟合度贡献率及相对重要性的新方法。

文中以openair包提供的英国伦敦空气质量数据mydata为例进行演示。

（1）打开R，运行下面命令，下载安装gam.hp软件包，载入gam.hp和相关软件包。

install.packages("gam.hp")

install.packages("openair")
library(gam.hp)

library(openair)

library(mgcv)

（2）载入mydata数据，建立GAM模型，分析变量共曲线性，评估模型效果。

data("mydata")
mydata <- na.omit(mydata)[,c("o3","ws","nox","co")]
mod1<- gam(o3~s(ws)+s(nox)+s(co),data=mydata)
concurvity(mod1)

## para s(ws) s(nox) s(co)
## worst 5.408694e-20 0.04970121 0.7966771 0.7975821
## observed 5.408694e-20 0.04610312 0.7421644 0.6727814
## estimate 5.408694e-20 0.03262776 0.6461008 0.5952891
summary.gam(mod1)

##
## Family: gaussian
## Link function: identity
##
## Formula:
## o3 ~ s(ws) + s(nox) + s(co)
##
## Parametric coefficients:
## Estimate Std.Error t value Pr(>|t|)
## (Intercept) 7.12094    0.02585   275.5   <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Approximate significance of smooth terms:
## edf Ref.df       F p-value
## s(ws) 6.568 7.520 439.46 <2e-16 ***
## s(nox) 8.947 8.998 1470.64 <2e-16 ***

## s(co) 7.512 8.355 33.69 <2e-16 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## R-sq.(adj) = 0.505 Deviance explained = 50.5%
## GCV = 28.425 Scale est. = 28.409 n = 42524

（3）定量分解summary.gam(mod1)输出的R-sq.(adj)得到各解释变量的独自效应、平均分配值、单独效应、贡献率等，绘图展示单独效应。

hp1<- gam.hp(mod1,type = 'adjR2')

hp1

## $adjusted.R2
## [1] 0.5051936
##
## $hierarchical.partitioning
## Unique Average.share Individual I.perc(%)
## s(ws) 0.0384 0.0029 0.0413 8.17
## s(nox) 0.1524 0.1579 0.3103 61.42
## s(co) 0.0033 0.1503 0.1536 30.40
##
## $variables
## [1] "s(ws) " " s(nox) " " s(co)"
##
## $type
## [1] "hierarchical.partitioning"
##
## attr(,"class")
## [1] "gamhp"

plot(hp1)

（4）定量分解summary.gam(mod1)输出的Deviance explained得到各解释变量的独自效应、平均分配值、单独效应、贡献率等，绘图展示单独效应。

hp2<- gam.hp(mod1,type = 'dev')
hp2

## $Explained.deviance
## [1] 0.5054616
##
## $hierarchical.partitioning
## Unique Average.share Individual I.perc(%)
## s(ws) 0.0385 0.0029 0.0414 8.19
## s(nox) 0.1525 0.1578 0.3103 61.40
## s(co) 0.0034 0.1503 0.1537 30.41
##
## $variables
## [1] "s(ws) " " s(nox) " " s(co)"
##
## $type
## [1] "hierarchical.partitioning"
##
## attr(,"class")
## [1] "gamhp"

plot(hp2)

欢迎大家尝试gam.hp包，也欢迎大家对gam.hp包多提改进意见(请直接联系lai@njfu.edu.cn), 以便使它成为更有用的工具。使用此包请正确引用如下文献：

Jiangshan Lai, Jing Tang, Tingyuan Li, Aiying Zhang, Lingfeng Mao. 2024. Evaluating the relative importance of predictors in Generalized Additive Models using the gam.hp R package. Plant Diversity. https://doi.org/10.1016/j.pld.2024.06.002.

我们也邀请广大研究者使用另外两个包rdacca.hp和glmm.hp分别用于多元数据的典范分析，广义线性混合效应模型（包括常规的多元回归）解释变量相对重要性的评估功能。然而，正如在此文章讨论部分强调的一样，共线性问题在统计学中是一个固有的难题，至今尚未有完美的解决方案。 “平均共享方差”概念旨在为这一问题提供一种简洁且实用的方法而已，虽然它已经在很多领域得到了广泛应用，但并非万能之策。因此，鼓励大家在使用这个方法的时候，既要充分利用它们的优势，也要保持审慎的态度，结合自身的专业知识进行判断。请记住，统计方法只是工具，真正的科学发现应基于对专业知识深入的理解和全面的分析，切勿被统计结果所“绑架”，而是应该让数据和分析服务于我们的研究目的。

http://mp.weixin.qq.com/s?__biz=Mzg4NTczMzAyNA==&mid=2247485094&idx=1&sn=07c6af19e5584a8a8050d3c2d7ad2c6c

数量生态学与R语言

多元统计、一元统计、R程序包开发及R语言应用的推广。

最新文章

phylolm.hp新包发布，用于量化谱系、环境因子对性状变异影响

glmm.hp使用案例（36）| AGEE：中科院生态环境研究中心郑华团队：实证研究量化景观异质性组分及其互作对害虫控制相对贡献

gam.hp使用案例（1）| 曲家鹏团队：高原鼠兔干扰对草地植物群落系统发育的影响

glmm.hp包现在可以允许glm带有offset项，请及时更新

glmm.hp 使用案例（35）| GCB:兰大邓建明团队：中国草地和荒漠土壤无机碳库及其驱动因素

MEE专刊：大语言模型（LLM）如何影响生态学研究：机遇与挑战的多维探讨

glmm.hp 使用案例（34）| NC:南土所梁玉婷团队：冬季变暖对作物生物量碳影响

glmm.hp 使用案例（33）| NC：张福锁院士团队：保护性农业促进土壤健康与生产力以应对长期气候变暖

glmm.hp 使用案例（32）| 杜彦君团队揭示亚热带植物物候爆芽－展叶间隔期的关键驱动因子

南京林业大学生态与环境学院招聘生态学研究相关的人才

glmm.hp使用案例（31） | 1级根解剖性状的海拔变异规律及其适应机制

glmm.hp使用案例(30)| 青海大学董全民课题组: 牦牛和藏羊混合放牧提升了寒草地植物群落功能多样性

glmm.hp包更新及并正确引用

glmm.hp使用案例（29）| 北京林业大学王襄平课题组: 土壤真菌驱动细根相关生长收益随演替变化

9月-12月“AI背景下R语言科学数据分析培训（在线）”（还可以报名）请大家抓紧报名！

JPE关于glmm.hp包的论文入选9月份ESI热点论文（内附glmm.hp使用案例）

9月12日晚开课“AI背景下R语言科学数据分析培训（在线）”（还可以报名）请大家抓紧报名！

2024年9-12月“AI背景下R语言科学数据分析培训（在线）”通知（9月12日晚开课，每周一次，还可以报名）

glmm.hp使用案例（28）| 匈牙利巴拉顿湖沼学研究所冯凯：入侵溪流鱼类群落功能多样性分解的模式及其驱动因素

2024年9-12月“AI背景下R语言科学数据分析培训（在线）”通知（9月12日晚开课，每周一次，显然依然可以报名）

glmm.hp使用案例（27） | 北京大学沈泽昊课题组：气候变暖下中国北方半干旱区主要人工林树种径向生长和抗旱能力评估

2024年9-12月“AI背景下R语言科学数据分析培训（在线）”通知

rdacca.hp包使用描述的参考范例：Ecological Applications最新的一篇文章

2024年9-12月“AI背景下R语言科学数据分析培训（在线）”通知，(优惠期到8月20日）

2024年9-12月“AI背景下R语言科学数据分析培训（在线）”通知，零基础开始，15次课

“大语言模型在生物多样性研究中的应用分析”在线发表

预告：R语言在植物多样性调查、编目中的应用（张金龙）

glmm.hp使用案例（26）| 海南大学周淑荣：生境质量效应驱动西沙群岛植物和土壤微生物群落物种多样性与岛屿面积关系

联合物种分布模型（JSDMs）是什么？

南京林业大学生态与环境学院招聘动物生态学、自然保护地研究相关的人才

glmm.hp使用案例（25）神经科学| 圣保罗联邦大学：脑血流量和呼气末CO2可预测直立不耐受患者在头部倾斜时出现的头晕症状

为什么选用平均分割而不是向前或向后筛选来获取最佳模型和变量重要性?

南京林业大学进化生态学课题组招聘及招生启事

相关分析正负与SEM里面通径系数相反的情况解读

glmm.hp使用案例（24）| 西交利物浦大学：非作物生境与农药暴露对传粉昆虫多样性的影响

@所有人，JPE优秀论文揭晓！

glmm.hp使用案例（23）| 西北高原生物研究所：公路距离对青藏公路沿线植物群落多样性的影响

《联合物种分布模型原理与实践》- 谷际岐博士报告资料共享（讲义）

使用gam.hp包进行广义可加模型（GAM）解释变量相对重要性的评估

《联合物种分布模型原理与实践》- 谷际岐博士报告资料共享（视频及R代码）

MEE的最新影响因子为6.3（IF5为8.9)，生态学科排名12/195

glmm.hp使用案例（22）| 植物研究所：根系渗出参与温带草原割草时氮转化的调控作用

MEE的最新CiteScore为11.6，位居学科前5%

MEE:大型语言模型（LLMs）在生态学和进化研究中编程、教学和包容性方面的应用(全文）

glmm.hp使用案例（21）| 东北师范大学：西北古尔班通古特沙漠沙漠夜行性气孔行为及其对荒漠草本水分利用策略的影响

Ecology最新综述：统计生态学百年历史回顾（全文）

数据生态学百年：统计生态学的发展与未来

glmm.hp包5月14更新，解决一个带NA原始数据的bug，请大家及时更新并使用

MEE和JPE的文章继续入选热点论文

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉