|本文共723字,阅读约需3分钟
1
广义线性模型
2
方法优势
(1)灵活性:GLM允许响应变量的分布选择,可以根据数据的性质选择最适合的分布和链接函数。
(2)解释性:尽管涉及非线性链接,模型的解释仍然保持直观,因为变量的影响是通过线性预测子来建模的。
(3)广泛适用:GLM可用于多种类型的数据分析,如计数数据(使用泊松回归)、二分类数据(使用逻辑回归)、时间至事件数据等。
3
案例演示
采用进行广义线性模型(GLM)分析,目标是分析人口密度、降雨量和NDVI对植被覆盖的影响。
import pandas as pd
import statsmodels.api as sm
import statsmodels.formula.api as smf
uploaded_df = pd.read_csv('/home/mw/input/data8952/GLMdata.csv')
# 显示上传数据的前几行以及概览
uploaded_df.head(), uploaded_df.describe()
# 定义并拟合广义线性模型
uploaded_glm_model = smf.glm('Vegetation_Cover ~ Population_Density + Precipitation + NDVI',
data=uploaded_df,
family=sm.families.Gaussian()).fit()
# 输出新模型的摘要
uploaded_glm_model.summary()
结果分析:
Intercept(截距):系数 7.0803,标准误 7.070,z值 1.001,P值 0.317。截距在统计上不显著。
Population Density(人口密度):系数 0.0497,标准误 0.005,z值 10.796,P值< 0.001,人口密度的影响在统计上非常显著。
Precipitation(降雨量):系数 0.1180,标准误 0.033,z值 3.543,P值 0.0004。降雨量对植被覆盖的正向影响也在统计上显著。
NDVI(归一化植被指数):系数 21.1909,标准误 3.375,z值6.279,P值< 0.001。NDVI的效应在统计上显著,且影响力很大。
分析和讨论:
模型效果: Pseudo R-squared为0.401,表明模型能够解释大约40%的植被覆盖变异性。
变量影响: 除了截距外,所有变量的系数都在统计上非常显著,表明这些变量对植被覆盖有显著的影响。人口密度、降雨量和NDVI的正向关系与理论预期一致。
4
完整代码
公众号后台回复【241016】,即可获取完整的代码及示例数据!(数据仅用于演示,不存在合理性)
喜欢也行,不喜欢也行;如果觉得有用处的话,还请点点右下角的赞/在看,记得关注我哟!