数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

科技科技 2024-11-22 18:30 浙江

原文链接：http://tecdat.cn/?p=26301

线性模型是统计学的基础，但它的意义远不止用尺子在几个点上画一条线（点击文末“阅读原文”获取完整代码数据）。

我认为以分布为中心的观点使 generalised linear models (GLM) 也更容易理解。这就是这篇文章的目的。

我将使用冰淇淋销售统计数据（查看文末了解数据获取方式）来说明不同的模型，从传统的线性最小二乘回归开始，到线性模型、对数变换线性模型，然后是广义线性模型，即泊松（log ) GLM 和二项式（逻辑）GLM。

相关视频线性混合效应模型LMM,Linear Mixed和R语言实现

数据

这是我将使用的示例数据集。它显示了在不同温度下销售的冰淇淋单位。正如预期的那样，更多的冰淇淋在更高的温度下出售。

basicPlot()

挑战

我想创建一个模型来预测在任何温度下销售的单位，即使在可用数据范围之外。

我特别感兴趣的是，当室外结冰时，我的模型在更极端的情况下会如何表现，比如温度下降到 0ºC 并且预测一个非常炎热的夏日在 35ºC。

线性最小二乘

我的第一种方法是用尺子在这些点上画一条直线，这样可以最大限度地减少点和线之间的平均距离。这基本上是一条线性最小二乘回归线：

lqd <- lsfit
abline

这很容易，而且看起来并非不合理。

线性回归

我相信观测值 yi 是从具有平均 μi 的正态（又名高斯）分布中得出的，这取决于温度 xi 和所有温度下的恒定方差 σ2。

在另一天，在相同温度下，我可能售出了不同数量的冰淇淋，但在相同温度下的许多天里，售出的冰淇淋的平均单位将趋向于 μi。

因此，使用以分布为中心的符号，我的模型如下所示：

或者，残差，即观察值和预测值之间的差异，遵循均值为 0 且方差为 σ2 的高斯分布：

此外，方程

我认为 yi 的期望值与基础分布的参数 μi 相同，而方差是恒定的。

以经典误差术语约定编写的相同模型如下所示：

我认为以概率分布为中心的约定更清楚地表明我的观察只是分布的一种实现。此外，它强调分布的参数是线性建模的。

为了在 R 中明确建模，我使用 glm 函数，将因变量分布指定为高斯分布，并将从分布的预期值到其参数的链接函数指定为恒等式。

这就是 GLM 全部内容。

尽管线性模型在观察到的温度范围内看起来不错，但在 0ºC 时没有多大意义。

截距为 -159，这意味着客户在冰冻天平均买 159 个单位的冰淇淋。

对数变换的线性回归

我可以先转换数据。理想情况下，我想确保转换后的数据只有正值。在这些情况下，我想到的第一个转换是对数。

因此，让我们以对数尺度对冰淇淋销售进行建模。因此，我的模型更改为：

这个模型意味着我相信销售额服从对数正态分布，yi∼log⁡N(μi,σ2)，这意味着我认为较高的销售数字比较低的销售数字更有可能，因为对数正态分布是右偏的。

尽管模型在对数尺度上仍然是线性的，但我必须记住将预测转换回原始尺度（记住 E[log⁡(yi)]≠log⁡(E[yi])）：

display(logn.mod)

Plot()
lines
legend

点击标题查阅往期内容

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

左右滑动查看更多

该图看起来比之前的线性模型好一点，它预测我在 0ºC 时平均会卖出 82 个冰淇淋：

exp(coef(lo.i.d)\[1\])

虽然这个模型更有意义，但似乎高估了在越来越低的温度下销售。

此外，这个模型和之前的线性模型还有另一个问题。

假设的模型分布生成实数，但我的销售统计数据是单位，因此总是整数。尽管售出的平均单位数量可能是实数，但从模型分布中抽取的任何数据都应该是整数。

泊松回归

计数数据的经典方法是泊松分布。

泊松分布只有一个参数，这里是 μi，这也是它的期望值。μi 的链接函数是对数，这意味着我必须将指数函数应用于线性模型才能恢复到原始比例。这是我的模型：

再说一遍，虽然我观察到的期望值是实数，但泊松分布只会产生整数，与实际销售额相符。

pos.md <- glm
display(poi.od)

Plot()
lines

这看起来很不错。系数的解释现在应该很清楚了。

从系数中我可以看出，0ºC 时，我预计会卖出 exp⁡(4.45)=94 冰淇淋，而温度每升高 1 度，预计销量会增加 exp⁡(0.076)−1=7.9% .

到现在为止还挺好。我的模型符合我的观察。此外，它不会预测负销售额，如果我使用上述模型给出的平均值从泊松分布进行模拟，我将始终只得到整数。

但是，我的模型还会预测，如果温度达到 32 摄氏度，我应该会卖出 1000 多个冰淇淋：

predict(pmod, newdata)

二项式回归

好的，让我这样思考这个问题：我有 800 个潜在销售量，我想了解在给定温度下销售的比例。

这表明成功销售数量为 800 次的二项式分布。二项式分布的关键参数是成功概率，即有人购买我的冰淇淋的概率作为温度的函数。

因此，我需要一条将销售统计数据映射到 0 到 100% 之间的概率的 S 形曲线。

一个典型的选择是逻辑函数：

有了这个，我的模型可以描述为：

mize <- 1000
icectunity <- marksize - icenits

display(b.glm)

binred <- predict(biglm, type="response")*marsize
basicPlot

随着温度越来越高，该模型将预测销售将达到市场饱和，而迄今为止所有其他模型都将预测越来越高的销售。

我可以使用逻辑函数的倒数来预测 0ºC 和 35ºC 时的销售额：

# 0摄氏度下的销售
plogis(coef(biglm)\[1\])*market.size

# 在35摄氏度下销售
plogis(coef(bnm)\[1\] +  coef(bglm)\[2\]\*35)\*maksie

概括

让我们将所有模型放在一张图中，温度范围为 0 到 35ºC。

p.lm <- predict
po.lm <- exp + 
                 0.5 * sumary(loim)$dispersion)
p.pis <- preict(poiso daaframe(tp=tm, type="response")
p.bn <- predict(biglm, datafrme(emptem), type="espns")*arke.ze 
baPlot

该图表显示了我的四个模型在 0ºC 到 35ºC 的温度范围内的预测。尽管线性模型在 10ºC 到 30ºC 之间看起来还可以，但它清楚地表明了它的局限性。对数变换的线性模型和泊松模型似乎给出了类似的预测，但将预测随着温度的升高，销售额将不断加速增长。我不相信这是有道理的，因为即使是最喜欢冰淇淋的人也只能在非常炎热的一天吃这么多冰淇淋。这就是为什么我会使用二项式模型来预测冰淇淋销量。

模拟

使用以分布为中心的视图来描述我的模型自然会导致模拟。如果模型很好，那么我应该无法从模拟中识别出真实数据。

在我所有的模型中，线性结构都是

或以矩阵表示法

其中 Ai,⋅=[1,xi] 和 v=[α,β]，其中 A 是模型矩阵，v 是系数向量。

话虽如此，让我们模拟原始数据中测量的温度的每个分布的数据，并与实际销售单位进行比较。

n <- nrow(icre)
A <- modl.(uits ~ temp, data=cam)
set.seed(1234)
(rad.nal <- rnorm(n,
                     mean  A %*% cof(li.od),
                     sd = sqrt(sumary(liod)$esion)))

(ranlans <- rlnorm(n,
                         mnog = A %*% coef(.od),
                         sdlog =  sqrt(summary(loiod)$isin)))

(nd.ps <- rpois(n,
                   labd = exp(A %*% coef(piod))))

(ra<- rbinom(n,
                   size = meze,
                   prob = plogis(A %*% coef(b.m))))

bacPlot
cols <- adscor(c
points(iceram$tmp,  pch=19, col=cols\[1\])

该图表仅显示每个模型的一个模拟，但显示了一些有趣的方面。我不仅看到泊松和二项式模型生成整数，而高斯和对数变换的高斯预测实数，我注意到红点处对数正态分布的偏度为 19.4ºC。

此外，线性模型预测高于和低于平均值的可能性相同，在 16.4ºC 时，预测似乎有点低 - 可能是结果。

此外，对数转换和泊松模型在 25.1ºC 时的高销售额预测也不意外。

同样，二项式模型的模拟似乎是最接近现实的。

结论

我希望这篇文章能说明广义线性模型背后的直觉。

将模型拟合到数据需要的不仅仅是应用算法。特别值得思考的是：

期望值的范围：它们是有界的还是范围从 -∞ 到 ∞？
观察类型：我期望实数、整数还是比例？
如何将分布参数与观测值联系起来

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击文末“阅读原文”

获取全文完整资料。

本文选自《R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟》。

点击标题查阅往期内容

生态学模拟对广义线性混合模型GLMM进行功率（功效、效能、效力）分析power analysis环境监测数据

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据

R语言贝叶斯广义线性混合（多层次/水平/嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据

R语言贝叶斯MCMC：GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例

R语言用lme4多层次（混合效应）广义线性模型（GLM），逻辑回归分析教育留级调查数据

R语言广义线性模型GLM、多项式回归和广义可加模型GAM预测泰坦尼克号幸存者

R语言用Rshiny探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）

R语言使用bootstrap和增量法计算广义线性模型（GLM）预测置信区间

R语言广义线性模型(GLMs)算法和零膨胀模型分析

R语言中广义线性模型(GLM)中的分布和连接函数分析

R语言中GLM(广义线性模型)，非线性和异方差可视化分析

R语言中的广义线性模型（GLM）和广义相加模型（GAM）：多元（平滑）回归分析保险资金投资组合信用风险敞口

用广义加性模型GAM进行时间序列分析

R和Python机器学习:广义线性回归glm，样条glm，梯度增强，随机森林和深度学习模型分析

在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

用广义加性模型GAM进行时间序列分析

R和Python机器学习:广义线性回归glm，样条glm，梯度增强，随机森林和深度学习模型分析

在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247548243&idx=6&sn=76ef38adf30bbfee347d04c296522a24

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

最新文章

python用支持向量机回归(SVR)模型分析用电量预测电力消费

R语言ARIMA-GARCH波动率模型预测股票市场苹果公司日收益率时间序列

数据分享|PYTHON用决策树分类预测糖尿病和可视化实例

R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标

R语言随机波动率(SV)模型、MCMC的Metropolis-Hastings算法金融应用：预测标准普尔SP500指数

【专题】2024年协作机器人产业发展蓝皮书报告汇总PDF洞察（附原数据表）

R语言非线性混合效应 NLME模型(固定效应&随机效应)对抗哮喘药物茶碱动力学研究

分布滞后线性和非线性模型（DLNM）分析空气污染（臭氧）、温度对死亡率时间序列数据的影响

R语言GARCH族模型：正态分布、t、GED分布EGARCH、TGARCH的VaR分析股票指数

【专题】2024年双十一购物节营销、消费洞察报告汇总PDF洞察（附原数据表）

Copula估计边缘分布模拟收益率计算投资组合风险价值VaR与期望损失ES

【专题】2024大健康产业热点分析报告合集PDF分享（附原数据表）

R语言预测人口死亡率：用李·卡特（Lee-Carter）模型、非线性模型进行平滑估计

数据分享|R语言广义线性模型GLM：线性最小二乘、对数变换、泊松、二项式逻辑回归分析冰淇淋销售时间序列数据和模拟

R语言Bootstrap的岭回归和自适应LASSO回归可视化

R语言特征选择——逐步回归

MATLAB贝叶斯优化混合Bayes-CNN-RNN分析股票市场数据与浅层网络超参数优化

体验游浪潮，推动旅游业变革|报告汇总PDF洞察（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2023年中国AIGC产业全景报告PDF合集分享（附原数据表）

matlab贝叶斯隐马尔可夫hmm模型实现

非线性回归nls探索分析河流阶段性流量数据和评级曲线、流量预测可视化

Python套索回归lasso、SCAD、LARS分析棒球运动员薪水3个实例合集|附数据代码

用R语言和python进行社交网络中的社区检测

MATLAB深度学习Transformer神经网络量化金融时间序列预测交易策略回测

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉