数据代码分享|R语言回归分析:体脂数据、公交绿色出行与全球变暖2案例

科技   科技   2024-11-13 16:57   浙江  

全文链接:http://tecdat.cn/?p=32520


通常在现实应用中,我们需要去理解一个变量是如何被一些其他变量所决定的点击文末“阅读原文”获取完整代码数据

相关视频


回答这样的问题,需要我们去建立一个模型。一个模型就是一个公式之中,一个因变量(dependent variable)(需要预测的值)会随着一个或多个数值型的自变量(independent variable)(预测变量)而改变的。我们能够构建的最简单的模型之一就是线性模型,我们可以假设因变量和自变量间是线性的关系。回归分方法可用于预测数值型数据以及量化预测结果与其预测变量之间关系的大小及强度。本文将介绍如何将回归方法应用到你自己的数据中,主要介绍学习内容:

用线性回归方法来拟合数据方程的基本统计原则和它们如何描述数据元素之间的关系。

如何使用R准备数据进行回归分析查看文末了解数据免费获取方式,定义一个线性方程并估计回归模型。

案例1:体脂数据回归分析


data=read.table("bodyfat.txt",header=F)


给变量名赋值

 
colnames(data)=c("Density determined from underwater weighing","Percent body fat from Siri's (1956) equation","Age","Weight","

数据相关图


点击标题查阅往期内容


R语言逐步多元回归模型分析长鼻鱼密度影响因素


左右滑动查看更多


01

02

**

03

04



回归分析

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,体重和体脂存在回归关系。

数据拟合图

置信区间

残差分析

par(mfrow=c(2,2))  
plot(lmmod)

逐步回归

stepmod=step(lmmod,direction="both",trace=T);

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,体重、年龄、胸围和体脂存在回归关系。

案例2:公交绿色出行与全球变暖回归分析

查看数据

head(data)

查看数据结构

查看数据概况

删除缺失数据

data[ data== "<NA>"]=NA  
datanew=na.omit(data)

相关分析

corrgram(datanew[,c("支持程度.1-7","污染严重"  ,"区域主因" ,"公交出行" , "

使用cor函数来查看不同变量之间的相关系数

##查看支持程度和不同变量之间的相关系数  
cormat[1,]

## 支持程度.1-7     污染严重     区域主因     公交出行     全球变暖
##  1.000000000  0.057896120  0.007793092  0.195963899  0.118643706
##     工业变暖     尾气变暖     公交了解     公交满意     个人影响
##  0.038408531  0.265162650 -0.028947130  0.061299236  0.561345590
##     有效治堵     有效减排     通勤方式     收费区域     收费时段
##  0.647623352  0.582528538 -0.067935998 -0.025646569 -0.086475704
##     收入用途
##  0.064924787

cor.test(datanew$`支持程度.1-7`,datanew$公交出行)

##
##  Pearson's product-moment correlation
##
## data:  datanew$`支持程度.1-7` and datanew$公交出行
## t = 5.5525, df = 772, p-value = 3.875e-08
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.1272518 0.2628041
## sample estimates:
##       cor
## 0.1959639

cor.test(datanew$`支持程度.1-7`,datanew$全球变暖)

##
##  Pearson's product-moment correlation
##
## data:  datanew$`支持程度.1-7` and datanew$全球变暖
## t = 3.32, df = 772, p-value = 0.0009426
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
##  0.04858049 0.18754507
## sample estimates:
##       cor
## 0.1186437

建立多元线性回归

##获得训练集  
 

train <- sample(1:nrow(datanew), nrow(datanew)*0.8)
datanew.train <- datanew[train, ]

进行多元线性模型并进行分析 -----P值<0.1的变量

由于P<0.05,于是在α=0.05水平下,本例的回归系数有统计学意义,污染严重、有效减排、收费时段、个人影响和有效治堵和支持程度存在回归关系。

回归结果

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

plot(lmmod)


数据获取


在公众号后台回复“回归”,可免费获取完整数据。




本文中分析的数据、代码分享到会员群,扫描下面二维码即可加群!


点击文末“阅读原文”

获取全文完整代码数据资料


本文选自《R语言回归分析:体脂数据、公交绿色出行与全球变暖2案例》。




点击标题查阅往期内容

PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯和KMEANS聚类用户画像
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
PYTHON集成机器学习:用ADABOOST、决策树、逻辑回归集成模型分类和回归和网格搜索超参数优化
R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序列数据
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言基于树的方法:决策树,随机森林,Bagging,增强树
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
spss modeler用决策树神经网络预测ST的股票
R语言中使用线性模型、回归决策树自动组合特征因子水平
R语言中自编基尼系数的CART回归决策树的实现
R语言用rle,svm和rpart决策树进行时间序列预测
python在Scikit-learn中用决策树和随机森林预测NBA获胜者
python中使用scikit-learn和pandas决策树进行iris鸢尾花数据分类建模和交叉验证
R语言里的非线性模型:多项式回归、局部样条、平滑样条、 广义相加模型GAM分析
R语言用标准最小二乘OLS,广义相加模型GAM ,样条函数进行逻辑回归LOGISTIC分类
R语言ISLR工资数据进行多项式回归和样条回归分析
R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
R语言用泊松Poisson回归、GAM样条曲线模型预测骑自行车者的数量
R语言分位数回归、GAM样条曲线、指数平滑和SARIMA对电力负荷时间序列预测
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
如何用R语言在机器学习中建立集成模型?
R语言ARMA-EGARCH模型、集成预测算法对SPX实际波动率进行预测
在python 深度学习Keras中计算神经网络集成模型
R语言ARIMA集成模型预测时间序列分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
R语言基于树的方法:决策树,随机森林,Bagging,增强树
R语言基于Bootstrap的线性回归预测置信区间估计方法
R语言使用bootstrap和增量法计算广义线性模型(GLM)预测置信区间
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
Matlab建立SVM,KNN和朴素贝叶斯模型分类绘制ROC曲线
matlab使用分位数随机森林(QRF)回归树检测异常值


拓端数据部落
拓端(tecdat.cn)创立于2016年,提供专业的数据分析与挖掘服务,致力于充分挖掘数据价值。
 最新文章