R语言区间数据回归分析

科技   科技   2024-08-30 17:44   浙江  


原文链接:http://tecdat.cn/?p=14850


回归分析是一种十分常见的数据分析方法,通过观测数据确定变量间的相互关系。传统回归分析以点数据为研究对象,预测结果也是点数据,而真实数据往往在一定范围内变动的点击文末“阅读原文”获取完整代码数据

相关视频


基于置信度可以形成置信区间,一定程度弥补了预测值为单点的不足,但将点数据作为研究对象,以点带表某范围内的所有数据,往往存在信息丢失的问题.

区间回归分析是一种以区间数为研究对象的数据分析方法.区间数能反映出数据的变动范围,更符合现实情况.区间型符号数据是区间数的一种,通过"数据打包"形成,因此除具有区间端点信息外,还具有区间内部散点信息.

本文将做一个简短的解释说明如何使用R在有区间的情况下提取上下限值。让我们从生成数据开始,


X=rnorm(n)
Y=2+X+rnorm(n,sd = .3)

 假设现在我们不再观察变量x,而只是观察一个类(我们将创建八个类,每个类有八分之一的观察值)


Q=quantile(x = X,(0:8)/8)
Q[1]=Q[1]-.00001
Xcut=cut(X,breaks = Q)

 例如,对于第一个值,我们有


as.character(Xcut[1])
[1] "(-0.626,-0.348]"

 要提取有关这些边界的信息,我们可以使用下面的小代码,该代码返回区间的下限,上限和中值



lower = c(lower1,lower2)
lower=lower[!is.na(lower)]
upper = c(upper1,upper2)
upper=upper[!is.na(upper)]
mid = (lower+upper)/2
return(c(lower=lower,mid=mid,upper=upper)

extrai(Xcut[1])
lower mid upper
-0.626 -0.487 -0.348

 可以看到,我们可以在数据库中创建三个变量(具有下限,上限和中值信息)


B$lower=B2[1,]
B$mid =B2[2,]
B$upper=B2[3,]

 我们可以比较4个回归(i)我们对8个类别进行回归,即我们的8个因子(ii)我们对区间的下限进行回归,(iii)对区间的“平均值”值进行回归(iv)对上限


regF=lm(Y~X,data=B)
regL=lm(Y~lower,data=B)
regM=lm(Y~mid,data=B)
regU=lm(Y~upper,data=B)

 我们可以将预测与我们的四个模型进行比较

  

 


点击标题查阅往期内容


贝叶斯线性回归和多元线性回归构建工资预测模型


左右滑动查看更多


01

02

03

04



更进一步,我们还可以比较模型的AIC,


AIC(regF)
[1] 204.5653
AIC(regM)
[1] 201.1201
AIC(regL)
[1] 266.5246
AIC(regU)
[1] 255.0687

 

如果下限和上限值的使用不是确定性的,则在此处应注意,使用区间的平均值会比使用8个因子略好。




本文中分析的数据、代码分享到会员群,扫描下面二维码即可加群! 




点击文末“阅读原文”

获取全文完整代码数据资料


本文选自《R语言区间数据回归分析》。


点击标题查阅往期内容

数据分享|R语言逐步回归、方差分析anova电影市场调查问卷数据可视化
R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测
逻辑回归(对数几率回归,Logistic)分析研究生录取数据实例
R语言使用Metropolis- Hasting抽样算法进行逻辑回归
R语言逻辑回归Logistic回归分析预测股票涨跌
R语言在逻辑回归中求R square R方
R语言逻辑回归(Logistic Regression)、回归决策树、随机森林信用卡违约分析信贷数据集
R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
R语言进行支持向量机回归SVR和网格搜索超参数优化
R语言贝叶斯MCMC:GLM逻辑回归、Rstan线性回归、Metropolis Hastings与Gibbs采样算法实例
在R语言中实现Logistic逻辑回归
R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病
R语言用Rcpp加速Metropolis-Hastings抽样估计贝叶斯逻辑回归模型的参数
R语言逻辑回归logistic模型分析泰坦尼克titanic数据集预测生还情况
R语言用lme4多层次(混合效应)广义线性模型(GLM),逻辑回归分析教育留级调查数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言基于Bagging分类的逻辑回归(Logistic Regression)、决策树、森林分析心脏病患者
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险


拓端数据部落
拓端(tecdat.cn)创立于2016年,提供专业的数据分析与挖掘服务,致力于充分挖掘数据价值。
 最新文章