线性回归中如何筛选自变量?逐步回归被大家所熟知,此外建议再了解一下全子集回归。
salary ~ eduy + prevexp + jobtime + gender + minority + jobcat2工作经验prevexp对工资salary的影响不显著。考虑采用全子集回归进行剔除。subsetfit <- regsubsets(salary ~ eduy + prevexp + jobtime + gender + minority + jobcat2, data = employee,nbest = 5)
nbest表述在不少于5个自变量的模型中进行最优子集的比较。
全子集回归的结果,一般是采用图形法的方式进行观察,如下:plot(subsetfit,scale = "adjr2")
看最上一行,调整后的r方0.72,此时删去了prevexp,留下的是其他5个前面线性回归有显著性的自变量。图形显示,这个五因子模型是最佳模型。salary ~ eduy + jobtime + gender + minority + jobcat2最近我比较忙,论文数据分析如果遇到疑惑,欢迎直接去知乎咨询通道找我: