R语言Lasso回归模型变量选择和糖尿病发展预测模型

科技科技 2024-11-08 18:20 浙江

全文链接：http://tecdat.cn/?p=22721

Lease Absolute Shrinkage and Selection Operator（LASSO）在给定的模型上执行正则化和变量选择（点击文末“阅读原文”获取完整代码数据）。

根据惩罚项的大小，LASSO将不太相关的预测因子缩小到（可能）零。因此，它使我们能够考虑一个更简明的模型。在这组练习中，我们将在R中实现LASSO回归。

相关视频

练习1

加载糖尿病数据集。这有关于糖尿病的病人水平的数据。数据为n = 442名糖尿病患者中的每个人获得了10个基线变量、年龄、性别、体重指数、平均血压和6个血清测量值，以及感兴趣的反应，即一年后疾病进展的定量测量。"

接下来，加载包用来实现LASSO。

head(data)

向下滑动查看结果▼

练习2

数据集有三个矩阵x、x2和y。x是较小的自变量集，而x2包含完整的自变量集以及二次和交互项。
检查每个预测因素与因变量的关系。生成单独的散点图，所有预测因子的最佳拟合线在x中，y在纵轴上。用一个循环来自动完成这个过程。

summary(x)

for(i in 1:10){
  plot(x\[,i\], y)
  abline(lm(y~x\[,i\])
}

向下滑动查看结果▼

点击标题查阅往期内容

基于R语言实现LASSO回归分析

左右滑动查看更多

练习3

使用OLS将y与x中的预测因子进行回归。我们将用这个结果作为比较的基准。

lm(y ~ x)

向下滑动查看结果▼

练习4

绘制x的每个变量系数与β向量的L1准则的路径。该图表明每个系数在哪个阶段缩减为零。

plot(model_lasso)

向下滑动查看结果▼

练习5

得到交叉验证曲线和最小化平均交叉验证误差的lambda的值。

plot(cv_fit)

向下滑动查看结果▼

练习6

使用上一个练习中的lambda的最小值，得到估计的β矩阵。注意，有些系数已经缩减为零。这表明哪些预测因子在解释y的变化方面是重要的。

> fit$beta

向下滑动查看结果▼

练习7

为了得到一个更简明的模型，我们可以使用一个更高的λ值，即在最小值的一个标准误差之内。用这个lambda值来得到β系数。注意，现在有更多的系数被缩减为零。

lambda.1se

beta

向下滑动查看结果▼

练习8

如前所述，x2包含更多的预测因子。使用OLS，将y回归到x2，并评估结果。

summary(ols2)

向下滑动查看结果▼

练习9

对新模型重复练习-4。

lasso(x2, y)plot(model_lasso1)

向下滑动查看结果▼

练习10

对新模型重复练习5和6，看看哪些系数被缩减为零。当有很多候选变量时，这是缩小重要预测变量的有效方法。

plot(cv_fit1)

beta

向下滑动查看结果▼

本文摘选《R语言Lasso回归模型变量选择和糖尿病发展预测模型》，点击“阅读原文”获取全文完整资料。

本文中分析的数据、代码分享到会员群，扫描下面二维码即可加群！

点击标题查阅往期内容

【视频】Lasso回归、岭回归正则化回归数学原理及R软件实例

群组变量选择、组惩罚group lasso套索模型预测新生儿出生体重风险因素数据和交叉验证、可视化

【视频】Lasso回归、岭回归等正则化回归数学原理及R语言实例

R语言Lasso回归模型变量选择和糖尿病发展预测模型

用LASSO，adaptive LASSO预测通货膨胀时间序列

MATLAB用Lasso回归拟合高维数据和交叉验证

群组变量选择、组惩罚group lasso套索模型预测新生儿出生体重风险因素数据和交叉验证、可视化

高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据

Python高维变量选择:SCAD平滑剪切绝对偏差惩罚、Lasso惩罚函数比较

R使用LASSO回归预测股票收益

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

R语言RSTAN MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现

R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）

广义线性模型glm泊松回归的lasso、弹性网络分类预测学生考试成绩数据和交叉验证

贝叶斯分位数回归、lasso和自适应lasso贝叶斯分位数回归分析免疫球蛋白、前列腺癌数据

R语言RSTAN MCMC：NUTS采样算法用LASSO 构建贝叶斯线性回归模型分析职业声望数据

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现

R语言高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据（含练习题）

Python中LARS和Lasso回归之最小角算法Lars分析波士顿住房数据实例

R语言自适应LASSO 多项式回归、二元逻辑回归和岭回归应用分析

R语言惩罚logistic逻辑回归（LASSO,岭回归）高维变量选择的分类模型案例

Python中的Lasso回归之最小角算法LARS

r语言中对LASSO回归，Ridge岭回归和弹性网络Elastic Net模型实现

R语言实现LASSO回归——自己编写LASSO回归算法

r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

R使用LASSO回归预测股票收益

R语言如何和何时使用glmnet岭回归

R语言中的岭回归、套索回归、主成分回归：线性模型选择和正则化

Python中的ARIMA模型、SARIMA模型和SARIMAX模型对时间序列预测

R语言arima，向量自回归（VAR），周期自回归(PAR)模型分析温度时间序列

【视频】Python和R语言使用指数加权平均(EWMA)，ARIMA自回归移动平均模型预测时间序列

Python用ARIMA和SARIMA模型预测销量时间序列数据

http://mp.weixin.qq.com/s?__biz=MzU4NTA1MDk4MA==&mid=2247547882&idx=4&sn=2a1868b0bc94c4ae807f3e4fa4544bb2

拓端数据部落

拓端(tecdat.cn)创立于2016年，提供专业的数据分析与挖掘服务，致力于充分挖掘数据价值。

中国医疗器械企业在出海中怎样构建国际化组织与人才基础报告汇总PDF洞察（附原数据表）

R语言、SAS潜类别（分类）轨迹模型LCTM分析体重指数 (BMI)数据可视化

R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码

Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

数据分享|R语言ARIMA模型分析预测上海空气质量指数AQI时间序列

数据分享|R语言因子分析、相关性分析大学生兼职现状调查问卷数据可视化报告

MATLAB图注意力网络GAT多标签图分类预测可视化

【专题】中国企业出海洞察报告暨解码全球制胜之道报告汇总PDF洞察（附原数据表）

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

【专题】人工智能AI算力高质量发展评估体系报告合集PDF分享（附原数据表）

【专题】新能源发电行业及其市场化进程概览白皮书报告合集PDF分享（附原数据表）

R语言分布滞后线性和非线性模型（DLMs和DLNMs）分析时间序列数据

R语言文本挖掘：kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

【专题】2024年全球生物医药交易报告汇总PDF洞察（附原数据表）

Matlab用BUGS马尔可夫区制转换Markov switching随机波动率模型、序列蒙特卡罗SMC、M H采样分析时间序列

【专题】2024AIGC创新应用洞察报告汇总PDF洞察（附原数据表）

【专题】2024年中国智能算力行业白皮书报告汇总PDF洞察（附原数据表）

【专题】2024数字化赋能绿色智能制造高管洞察报告合集PDF分享（附原数据表）

课程视频|R语言bnlearn包：贝叶斯网络的构造及参数学习的原理和实例

Matlab中的偏最小二乘法（PLS）回归模型，离群点检测和变量选择

【专题】2024食品行业预制菜趋势报告PDF合集分享（附原数据表）

R语言逻辑回归logistic模型ROC曲线可视化分析2例：麻醉剂用量影响、汽车购买行为

【视频讲解】Python深度神经网络DNNs-K-Means（K-均值）聚类方法在MNIST等数据可视化对比分析

【专题】2024年内容创作者生态报告抖音、小红书、快手汇总PDF洞察（附原数据表）

Python用GARCH对ADBL股票价格时间序列趋势滚动预测、损失、可视化分析

【视频讲解】共享单车使用量预测：RNN, LSTM，GRU循环神经网络和传统机器学习|数据分享

【专题】2024年5月电力行业市场展望与储能技术创新报告汇总合集PDF分享（附原数据表）

R语言社区发现算法检测心理学复杂网络：spinglass、探索性图分析walktrap算法与可视化

Matlab决策树对空气质量和天气温度及天气数据做交通出行推荐预测|数据分享

数据报告分享|SPSS基于多元回归模型的电影票房预测

R语言贝叶斯分析：INLA 、MCMC混合模型、生存分析肿瘤临床试验、间歇泉喷发时间数据应用|附数据代码

【专题】2024年全球临床试验趋势及中国药企海外临床布局报告汇总PDF洞察（附原数据表）

【专题】2023中国数字政府建设与发展白皮书报告PDF合集分享（附原数据表）

R语言用贝叶斯层次模型进行空间数据分析

MATLAB用GARCH模型对股票市场收益率时间序列波动的拟合与预测

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

数据报告分享|SPSS基于多元回归模型的电影票房预测

MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

【专题】2024网络主播新职业发展报告汇总PDF洞察（附原数据表）

R语言和Python用泊松过程扩展：霍克斯过程Hawkes Processes分析比特币交易数据订单到达自激过程时间序列

基于出租车GPS轨迹数据的研究：出租车行程的数据分析

用回归和主成分分析PCA 回归交叉验证分析预测城市犯罪率数据

Stata中的治疗效果：RA：回归调整、 IPW：逆概率加权、 IPWRA、 AIPW

数据代码分享|R语言回归分析：体脂数据、公交绿色出行与全球变暖2案例

【专题】2023年中国房地产行业洞察报告PDF合集分享（附原数据表）

MATLAB用GARCH-EVT-Copula极值理论模型VaR预测分析股票投资组合

【专题】2024年中国消费者消费意愿调查报告汇总PDF洞察（附原数据表）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉