R语言机器学习——xgboost模型

文摘 2024-08-12 00:04 广东

XGBoost(eXtreme Gradient Boosting)是一种机器学习算法,XGBoost的核心思想是通过构建一系列有序的决策树来逐步改进模型，每个树都尝试纠正前一个树的错误。这种方法通常可以提高模型的准确性，同时减少过拟合的风险。

(XGBoost 入门指南：从基础概念到实践应用 - 简书 (jianshu.com))

优点：

高效性：训练速度快，适合处理大规模数据

准确性：泛化能力强

灵活性：支持多种任务类型（分类、回归、排序等）

缺点：

参数众多：需要一定的经验或借助自动调参数工具

过拟合风险：复杂数据或数据量较小的情况可能存在过拟合风险

对缺失值敏感：含有大量缺失值的数据需要进行预处理

(深度探索：机器学习XGBoost原理及其应用_xgboost的应用-CSDN博客)

#与随机森林对比：XGBoost通常在准确度上优于随机森林，训练时间可能更长

用途：

疾病预测：XGBoost可以用于构建疾病预测模型，预测患某种慢性疾病的风险

影响因素分析：在流行病学调查中，XGBoost可以用于分析收集的大规模、多维度数据，发现影响健康结果的关键因素

生存分析：XGBoost可以用来构建生存分析模型，帮助确定对特定类型癌症或其他严重健康问题患者进行干预治疗时可能最有效果

暴露预测：Xgboost可以用于某些暴露因素的预测，如大气污染物的浓度、气温等。

R示例：用数据集trainpre1训练xgboost模型用于大气污染物PM2.5的预测

部分数据集trainpre1：

R代码：

#读取R包library(xgboost);library(dplyr);library(lubridate);library(data.table)#读取数据trainpre1<-read.csv("D:\\path\\.csv", header=T, stringsAsFactors = FALSE, fileEncoding = 'GBK')#划分训练集和测试集ind <- sample(2, nrow(trainpre1), replace = TRUE, prob = c(0.7, 0.3))train <- trainpre1[ind == 1, ]test <- trainpre1[ind == 2, ]#随机数种子set.seed(2024)#训练集数据预处理library(Matrix)train1<-data.matrix(train[,-1])train2<-Matrix(train1,sparse=T)train_y<-as.numeric(train[,1])traindata<-list(data=train2,label=train_y)dtrain<-xgb.DMatrix(data=traindata$data,label=traindata$label)#测试集数据预处理test1<-data.matrix(test[,-1])test2<-Matrix(test1,sparse=T)test_y<-as.numeric(test[,1])testdata<-list(data=test2,label=test_y)dtest<-xgb.DMatrix(data=testdata$data,label=testdata$label)#建立模型model_xgb <- xgboost(data = dtrain, max_depth = 8, eta = 0.1, nround = 200, objective ='reg:squarederror', lambda = 0.1, alpha = 0.1, colsample_bytree = 0.8)#max_depth（树的最大深度）: 值为正整数，一般在3到10之间。增加该值会增加模型复杂度，并可能导致过拟合，减小该值可以提高模型泛化能力。#eta（学习率）: 值为0到1之间的实数，表示每次迭代中权重的更新幅度。较小的学习率能实现更好的收敛性和泛化能力。#nround（迭代次数）: 值为正整数。增加该值可能会提高模型性能，但也可能导致过拟合。#objective指定目标函数，'reg:squarederror'，表示使用均方误差作为损失函数进行回归建模，用于大多数连续型预测问题，reg:logistic用于二元分类问题#lambda（L2正则化项权重）: 值为非负实数，用于控制模型复杂度。增大提高模型的泛化能力。#alpha（L1正则化项权重）: 值为非负实数，用于控制模型复杂度。增大提高模型的泛化能力。#colsample_bytree（每棵树使用特征比例）: 值为0到1之间的实数，表示每棵树使用的特征比例。增大可能出现过拟合。#用测试集预测pre <- predict(model_xgb,newdata=dtest)#模型评估summary(pre)summary(test_y)

模型预测结果可视化：

#画图#创建数据框comparison_data <- data.frame(actual = test_y, predicted = pre)# 计算预测误差comparison_data$error <- comparison_data$actual - comparison_data$predicted# 绘制散点图p1<-ggplot(comparison_data, aes(x = actual, y = predicted)) +  geom_point(color = "#BA55D3",size=1.5) +  geom_abline(intercept = 0, slope = 1, color = "grey20",linewidth=1) +  xlab("PM2.5 Actual Value") +  ylab("PM2.5 Predicted Value") +  ggtitle("Test Set: Actual vs Predicted") +  theme(plot.title = element_text(size = 5))+  theme(text = element_text(family = "Times New Roman",size=5))+theme_bw()+theme(plot.title = element_text(size = 12, hjust = 0, vjust = 1))p1p21 = plot(p1, suppressprint=TRUE)#输出图片#ggplot2::ggsave("C:\\path\\xgboost-2017-PM2.5.Tiff", plot=p21,width=8, height=6,dpi=800)

#决定系数r_squared <- 1 - sum((test_y - pre)^2) / sum((test_y - mean(pre))^2)print(paste("R-squared:", r_squared))

#预测的决定系数（R-squared）为0.95表示模型能够解释因变量中95%的方差。说明这个模型能够很好地拟合观测数据，并用自变量来解释因变量的变化

http://mp.weixin.qq.com/s?__biz=MzkwNzYwMTc1MQ==&mid=2247484490&idx=1&sn=3ae0154a2c75b27e4264298b612326ca

环境与生殖发育

聚焦环境健康，探索生命奥秘

最新文章

父母需警惕！产前父母接触这几类金属可能会导致子代出生缺陷！

ER | 生殖激素､有机磷酸酯和精液质量:探索来自不孕诊所的男性之间的关联和中介效应

微塑料或成脱发新“元凶”！｜EI：老化的聚苯乙烯微塑料通过氧化应激途径加剧与紧密连接损伤和细胞凋亡相关的脱发

JAMA Network Open ｜产前接触化学混合物和儿童代谢综合征风险

结构方程模型（SEM）——R

微塑料对下一代的影响？ STOTEN｜人工喂养时摄入婴儿在哺乳期暴露量的微塑料对雌性小鼠及其后代的生殖毒性

上海交通大学医学院田英、张军教授团队｜综述：中国环境暴露与儿童健康

全氟及多氟烷基物质 EST | 孕期单一和复合暴露于PFASs对胎盘结构和效率的影响: 来自马鞍山出生队列的发现

全面解析辅助生殖技术：现代医学为生育难题带来的曙光

R语言机器学习——xgboost模型

STOTEN |环境微塑料对人体健康的影响

安全第一！科研达人都在看的实验室安全视频

EST|揭示隐藏在人类排泄物中大型塑料颗粒背后的小型塑料颗粒及其潜在来源

全氟及多氟烷基物质 EST|血清和脑脊液PFASs的暴露分布及其与人类认知功能下降的关系

你的生活中藏着“毒”？——邻苯二甲酸酯大揭秘！

机器学习（R语言）——用自适应弹性网络模型进行自变量筛选

婴儿“塑料粉”？ EP|婴儿奶粉中的微塑料

“海洋中的PM2.5”——微塑料

新型污染物｜全氟和多氟烷基化合物的分类及其来源与健康风险

了解污染物暴露风险？基于人群生物样本的检测告诉你答案！

加权分位数和回归模型

疾病负担计算—人群归因分数（Population Attributable Fraction, PAF）

机器学习（R语言）——用支持向量机回归（SVR）预测大气污染物浓度

环状柱形图

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉