R语言进行多重插补-基于R语言的mice包预测均值法

学术 2024-08-12 11:03 陕西

(1)理论介绍

(2)实践操作

引言

世界卫，精神卫生是指一种健康状态，在这种状态中，每个人都能够认识到自身潜力，能够适应正常的生活压力，能够有成效地工作，并能够为其居住的社区做出贡献。

1.理论介绍

预测平均值匹配 (Predictive mean matching，PMM)

在多重插补中，采用回归模型预测法是直接以回归预测值为插补值，而预测平均值匹配法与回归模型预测法类似，但并不是直接以预测值进行填补的，而是根据回归系数估计值的后验分布中随机抽取N个参数，用这些新的参数再计算出预测值。

参考文献：多重填补法在公共卫生调查研究中的应用

预测平均值匹配法一般是适用于连续变量，但我在查看了mice包的帮助文档后，发现这种方法适用于任何数据，如下所示：

2.实践操作

目的

对ms2013里面的缺失数据采用mice包的pmm进行填补，由于适用于任何数据类型，就不用转变为因子了

填补数据的整个流程有以下6步：

l第一步：导入数据

l第二步：查看数据集变量缺失情况

l第三步：mice函数填补数据

l第四步：查看填补的数据与原始数据是否比较类似

l第五步：填补后5个数据库按众数进行提取形成最终的数据库

l第六步：导出数据：加载writexl包

代码实现

#导入数据

.libPaths()#查看R包位置.libPaths("D:/Program File/R/R-4.3.2/library")#定义包安装位置setwd("E:/02学习/经验/03R语言图形绘制/18R语言进行多重插补合集")#设置工作空间getwd()#加载工作空间          #下载所需要的包install.packages("mice")install.packages("ranger")install.packages("writexl")          library(lattice) #调入函数包library(MASS)library(nnet)library(mice) #前三个包是mice的基础library(foreign)library(ranger)

#第一步：导入数据

data1<-read.csv("ms2013.csv",                as.is = TRUE,header = T,sep = ",", fileEncoding='utf-8')          str(data1)

#第二步：查看数据集变量缺失情况

p1<-md.pattern(data1)

这个图怎么看呢？红色代表缺失，蓝色代表未缺失，分两步看

（1）上和下：代表的是每个变量缺失几个，如零食爱好缺失218个观测

（2）左右：代表有多少观测缺失了哪几个变量；比如，613个观测是完整的，没有缺失；

5个观测仅缺失了吸烟年龄这个变量；126个观测缺失了零食爱好到吸烟年龄这四个变量。

#第三步：mice函数填补数据

x<-mice(data1,        m=5,#插补几个数据集，默认5        seed=10,#随机化种子数,保障每次插补的一样            method = "pmm")#选择方法x$method#查看每个变量所用的插补方法x$imp#查看填补结果

可以看到，采用的都是pmm法

#第四步：填补后查看插补的结果

#蓝色是原始数据，红色是插补的数据

stripplot(x,pch=19,cex=1.2,alpha=.3)

#局限性是只能查看数值型的变量，对于因子变量无法查看

可以看到，吸烟年龄到饮酒频率进行了插补，且红色的插补数据，可以看到5个数据集和原始数据集的分布基本一致，说明pmm法插补的效果可以的。

#第五步：插补数据的选择

那么，插补的数据集，如何使用，这里我给出以下3个建议：    （1）选择其中1个数据集，作为最终插补的数据集x1<-complete(x,action=01)x2<-complete(x,action=02)x3<-complete(x,action=03)x4<-complete(x,action=04)x5<-complete(x,action=05)（2）可以将5个数据集合并，根据插补的5个数据集的变量求缺失值或者众数，形成最终的数据集。代码自行研究（3）直接采用5个数据集进行回归分析，然后采用最终的汇总结果fit<-with(x,glm(MS~吸烟年龄+是否吸烟+零食爱好+饮酒频率,family = binomial))fit#统计分析结果汇总fit<-pool(fit)summary(fit)

如下：这里就给出了5个数据集变量的汇总结果。

但是这种方法我认为有两点局限性：

（1）我们在一开始插补前要把所有变量放过来，但是实际上操作中，我们往往只是需要插补几个变量，然后数据集可能有上百变量

（2）如果采用5个数据集汇总的结果，因为插补的数据结果是保存在列表中了，不是数据框了，所以没办法转化数据格式了。比如上面的结果明显自变量全是数值变量

综上，我比较推荐第一种和第二种方法，为什么第一种也可以呢？我们可以结合第四步插补结果图，然后选择与原始数据插补比较符合的，如果5个数据集插补都比较符合，那就随便选择其中一个，也就是我们依据图形结果进行主观判断，这样，就算审稿人提出疑问，也能说明。

本期的原始数据

ms2013.xlsx

本公众号致力于分享实用的医学科研干货和热点科研文章共享平台，如果您有任何医学科研相关问题或经验分享，可以私信我！

谢谢阅读，以上均为个人在科研实践过程中的一些做法，如有错误敬请指正！！！

End

关注我获得

柳叶刀子刊在线发表我国基本公共卫生服务高血压糖尿病患者管理，可能预估还有35%-40%的高血压和糖尿病患病未被纳入

回归模型大杂烩-logistic回归模型：二分类、多分类无序、多分类有序、偏比例、条件logistic回归模型汇总（R+SAS）

赋原始数据：回归模型大杂烩-神包autoReg直接整理好二分类logistic回归模型单因素和多因素结果(三线表+森林图均可输出

回归模型大杂烩-神包autoReg直接整理好二分类logistic回归模型单因素和多因素结果(三线表+森林图均可输出)

柳叶刀子刊发表新冠期间西太地区接种新冠疫苗情况，蒙古、越南、老挝、柬埔寨和马来西亚疫苗接种率高达95%，平均接种2.4剂以上。

回归模型大杂烩-R语言多重线性回归全流程-模型建立+前提条件检验+模型评价

回归模型大杂烩-R语言多重线性回归粗模型和校正模型结果一键整理输出

回归模型大杂烩-R语言多重线性回归标准化系数的输出

有慢性病家族史的人会不会有更健康的生活方式呢？这篇文献给出了答案

回归模型大杂烩-多重线性回归

BMC子刊，新冠期间11-17岁青少年心理健康略有恶化；15-17岁、女性、既往有更好健康心理的人在新冠期间心理健康的恶化更快

福利3：关联性研究表格2：批量提取多暴露对二分类结局的logistic所有参数，增加暴露分组的总人数、结局发生数、结局发生率

柳叶刀子刊在线发表新冠COVID-19对西太地区慢性非传染性疾病死亡的影响，发现新冠对不同慢病死亡率结果不一

BMC子刊首次大人群证据，曾感染新冠可能增加7种消化系统疾病21%~41%风险，而1-2年内胃肠道功能障碍和胃食管反流风险增加

SAS的proc genmod 如何输出OR值及置信区间呢？

福利2：简单易学的SAS宏；批量提取多暴露对二分类结局的logistic所有参数，再也不用一个一个粘贴了

重磅：新冠与自杀？柳叶刀子刊发表法国某地区新冠期间意图自杀发生率增长近35%，年轻女性意图自杀率最高，2次意图自杀中位数是91天

福利1：简单易学的SAS宏，批量提取单因素logistic所有参数和多因素logictic所有参数视频讲解

R语言实现基线表格2期

R语言如何创建协变量集合用于模型

R语言设定变量为连续、二分类、无序多分类、有序多分类变量的方法

SAS宏直接写暴露、中介、结局和协变量，出生存资料的中介效应分析结果，全文理论+实践操作+结果解读

柳叶刀子刊，新冠大流行期间因社区获得性肺炎死亡率和寿命损失下降，其中病毒性肺炎下降更明显；严格的非药物干预政策起到了关键作用

事后多重比较方法，看这一篇足够了Bonferroni法、Holm和Hochberg法

R语言进行多重插补-基于R语言的mice包常规方法进行插补

R语言进行多重插补-基于R语言的mice包预测均值法

R语言进行多重插补-基于R语言的mice包随机森林法

R语言进行多重插补-基于R语言的mice包的理论介绍

PLOS子刊，有死产史妇女未来心脑血管、2型糖尿病和肾脏疾病风险增加，而乳腺癌风险可能降低；流产似乎并不增加未来疾病风险

主成分分析的2种应用和SAS分析全流程+结果解读

R语言survival包coxph函数拟合cox回归模型常用的科研论文参数的提取和合并

自变量每变化一个标准差的估计值和P值的计算

R语言批量实现单因素二分类logistic回归并提取相关参数

柳叶刀子刊，多队列发现持续饮茶、每天2-3杯或6-8克茶具抗衰老作用，但要注意切勿饮酒

模仿柳叶刀期刊文献横向森林图的绘制-基于R语言ggplot2包

R语言最常用基本统计量的函数计算

震惊，因SAS代码导致暴露人群被切换，结果出现错误，撤回柳叶刀子刊文章

模仿柳叶刀期刊文献森林图的绘制-基于R语言forestplot包

R语言根据条件生成新变量的几种方法

Cox比例风险模型的比例风险的检验？基于R语言绘图检验

BMC Medicine，长期夜班、>10年夜班、8次/月夜班工作可能增加49%、23%、41%COPD发病风险。

R语言计算年龄标化率

R语言实现基线表格1期

Lancet子刊，明确了，打呼噜也是一种病，会增加中风风险；瘦人(BMI<24)也要注意打呼噜

中介变量和因变量为分类变量的中介模型R实现

JAMA子刊，15项临床试验荟萃分析提示：预防医院获得性肺炎，坚持刷牙是个好习惯

Lancet子刊，临床试验事后队列研究设计+Cox+亚组+限制性样条:75岁健康老年人若HDL-C>80mg/dL需警惕痴呆风险

中介效应模型实践篇

PLOS medicine 多喝低脂牛奶咖啡和茶，少喝全脂牛奶，不喝果汁、人工甜味饮料或含糖饮料，不喝酒或适度饮酒，死亡风险更低

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉