回归模型大杂烩-多重线性回归

学术 2024-08-25 07:29 陕西

回归模型大杂烩-多重线性回归

1模型应用场景：当我们需要分析多个自变量与1个因变量之间的线性关系时，可采用多重线性回归进行分析。

2模型变量要求：

自变量：多个自变量，既可以是连续变量（如年龄），也可以是二分类变量（如性别），无序多分类或有序多分类变量均可。

因变量：1个因变量，需为连续变量（如收缩压）。

3模型表达式和解读：假设因变量为y，自变量为x1-xn，则模型表达式如下：y=b1*x1+b2*x2+...+bn*xn+截距+e

b1、b2。。bn为偏回归系数，表示在其他变量不变的情况下，自变量每变化1个单位对y的影响。当然，此时的b1-bn为非标准化回归系数，若想得到标准化回归系数，可将原始数据进行标准化后重新拟合模型；

截距：又称常数项，表示自变量均为0时，y的估计值；

e:代表残差（又称随机误差），是模型无法捕捉的部分。

4.模型应用条件：

（1）线性：即自变量x与因变量y（或残差）呈线性关系

（2）独立性：即残差之间相互独立。

（3）正态性：即因变量符合正态分布，严格来说指多重线性模型的残差符合正态分布。

（4）方差齐性：即方差相等，指对于每一个x对应的因变量y的方差相等。那么对于多重线性模型，检验模型的残差的方差是否相等。

5.多重共线性：即多个自变量之间存在高度相关，可能引起各变量估计系数出错，甚至导致模型无法收敛。

常用共线性诊断指标：

方差扩大因子（Variance Inflation Factor,VIF）：指由于共线性所导致的参数估计值的方差增加量，当VIF大于10，通常表示共线性很强

容忍度（Tolerance, TOL）：方差扩大因子VIF的倒数。当TOL小于0.1，通常表示共线性很强

条件指数（condition index）：当条件指数大于10，可认为存在共线性；条件指数大于30，可认为存在严重共线性

6.样本量要求：纳入至少模型自变量数10倍以上的样本量，如自变量有10个，则总观测数至少有100个。

目的：以性别、年龄、省份、城乡、婚姻、文化程度、个人年收入为自变量；收缩压为因变量。采用多重线性回归模型进行分析收缩压的影响因素。

变量赋值表

变量	变量类型	赋值	属于
性别	2分类	1=男;2=女	自变量
年龄	连续
省份	无序多分类	21/23/32/37/41/42/43/45/52
城乡	2分类	1=城市，2=农村
婚姻	无序多分类	1~5
文化程度	有序多分类	1~5
个人年收入	连续
收缩压	连续		因变量

SAS实践代码：

/*变量名可以设定为中文*/

option validvarname=any;

/*先导入数据*/

PROC IMPORT OUT= mydata

DATAFILE= "E:\02学习\经验\01医学统计\回归模型大荟萃-多重线性回归\多重线性回归.xlsx"

DBMS=xlsx REPLACE;

GETNAMES=YES;

sheet="sheet1" ;

quit;

/*拟合模型*/

proc genmod data=mydata desc;

class 性别省份城乡婚姻;/*分类变量放到class语句后*/

model 收缩压 =性别年龄省份城乡婚姻文化程度个人年收入/dist=Normal link= Identity;

quit;

上图展示了模型纳入的观测数，自动去除了含有缺失值的观测，最终纳入分析3474。

结果解读：如性别以性别=2为参照，性别=1的平均收缩压增加3.3453。

R实践代码：

#导入数据

.libPaths()#查看R包位置.libPaths("D:/Program File/R/R-4.3.2/library")#定义包安装位置setwd("E:/02学习/经验/01医学统计/回归模型大荟萃-多重线性回归")#设置工作空间getwd()#加载工作空间library(readxl)mydata<-read_excel("多重线性回归.xlsx")

#分类变量因子化

a<-c("性别","省份","城乡","婚姻")#填入需要转化的变量mydata[,a]<-lapply(mydata[,a],as.factor)#转因子

#设置分类变量的参照组

mydata$性别<-relevel(mydata$性别, ref="2")mydata$省份<-relevel(mydata$省份, ref="52")

#建立模型

#方法1

fit1<-glm(收缩压~性别+年龄+省份+城乡+婚姻+文化程度+个人年收入,data=mydata,family=gaussian)fit1summary(fit1)

结果解读：上述R结果同样提示删除了1015个观测。并且估计的结果与SAS一致。但是无法给出bata值的置信区间。

#方法2

fit1<-lm(收缩压~性别+年龄+省份+城乡+婚姻+文化程度+个人年收入,data=mydata)fit1summary(fit1)

#我们可以采用epiDisplay包计算置信区间

install.packages("epiDisplay")library(epiDisplay)result<-regress.display(fit1,                        decimal = 3)#保留3位小数

#将计算结果保存为table

table<-result[["table"]]#导出table为csv文件table<-print(table)write.csv(table,file="table.csv")

本期的原始数据

多重线性回归.xlsx

本公众号致力于分享实用的医学科研干货和热点科研文章共享平台，如果您有任何医学科研相关问题或经验分享，可以私信我！

谢谢阅读，以上均为个人在科研实践过程中的一些做法，如有错误敬请指正！！！

End

关注我获得

柳叶刀子刊在线发表我国基本公共卫生服务高血压糖尿病患者管理，可能预估还有35%-40%的高血压和糖尿病患病未被纳入

回归模型大杂烩-logistic回归模型：二分类、多分类无序、多分类有序、偏比例、条件logistic回归模型汇总（R+SAS）

赋原始数据：回归模型大杂烩-神包autoReg直接整理好二分类logistic回归模型单因素和多因素结果(三线表+森林图均可输出

回归模型大杂烩-神包autoReg直接整理好二分类logistic回归模型单因素和多因素结果(三线表+森林图均可输出)

柳叶刀子刊发表新冠期间西太地区接种新冠疫苗情况，蒙古、越南、老挝、柬埔寨和马来西亚疫苗接种率高达95%，平均接种2.4剂以上。

回归模型大杂烩-R语言多重线性回归全流程-模型建立+前提条件检验+模型评价

回归模型大杂烩-R语言多重线性回归粗模型和校正模型结果一键整理输出

回归模型大杂烩-R语言多重线性回归标准化系数的输出

有慢性病家族史的人会不会有更健康的生活方式呢？这篇文献给出了答案

回归模型大杂烩-多重线性回归

BMC子刊，新冠期间11-17岁青少年心理健康略有恶化；15-17岁、女性、既往有更好健康心理的人在新冠期间心理健康的恶化更快

福利3：关联性研究表格2：批量提取多暴露对二分类结局的logistic所有参数，增加暴露分组的总人数、结局发生数、结局发生率

柳叶刀子刊在线发表新冠COVID-19对西太地区慢性非传染性疾病死亡的影响，发现新冠对不同慢病死亡率结果不一

BMC子刊首次大人群证据，曾感染新冠可能增加7种消化系统疾病21%~41%风险，而1-2年内胃肠道功能障碍和胃食管反流风险增加

SAS的proc genmod 如何输出OR值及置信区间呢？

福利2：简单易学的SAS宏；批量提取多暴露对二分类结局的logistic所有参数，再也不用一个一个粘贴了

重磅：新冠与自杀？柳叶刀子刊发表法国某地区新冠期间意图自杀发生率增长近35%，年轻女性意图自杀率最高，2次意图自杀中位数是91天

福利1：简单易学的SAS宏，批量提取单因素logistic所有参数和多因素logictic所有参数视频讲解

R语言实现基线表格2期

R语言如何创建协变量集合用于模型

R语言设定变量为连续、二分类、无序多分类、有序多分类变量的方法

SAS宏直接写暴露、中介、结局和协变量，出生存资料的中介效应分析结果，全文理论+实践操作+结果解读

柳叶刀子刊，新冠大流行期间因社区获得性肺炎死亡率和寿命损失下降，其中病毒性肺炎下降更明显；严格的非药物干预政策起到了关键作用

事后多重比较方法，看这一篇足够了Bonferroni法、Holm和Hochberg法

R语言进行多重插补-基于R语言的mice包常规方法进行插补

R语言进行多重插补-基于R语言的mice包预测均值法

R语言进行多重插补-基于R语言的mice包随机森林法

R语言进行多重插补-基于R语言的mice包的理论介绍

PLOS子刊，有死产史妇女未来心脑血管、2型糖尿病和肾脏疾病风险增加，而乳腺癌风险可能降低；流产似乎并不增加未来疾病风险

主成分分析的2种应用和SAS分析全流程+结果解读

R语言survival包coxph函数拟合cox回归模型常用的科研论文参数的提取和合并

自变量每变化一个标准差的估计值和P值的计算

R语言批量实现单因素二分类logistic回归并提取相关参数

柳叶刀子刊，多队列发现持续饮茶、每天2-3杯或6-8克茶具抗衰老作用，但要注意切勿饮酒

模仿柳叶刀期刊文献横向森林图的绘制-基于R语言ggplot2包

R语言最常用基本统计量的函数计算

震惊，因SAS代码导致暴露人群被切换，结果出现错误，撤回柳叶刀子刊文章

模仿柳叶刀期刊文献森林图的绘制-基于R语言forestplot包

R语言根据条件生成新变量的几种方法

Cox比例风险模型的比例风险的检验？基于R语言绘图检验

BMC Medicine，长期夜班、>10年夜班、8次/月夜班工作可能增加49%、23%、41%COPD发病风险。

R语言计算年龄标化率

R语言实现基线表格1期

Lancet子刊，明确了，打呼噜也是一种病，会增加中风风险；瘦人(BMI<24)也要注意打呼噜

中介变量和因变量为分类变量的中介模型R实现

JAMA子刊，15项临床试验荟萃分析提示：预防医院获得性肺炎，坚持刷牙是个好习惯

Lancet子刊，临床试验事后队列研究设计+Cox+亚组+限制性样条:75岁健康老年人若HDL-C>80mg/dL需警惕痴呆风险

中介效应模型实践篇

PLOS medicine 多喝低脂牛奶咖啡和茶，少喝全脂牛奶，不喝果汁、人工甜味饮料或含糖饮料，不喝酒或适度饮酒，死亡风险更低

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉