机器学习入门（5）| logistic回归模型

健康 2024-11-26 07:49 浙江

郑老师团队直播课

年底大课！零基础入门的“机器学习”R语言预测模型，欢迎报名

在经典的影响因素分析中，Logistic回归是最常用的模型之一。

但也有细心的朋友会发现，在机器学习构建预测模型文章中，也经常出现Logistic回归。

接着上一篇，今天我们将介绍线性回归模型中的对数几率回归模型，也就是我们所说的Logistic回归模型。

本篇将从Logistic回归模型背后的思想、模型的具体形式讲起，并通过案例结合R代码的方法，讲解基于Logistic回归模型的危险因素分析以及预测模型的构建。

最后，对该模型的优缺点进行说明。

Logistic回归模型理论背景

Logistic回归模型其实就是在一般线性回归模型的基础上增加了一个连接函数（link function）（这个连接函数后面会讲到），使得模型能够用于二分类结局数据的分析。

因此，要想理解Logistic回归，我们可以先回顾一下上篇一般线性回归模型，多变量线性回归模型的方程式是

在式子中，表示当自变量固定式时，因变量的模型期望值，它是一个实数，理论上范围可以在负无穷大至正无穷大。

对于一个二分类任务，我们希望模型的输出就只有两个类别，例如要么输出0要么输出1。

一个简单的想法就是用一个“单位阶跃函数”，

当小于某个值，比如小于0，结果就输出为0；
大于0结果就输出为1；
等于0就可以任意判别。

单位阶跃函数的表达式和图形表示见图1。

图1 单位阶跃函数表达式和图形

但从图1可以看到这样的函数并不连续，无法进行求导，这会导致无法有效求解模型参数。

因此我们希望找到一个近似于单位阶跃函数的替代函数，要求该函数可以求导并且单调递增。

Sigmoid函数正能够满足这些条件，因此可以选它作为连接函数，它的函数表达式和图形见图2。

图2 Sigmoid函数表达式和图形

Sigmoid函数将值转化成0到1范围之内的值，

越大输出值越接近1，
越小输出值越接近0，
并且输出值以点(0, 0.5)为中心呈现出S形变化。

我们把代入Sigmoid函数的表达式，得到

该式就是Logistic回归模型的函数形式。

我们也可以对这个式子进行对数变换，改写成下面的函数形式

我们看等号的左端部分：

P可以看成个体被归类为阳性的概率，
1-P则可以看成个体被归类为阴性的概率，
那么反映了个体被归类为阳性的相对可能性，称为“几率”（odds）。

将几率取对数则得到“对数几率”（log odds），也称为P的logit变换，记作。

因此，其对应的模型称为对数几率回归模型或Logistic回归模型。

从上面两个式子可以看出，Logistic回归模型实际上就是在用线性回归模型的因变量拟合值去逼近因变量真实值的对数几率。

Logistic模型中自变量的偏回归系数是我们重点关注的，在医学研究中有重要的意义；
它的含义是当控制其它自变量在同一水平的情况下，自变量变化一个单位时的平均变化量。

与衡量危险因素作用大小的比值比，也叫做优势比（odds ratio，OR）之间有对应关系，这里直接给出关系式

和表示的两个不同取值。

如果假设只有两个取值，1表示暴露，0表示非暴露，那么暴露组和非暴露组发生结果事件的优势比为

要是，那么，代表对结果发生没有作用；
要是，那么，代表是结果事件的危险因素；
要是，那么，代表是结果事件的保护因素。

至于Logistic回归模型中的求解，交给软件就好了。

R中glm()函数的默认参数求解算法是最大似然法，该方法的思想大致上是让实际为阳性的个体被模型预测为阳性的概率以及实际为阴性的个体被模型预测为阴性的概率在整个数据人群上整体尽可能大，此外梯度下降法、牛顿法等也都可以求解。

写到这里，我们基本讲清了Logistic模型的由来，模型的具体形式以及模型中的重要参数和具体解释。

下面我们将通过一个实例利用R语言进行基于Logistic回归模型的危险因素分析，计算OR值，并利用统计显著的因素构建Logistic回归预测模型。

R语言案例分析

（一）危险因素分析

我们对MASS包中的biopsy数据进行分析，该数据集由699个乳腺癌患者组织样本的数据构成，收集了患者的肿瘤细胞特征和肿瘤的良恶性诊断结果。我们先简单看一下数据。

> library(MASS)> data(biopsy)> str(biopsy)> head(biopsy)

数据集中共有11个变量，ID是样本编码；
V1~V9都是肿瘤细胞的特征，研究者对所有个体的这些细胞特征进行了评分，分值在1-10，分值越高代表和正常细胞的差别越大（特征包括细胞浓度、细胞大小均匀度、细胞形状均匀度、边缘黏着度、单上皮细胞大小、裸细胞核、平和染色质、正常核仁、有丝分裂状态）；
class是肿瘤良恶性诊断结果，“benign”是良性，“malignant”是恶性，该变量是我们分析的结果变量。

我们先对数据做一些必要的预处理，

> library(dplyr)> biopsy_2 <- biopsy %>%> select(-ID) %>% #去掉id列；> filter(complete.cases(.)) %>% #去掉变量有缺失值的观测；> mutate(class=ifelse(class=="malignant",1,0)) %>% #改变结果变量的赋值，便于之后的分析；> rename(nd=V1, jyd.size=V2, jyd.shape=V3,> nzd=V4, size.dsp=V5, lxbh=V6,> rsz=V7, hr=V8, ysfl=V9) #改变细胞特征变量的变量名，方便后面查看；

清洗后有683条观测纳入。

接下来我们以class为因变量，肿瘤细胞特征为自变量，构建Logistic回归模型进行肿瘤良恶性危险因素分析，代码和分析结果如下。

> fit.logistic <- glm(class~., data = biopsy_2, family = binomial())> summary(fit.logistic)

红框是分析结果的关注重点，Estimate对应的是自变量偏回归系数的估计值，Pr(>|z|)是偏回归系数的假设检验P值。

从结果中可以看到除了细胞大小均匀度外，其它细胞特征的评分都和恶性肿瘤呈正相关，在这些特征中统计显著（P<0.05）的特征包括细胞浓度nd、细胞黏着度nzd、裸细胞核lxbh、平和染色质phrsz。

summary()函数并不会给出自变量的OR值估计，我们可以用下面的代码得到。

> options(digits = 4)> exp(coef(fit.logistic))

以细胞浓度nd为例，，提示细胞浓度是肿瘤为恶性的一个危险因素，表示在固定其它自变量取值的情况下，细胞浓度的评分每增加一个单位，肿瘤为恶性的可能性增加1.71倍。

（二）预测模型构建和效果评价

得到统计显著的风险因素后，我们可以用这些因素来构架一个Logistic回归预测模型，当然你也可以选择用P<0.1的或者所有的自变量来构建。

我们随机抽70%的数据作为训练集来构建Logistic回归预测模型，再用剩下的30%数据作为测试集来检验模型的预测效果。

代码如下

> set.seed(2024) #设置随机种子数，用于复现结果> index.train <- sample(1:nrow(biopsy_2), 0.7*nrow(biopsy_2)) #训练集的观测索引> index.test <- setdiff(1:nrow(biopsy_2),index.train) #测试集的观测索引> data.train <- biopsy_2[index.train, ] #训练集> data.test <- biopsy_2[index.test, ] #测试集> fit.train <- glm(class~., data = data.train, family = binomial()) #构建Logistic回归预测模型> predicted_probs.test <- predict(fit.train, newdata = data.test,>                                 type = "response") #对测试集进行预测

代码中fit.train就是我们利用训练集构建的Logistic回归预测模型；

predicted_probs.test就是测试集中每一条观测的肿瘤预测为恶性的概率，如果想要预测值是是否为恶性肿瘤，我们可以卡一个界值，最常用的是0.5，就可以得到这些观测的结果预测值了。

> predicted_outcome.test <- ifelse(predicted_probs.test>0.5,"malignant","benign")> predicted_outcome.test

那么我们要怎么评价预测模型的预测效果呢？

对于二分类的结局，最常用的指标是操作者特征曲线下的面积（Area under curve，AUC）。

AUC是模型的灵敏度和特异度这两个指标的综合指标，简单来说就是通过这一个指标就能够反映出模型将阳性样本鉴别为阳性，将阴性样本鉴别为阴性的综合能力。

AUC的取值在0.5~1，该值越大表示模型的预测能力越强，一般认为

AUC = 0.5：模型的分类能力相当于随机猜测，表示模型没有预测能力；
0.5 < AUC < 0.7：模型的预测能力较差，但比随机猜测好；
0.7 ≤ AUC < 0.8：模型的预测能力可以接受或者说较好；
0.8 ≤ AUC < 0.9：模型的预测能力良好；
AUC ≥ 0.9：模型的预测能力很好。

我们用程序计算预测数据集的AUC

> roc_curve <- roc(data.test$class, predicted_probs.test) #构建操作者特征曲线> auc_value <- auc(roc_curve) #计算AUC值> print(paste("AUC值:", auc_value)) #输出AUC值

结果显示Logistic回归预测模型的AUC是0.996，说明模型有很好的预测能力。

我们可视化操作者特征曲线以直观理解AUC。

> plot(roc_curve, main = "ROC曲线", col = "blue", >      lwd = 2, lty = 1,>      xlab = "特异度 (Specificity)", ylab = "灵敏度 (Sensitivity)",>      print.auc = TRUE, grid = TRUE)

图3. 预测模型的操作者特征曲线图

操作者特征曲线图的横坐标是特异度，纵坐标是灵敏度，蓝线就是操作者特征曲线，蓝线和坐标轴围成的面积就是AUC。

√最后，我们列出Logistic模型的优缺点，帮助大家在进行监督学习任务时选取合适模型。

优点

1.简单易懂：模型形式直观，易于解释自变量与因变量之间的关系。

2.容易实现且计算效率高：大多统计软件都能轻松实现，模型计算速度快，适用于大规模数据集。

3.假设检验：可进行模型系数的假设检验和置信区间估计，提供统计显著性的信息。

4.可解释性强：通过模型系数得到的OR值可以解释为变量的影响强度，对于帮助政策制定等具有很好的解释性。

缺点

1.对数线性假设：假设自变量与因变量之间关系是对数线性的，很多实际数据可能不满足这一要求。

2.敏感性：对异常值和多重共线性敏感，可能影响模型稳定性。

3.需要人为指定模型具体形式：无法自动捕捉自变量间的非线性关系等，当自变量间关系较复杂时，例如存在较多交互项、非线性项，指定合适的模型形式将十分困难。此时往往会出现模型的预测效果不佳。

√总结

综上，我们讲解了Logistic回归模型的原理、模型具体形式和模型的优缺点，并通过一个案例用R语言演示了基于Logistic回归模型的危险因素分析和预测模型构建及评价，大家可以跟着实践起来。

今天的文章就介绍到这里，对本机器学习系列推文有任何建议、想法都欢迎在文末踊跃留言哈，笔者会广泛吸收、不断改进。

关于郑老师统计团队及公众号

全国最大的线上医学统计平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以下科研与统计服务：

①研究者发起的临床、护理试验项目

②医院回顾性数据分析与预测模型

③医学数据库SEER、NHANES、GBD、孟德尔随机化等挖掘发表级数据

④预测模型、GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教小董咨询（微信号aq566665）

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

一区Top8.5分杂志同一天发表两篇机器学习预测模型文章，分析过程几乎一样

NEJM：偏态数据如何分析？【附R语言代码】

就在本周日，“临床试验设计与数据分析”直播课，教你如何设计高质量临床试验项目

所有的P≤0.05为何结论却是阴性结果？来看JAMA正刊的一个活生生例子

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

大爆发！一周发文269篇，79篇二区以上| 孟德尔随机化周报（12.1-12.7）

IF=8.2！中国学者用NHANES指标ERS发文一区| NHANES数据库周报（11.23~11.29）

统计超100万条新浪微博后，他们发了JAMA子刊文章，发现全国人失眠的一个幕后黑手

新一期的SPSS公开课今天开始了！“30天学会SPSS与R语言”，欢迎报名

临床试验设计，我认为最要多考虑是关于结局指标的设置，但很多人都没有认真考虑

首发！NHANES数据库2023年数据发文一区（IF=14）

复旦大学：中国原创新药研究首次登顶JAMA正刊，治疗乳腺癌效果显著

完整一天直播! “临床试验设计与数据分析课12.22 举行，欢迎参加

JAMA一篇论文显示：申报课题用上“促销词”，容易中标且资助金额更大，概率提升50%

零基础也可掌握的“机器学习方法”构建预测模型，立即可学，欢迎参加

这篇二区Top文章的临床预测模型，虽然用了8种机器学习方法，但它不靠谱，原因是住院时长不应作为预测因子

硕士毕业论文，如何规范设计临床试验课题？欢迎参加老郑的直播课

NEJM循证：如何做好公共数据库挖掘？

四种方法！一文教会你NHANES加权数据如何计算P trend!

预测模型自变量太多怎么筛选？这篇Lancet子刊如何从249个变量筛出11个

2024年“临床试验设计与数据分析"直播课12.22 举行，欢迎参加！

我国学者79例的临床试验数据发表JAMA子刊！小而精的顶级论文是怎么做到的？

中国学者用15年数据构建临床预测模型发文Lancet子刊，机器学习方法就这么干

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

机器学习方法的佼佼者--超级学习者！来看医学一区top（IF=12.9)的文章

空气净化器对儿童很有用！复旦阚海东团队发文JAMA杂志，证实净化器可改善呼吸系统

机器学习入门（5）| Logistic回归模型

Nature子刊：研究生和博士生抑郁风险增加，“导师Push”成最大危险因素

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

NEJM：6位统计学编辑联合发文，如何规范应用模拟RCT方法开展观察性研究

就在明天！零基础入门的R语言“机器学习”预测模型，欢迎参加

第一次见到！中外学者利用几乎相同的数据连发3篇JAMA、JACC顶级文章

就在本周末！零基础入门的R语言“机器学习”预测模型，欢迎参加

还能这么玩！利用轨迹模型+机器学习构建预测模型，乱花渐欲迷人眼

新一期的SPSS公益课程开始了！“30天学会SPSS与R语言”，欢迎报名

双重差分（DID）法：类实验研究重要方法！看看Lancet子刊如何分析中国数据

机器学习入门（5）| logistic回归模型

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

中国学者一周内，连续发表3篇阴性结果在《柳叶刀》、《NEJM》！我们如何解读？

就在本周！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

NHANES数据库自动下载平台2.0版来啦！一键帮你绘制SCI论文纳排流程图！

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

牛牛牛！海军医大刘建民教授以第一作者同一天发文顶刊NEJM、Lancet！

机器学习“黑箱”模型结果如何解读？SHAP法！这篇实用指南指导讲的很细致

挑战半天搞定一篇NHANES！加权数据分析，0代码搞定全部图表

十年磨一剑，但差点阴沟翻船！首都医科大学团队首登JAMA正刊

年底大课！零基础入门的“机器学习”预测模型，欢迎报名，发文后退款

这个一区杂志不再拥有影响因子！我们来看看近期发表的临床预测模型文章质量如何吧

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉