医学数据：我写好这个模型的代码，主任当场给我敬酒！

文摘 2025-01-06 09:01 荷兰

前言

逻辑回归是一种常用的分类算法，尤其在医学数据分析中常用于预测二分类的结果（如疾病的有无）。它通过估计因变量（通常是二进制变量）与自变量之间的关系来建模。不管你是什么专业，什么科室，大量的数据都可以使用逻辑回归来分析。熟练的掌握逻辑回归的分析代码，可以极大地提高科研的效率，年底的论文任务不也就更好完成了吗？

相比简单线性回归，逻辑回归的优势在于其专为分类任务设计，能处理二分类问题且输出概率值，从而更适合预测分类问题中目标变量的分布。简单线性回归则倾向于在分类问题中生成不合理的预测值（如概率大于1或小于0），逻辑回归通过sigmoid函数有效避免了这一点。本文的更新将演示逻辑回归的完整套路，特别是对医学数据进行建模、分析、和可视化。

1. 数据准备

我们将使用一个模拟的数据集，其中包括患者的年龄、性别、血压、胆固醇水平等变量，以及他们是否患有某种疾病的二分类结果。

# 导入必要的库
import pandas as pd
import numpy as np

# 生成模拟数据
np.random.seed(42)
data = pd.DataFrame({
    'Age': np.random.randint(20, 80, 100),
    'Sex': np.random.choice(['Male', 'Female'], 100),
    'BloodPressure': np.random.randint(80, 180, 100),
    'Cholesterol': np.random.randint(150, 300, 100),
    'Disease': np.random.choice([0, 1], 100)
})

# 数据预览
print(data.head())

## Age Sex BloodPressure Cholesterol Disease ## 0 58 Female 94 296 0 ## 1 71 Male 122 297 1 ## 2 48 Female 108 245 0 ## 3 34 Male 115 201 1 ## 4 62 Female 92 277 0

2. 数据预处理

在开始建模之前，需要对数据进行处理，包括：编码分类变量、标准化数值变量。

from sklearn.preprocessing import StandardScaler, LabelEncoder

# 对分类变量进行编码
data['Sex'] = LabelEncoder().fit_transform(data['Sex'])

# 标准化数值变量
scaler = StandardScaler()
data[['Age', 'BloodPressure', 'Cholesterol']] = scaler.fit_transform(data[['Age', 'BloodPressure', 'Cholesterol']])

# 数据预览
print(data.head())

## Age Sex BloodPressure Cholesterol Disease ## 0 0.469313 0 -1.237971 1.502561 0 ## 1 1.193906 1 -0.274034 1.524831 1 ## 2 -0.088066 0 -0.756003 0.366788 0 ## 3 -0.868396 1 -0.515018 -0.613095 1 ## 4 0.692265 0 -1.306824 1.079430 0

3. 逻辑回归建模

我们将分割数据集为训练集和测试集，并使用逻辑回归进行建模。

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# 分割数据集
X = data[['Age', 'Sex', 'BloodPressure', 'Cholesterol']]
y = data['Disease']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 逻辑回归建模
model = LogisticRegression()
model.fit(X_train, y_train)
# 模型预测
y_pred = model.predict(X_test)

# 评估模型
print("Accuracy:", accuracy_score(y_test, y_pred))

## Accuracy: 0.6

print(classification_report(y_test, y_pred))

##               precision    recall  f1-score   support
## 
##            0       0.50      0.38      0.43         8
##            1       0.64      0.75      0.69        12
## 
##     accuracy                           0.60        20
##    macro avg       0.57      0.56      0.56        20
## weighted avg       0.59      0.60      0.59        20

4. 可视化

可视化是理解模型的重要部分。我们可以绘制ROC曲线来评估模型的分类性能。

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 计算ROC曲线和AUC
y_pred_prob = model.predict_proba(X_test)[:, 1]
fpr, tpr, _ = roc_curve(y_test, y_pred_prob)
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.figure(figsize=(8, 6))

plt.plot(fpr, tpr, label=f'ROC Curve (AUC = {roc_auc:.2f})')

plt.plot([0, 1], [0, 1], 'r--')

plt.xlabel('False Positive Rate')

plt.ylabel('True Positive Rate')

plt.title('Receiver Operating Characteristic (ROC) Curve')

plt.legend(loc='lower right')

plt.show()

总结

年底了，每个人要完成的考核任务都有很多，相信通过上述步骤，你可以初步掌握从数据预处理、逻辑回归建模到模型评估与可视化的全过程。如果您有更复杂的数据分析需求，例如多分类问题或时间序列数据，还可以探索其他模型如决策树、随机森林或神经网络。

感谢关注，你的支持是我不懈的动力！

科研代码

专注R和Python的数据分析。

DeepSeek血屠三万亿美股！谁还用ChatGPT啊？用Python演示什么是可生成式AI。

外国博士:中国博士很优秀，但很爱跪舔导师，这样不好！我说了不要用神经网络建模！

外导当众羞辱新生：“你的代码都是ChatGPT复制的”。请学会用代码补全写Python！

外导震惊：韩国学生不让我过中国新年？我不想吃辣白菜，我要用XGBoost发论文！

审稿人：不要学老外，用深度学习“灌水”发论文，30个样品，有必要上深度学习吗?

青椒注意：有必要提示学生“上课没用”，特别是数据分析，从描述性统计开始！

导师说学会Python必备代码，准备发NCS论文，太吓人了！

审稿人：给我看看原始数据好吗？你的回归模型的准确率太高了！

退学博士破防痛哭：读研不是上岸，曾经熬夜用R优化模型！

一年涨粉4万！公众号“科研代码”2024年创作回顾

搞科研，原来“模仿”才是最快发论文的方法？

韩国教授吐槽中国博士:“英语不好，Python虚拟环境也不会！！”

粉丝赠书！一法破万法，《AI帮你赢：人人都能用的AI方法论》

博士答辩：发8篇SCI论文的好学生答不出置信区间的含义？不开玩笑，这很普遍！

缅甸军阀：印度博士听话加班不睡觉，泰国快快给我送，写R代码，做正态分布！

导师：求求你！我的学生祖宗，把数据用R清洗好了再建模，不就不报错了吗？

海归博导：我以为R包的安装不用教，直到遇到自己的学生

Follow Michael, english data analysis中英双语数据分析教程来了，还有视频呢！

坚持用R画正确的中国地图，审稿人无能狂怒！

导师：你不会用R做数据筛选，那还不如用Excel

医学数据：我写好这个模型的代码，主任当场给我敬酒！

审稿人：为什么行业大牛的论文总喜欢用这个图？3个R包就能做！

印度青椒：我的爸爸不是校长，我还有希望吗？

审稿人：你以为100%准确率是好事吗？恰恰相反，都overfitting了！

海归博导：中国学生要自信！1个中国的好硕士顶国外的3个博士，组学数据分析已经超越国外同龄人！

审稿人：要警惕打着机器学习的名义“造”论文，特别是判别分析（LDA）

导师：人家隔壁组5行代码就做出了RCS图，你们行不行！

医学科研绘图：年底了，我还在做火山图返修论文，圣诞老人当场对我敬礼！

审稿人：一个Cox比例风险模型，拯救多少医学人的数据分析！

学R语言，看这两本教程就够了

裁员了，很严重，大家做好准备吧！

医学科研绘图：我用R画出这三个图，印度审稿人当场向我敬礼！

“颜值就是影响因子”：R可视化美学提升之条形图代码

资深博导：我从不反对用ChatGPT搞科研，但你得学会用啊！报个班吧，组里给你花钱！

审稿人：看在你弦图好看的份上，勉强大修！R画的吧？

tiff还是png？原来R做PCA绘图可以随意设置分辨率。300dpi，提交！

资深博导：你得学会用R导出图表啊！你是想给我代码让我自己run吗？

为什么说在中国做科研最忌讳踏实？

审稿人：你都用ggplot2画图了，就不能提高下审美吗？

视频教程：主成分分析，视频号，已出道！

打破记录！“真心建议” 大家读一下这篇《Nature》重磅文章

审稿人：PCA的误区就是"分类"，但Python可以画得很漂亮！

审稿人：神经网络就比线性模型高级吗？R代码一模一样！

今年顶会这情况。。。大家提前做准备吧！

资深博导：你用上中下三种方法重新画一个聚类分析图，准备发NC!

堪比诺奖级别！曾被审稿人拒稿多次，R和python惊现神级操作，还得是寒门学子！

审稿人：贝叶斯分类模型不是“画圈圈”，跟判别模型其实不一样！

审稿人：我看的是你的三种回归建模吗？，我要的你的诚意！同意接收！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉