基于Python的医学科研数据统计分析、绘图及代码（8.2版）

文摘 2024-11-03 04:00 四川

前言：Python在统计、科研绘图方面也有较多的库，包括但不限于卡方检验、T检验、相关性分析、热力图、生存分析图等，且可应用于机器学习。临床医学科研在这方面需求较大，无论是论文、课题，源代码的意义在于调参。需要科研数据处理，可私信联系。

一、数据导入：

Python可读取与处理csv、excel。对于医务工作者，多采用excel格式。

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsplt.rc('font',family='Times New Roman')a = 'C:/Users/46685/Desktop/科研数据/数据汇总/新建处理后后连续变量.xlsx'b= pd.read_excel(a,sheet_name = 'Sheet1')b.head()

二、统计描述：

（一）对多列连续变量的分析，分析对象包括：总数、平均数、标准差、最小值、25%、50%、75%、最大值。

b.describe()   #b为数据

（二）计算方差：

np.std(b)**2

（三）正态分布检测：

a= pd.read_excel(filePath_01,sheet_name = 'Sheet1')ls1 = a["CA724"]ls2 = a["年龄"]data = pd.DataFrame({'CA724':ls1,'年龄':ls2 })# 首先绘制出各属性关系图sns.pairplot(data,kind='scatter',diag_kind='kde')for column in data.columns:    u = data[column].mean() # 计算均值    std = data[column].std() # 计算标准差    r,p = scipy.stats.kstest(data[column],'norm',(u,std))    if p>0.05:        print('拒绝原假设，显著性水平为{}，变量{}服从正态分布'.format(p,column))    else:        print('接受原假设，显著性水平为{}，变量{}不服从正态分布'.format(p,column))

（四）Pearson相关：

from scipy import statsstats.pearsonr(b.胆总管扩张,b.肿块最大直径)

二、科研制图：

（一）两两连续变量，单纯散点图：

sns.scatterplot(x=b["胆总管扩张"], y=b["肿块硬度"])

（二）散点图+相关线+柱状图：

sns.jointplot(x='BMI',y='Waist',data=b,kind='reg',height=5,color='green')

（三）柱状图+hex图：

sns.jointplot(x='BMI',y='Waist',data=b,kind='hex',height=5)

（四）Kde图：

sns.jointplot(x='BMI',y='Waist',data=b,kind='kde',height=5)

（五）两两相关矩阵图（柱状+散点）：

plt.figure(figsize=(10,8), dpi= 80)sns.pairplot(b, kind="scatter", plot_kws=dict(s=80, edgecolor="white", linewidth=2.5))plt.show()

（六）热力图Hotmap：

df_coor=df.corr()df_coor.head()plt.subplots(figsize=(14,14),dpi=100,facecolor='w')# 设置画布大小，分辨率，和底色fig=sns.heatmap(df_coor,annot=True, vmax=1, square=True, cmap="Blues", fmt='.3f')#annot为热力图上显示数据；fmt='.2f'为数据保留小数点后两位,square呈现正方形，vmax最大值为1figfig.get_figure().savefig('df_corr.png',bbox_inches='tight',transparent=True)#保存图片#bbox_inches让图片显示完整，transparent=True让图片背景透明

（七）生存分析：

import pandas as pdfrom lifelines import KaplanMeierFitterimport matplotlib.pyplot as pltimport numpy as npa = 'C:/Users/46685/Desktop/张/随访 - 修改后---汇总-提炼改后--编码1.xls'dataset= pd.read_excel(a,sheet_name = '超声')dataset.head() #显示前几排数据# 生成示例数据，这里假设分为两组data_group1 = {    'time':dataset.iloc[:,21],    'event':dataset.iloc[:,22]}df_group1 = pd.DataFrame(data_group1)data_group2 = {    'time':dataset.iloc[:,18],    'event':dataset.iloc[:,22]}df_group2 = pd.DataFrame(data_group2)# 合并两组数据并添加分组标识df_combined = pd.concat([df_group1.assign(group='Group 1'), df_group2.assign(group='Group 2')])# 分别对两组数据进行Kaplan-Meier生存分析并绘制曲线kmf1 = KaplanMeierFitter()kmf2 = KaplanMeierFitter()kmf1.fit(df_combined.loc[df_combined['group'] == 'Group 1', 'time'], df_combined.loc[df_combined['group'] == 'Group 1', 'event'])kmf2.fit(df_combined.loc[df_combined['group'] == 'Group 2', 'time'], df_combined.loc[df_combined['group'] == 'Group 2', 'event'])# 将kmf1.survival_function_['KM_estimate']转换为numpy数组kmf1_estimate_np = np.array(kmf1.survival_function_['KM_estimate'])# 将kmf2.survival_function_['KM_estimate']转换为numpy数组kmf2_estimate_np = np.array(kmf2.survival_function_['KM_estimate'])# 将kmf1.survival_function_.index也转换为numpy数组kmf1_index_np = np.array(kmf1.survival_function_.index)# 将kmf2.survival_function_.index也转换为numpy数组kmf2_index_np = np.array(kmf2.survival_function_.index)# 绘制生存曲线，设置不同颜色和标签以便区分plt.plot(kmf1_index_np, kmf1_estimate_np, label='Group 1', color='blue')plt.plot(kmf2_index_np, kmf2_estimate_np, label='Group 2', color='red')# 设置图表标题和坐标轴标签plt.title('Kaplan-Meier Survival Curves by Group')plt.xlabel('Time')plt.ylabel('Survival Probability')# 添加图例plt.legend()# 显示图表plt.show()

三、机器学习：（相关链接：医学人工智能科研入门（10.7版））

（一）特征筛选及权重：

对复杂指标对目标的影响进行筛选，以及提前权重，可视化展现。

from feature_selector import FeatureSelectorfs = FeatureSelector( data= x, labels = y)fs.identify_collinear(correlation_threshold=0.8, one_hot=False)correlated_features = fs.ops['collinear']fs.identify_zero_importance(task = 'classification',  eval_metric = 'auc',  n_iterations = 100,    #n_iterations：模型训练的迭代次数；最终的特征重要性是n次迭代的平均值； early_stopping = False)   # early_stopping: True/False, 是否需要提前停止# list of zero importance featureszero_importance_features = fs.ops['zero_importance']lw = 2plt.figure (figsize=(5,5),dpi=1000)plt.rc('font',family='Times New Roman')fs.plot_feature_importances(threshold = 0.9, plot_n = 14 )plt.show()plt.close()

（二）决策树Decision Tree：

决策树就是通过不断的形成分支来实现最终的分类，一个待预测的数据从根部开始，沿着分支逐级向下，最终可以被分类到一个叶子节点，次叶子节点的值就是当前待预测数据的预测值。

from sklearn.model_selection import train_test_splitx_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.15,random_state=0)from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier(criterion='entropy',max_depth=5)dtree.fit(x_train,y_train)y_predict = dtree.predict(x_test)
from sklearn.tree import plot_treefrom sklearn.metrics import classification_reportprint(classification_report(y_test,y_predict))        # 输出相关结果的函数
import matplotlib.pyplot as pltfig = plt.figure(figsize=(16,12))a = plot_tree(dtree, feature_names=x.columns, fontsize=12, filled=True,               class_names=['0', '1'])

结语：期待更多科研合作，可以是论文、课题形式，协助制图、数据输出。

咨询内容、联系方式（5.4版）

肝病梁韬

健康博主；丁香园最具影响力医生；丁香问答专家；四川消化微创学会委员；全网粉丝80+万；五星好评8千+；肝病、幽门螺杆菌、抗衰老、胃肠、人工智能。合作V: ganbingliangyi

最新文章

梁韬：乙肝什么时候抗病毒（16.9版）

专注自己，顺势而为

梁韬：乙肝复查项目、随访时间（11.5版）

梁韬：脾大（4.5版）

医学人工智能科研入门（10.9版）

从病房到顶刊：医学研究课题设计与投稿案例分享

梁韬：肝脏彩超（8.6版）

抗衰老（6.5版）

肠道菌群（3.0版）

如何打造优质睡眠（2.4版）

咨询内容、联系方式（6.7版）

梁韬：幽门螺杆菌HP（14.3版）

梁韬：乙肝疗程与停药（9.1版）

医学人工智能科研入门（10.8版）

肠镜检查前肠道准备（3.2版）

单人肠镜的难点与技巧（4.1版）

梁韬：肝功能（11.2版）

腹痛简易评估（2.9版）

公立三甲医院看病指导手册（3.4版）

基于Python的医学科研数据统计分析、绘图及代码（8.2版）

咨询内容、联系方式（6.2版）

梁韬：乙肝怀孕、母婴阻断（14.0版）

股票（4.0版）

梁韬：幽门螺杆菌HP（13.2版）

基于Python的数据统计分析、科研绘图及其代码（8.1版）

梁韬：干扰素（12.1版）

公立医院的倒闭

医学人工智能科研入门（10.7版）

梁韬：脂肪肝（9.0版）

咨询内容、联系方式（5.4版）

梁韬：幽门螺杆菌HP（13.0版）

医学人工智能科研入门（10.3版）

梁韬：乙肝传染性（6.6版）

梁韬：肝硬化诊治（10.8版）

肠道菌群移植（FMT）（2.0版）

医学人工智能科研入门（10.2版）

咨询内容、联系方式（5.2版）

梁韬：乙肝生活注意事项（9.3版）

医学人工智能科研入门（9.9版）

梁韬：甲胎蛋白AFP（7.9版）

抗衰老（5.1版）

股票（2.0版）

梁韬：乙肝大（小）三阳（6.9版）

感冒与免疫系统（2.0版）

生活中远离过度抗菌！——干净致病假说

梁韬：乙肝抗病毒药物选择（14.4版）

陌生人间交往，不要过于含蓄，避免自贬

幽门螺杆菌HP（10.9版）

咨询、服务内容、联系方式（5.0版）

梁韬：乙肝转阴（12.0版）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉