ModelCube实验 | 基于集成学习的肾结石预测

文摘 2024-07-29 11:18 浙江

ModelCube（modelcube.cn）是博雅数智自主研发的一站式人工智能科研平台。为全国高校和科研机构的大数据和人工智能科研团队提供一站式科研服务。基于MLOps的实践和企业核心技术，实现了科研场景中全类型数据管理与标注，实验环境快速获取与灵活定制，模型的全生命周期管理，科研成果的管理与发布，以及 AI驱动的论文检索和学习等功能。

基于集成学习的肾结石预测

本实验的数据集是由深度学习模型生成的，该模型使用基于尿液分析的肾结石预测数据集进行训练。特征分布与原始数据集接近，但不完全相同。本实验的目的是开发一个基于草酸钙晶体形成预测肾结石存在的机器学习模型。

数据字段说明如下：

字段名称	字段说明
id	ID
gravity	尿液比重
ph	尿液酸碱度
osmo	尿液渗透压
cond	尿液电导率
urea	尿液中尿素浓度
calc	尿液中钙的浓度
target	目标，0-无结石 1-有结石

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings("ignore")

1. 数据集基本分析

df = pd.read_csv("../dataset/1001453/train.csv")

df.sample(5)

#Check for missing values
df.isnull().sum()

#Check for duplications 
df.duplicated().sum()

df.dtypes

df.describe()

2. 探索性数据分析

数据柱状图：

df.hist(figsize=(10, 10))
plt.show()

数字列的散点图矩阵：

sns.pairplot(df, hue="target")
plt.show()

皮尔逊相关矩阵：

corr = df.corr()
sns.heatmap(corr, cmap='coolwarm', annot=True)
plt.show()

3. 模型建立和混淆矩阵

训练集和验证集拆分：

df = df.drop(columns=["id",],axis=1)

df

y = df["target"]
X = df.drop("target",axis=1)

from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(X,y,test_size=0.2,random_state=12,stratify=y)

使用的度量：ROC(受试者工作特性曲线)

所选模型：

决策树分类器
随机森林分类器
逻辑回归
梯度提升分类器
XGBoost分类器
支持向量机

from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV, cross_val_score

classifiers = [
    ('Decision Tree Clf', DecisionTreeClassifier(max_depth=3, min_samples_split=2, min_samples_leaf=1, random_state=42)),
    ('Random Forest Clf', RandomForestClassifier(n_estimators=200, max_depth=5, min_samples_split=2, random_state=42)),
    ('Logistic Clf', LogisticRegression(penalty='l2', C=1.0, random_state=42,solver='lbfgs',max_iter=1000)), 
    #lbfgs:-Limited-memory Broyden–Fletcher–Goldfarb–Shanno Algorithm for logistic regression as solver
    ('GB Clf', GradientBoostingClassifier(n_estimators=300, max_depth=3, min_samples_split=2, learning_rate=0.1, random_state=42)),
    ('XGBoost Clf', XGBClassifier(n_estimators=300, max_depth=3, learning_rate=0.1, random_state=42)),
    ('SVM Clf', SVC(kernel='rbf', C=1.0, gamma=0.1, random_state=42)),
]

for name, clf in classifiers:
    # Cross-validation with 5-folds
    cv_scores = cross_val_score(clf, X_train, y_train, cv=10, scoring='roc_auc')  #Scoring metric is ROC Area under the curve
    print(f"Score: {name}:", np.mean(cv_scores))
    print(f"Std. Dev. for {name}:", np.std(cv_scores))
    print(" ")

每个分类器的混淆矩阵：

我们的目标是具有非常低的FNR和高的召回率(否则我们会错过肾结石的潜在存在)。召回率是指正确归类为阳性的阳性样本数量与阳性样本总数之间的比率。

from sklearn.metrics import confusion_matrix
for name, clf in classifiers:
    clf.fit(X_train,y_train)
    y_pred = clf.predict(X_val)
    cm = confusion_matrix(y_val,y_pred)
    sns.heatmap(cm,
                annot=True,
                fmt='g',
                xticklabels=['Present','Absent'],
                yticklabels=['Present','Absent'])
    plt.ylabel('Prediction',fontsize=13)
    plt.xlabel('Actual',fontsize=13)
    plt.title(f'Confusion Matrix for {name}',fontsize=17)
    plt.show()

随机森林的ROC得分最高，因此我们将继续进行RF Clf的超参数调整。

4. 超参数调整

功能重要性：

基于目标变量中杂质的减少(肾结石的存在)来计算特征重要性。随机森林算法的工作原理是在随机选择的数据子集上构建多个决策树，然后将它们的预测组合起来进行最终预测。

在每个决策树中，最重要的特征在每次拆分时都会根据它们将数据划分为不同组的能力进行选择。特征重要性得分计算为随机林中所有决策树上每个特征引起的杂质减少。

这意味着具有较高重要性分数的特征是那些在预测肾结石存在方面提供最多信息获取或辨别能力的特征。通过分析特征重要性得分，我们可以深入了解哪些特征与预测目标变量最相关，哪些特征可以被丢弃以简化模型，而不会损失太多准确性。

rfc = RandomForestClassifier(n_estimators=200, max_depth=5, min_samples_split=2, random_state=42)
rfc.fit(X_train,y_train)

feat_importances = pd.Series(rfc.feature_importances_, index=X.columns)
feat_importances.plot(kind='barh')

例如，随机森林分类器的重要特征是钙(钙浓度)和尿素浓度，它们为分裂提供了更多的信息增益。

4.1 超参数调整：使用网格搜索交叉验证方法

此处需要考虑的事项:

网格搜索CV将在指定的参数网格上进行详尽搜索，以找到导致最高交叉验证分数的超参数组合
n_jobs=-1;我们希望使用所有可用的CPU核心来并行化网格搜索，这可以显著加快搜索过程!

超参数：

n_估计器：要在随机森林中构建的决策树的数量。较高数量的树可以带来更好的性能，但代价是增加计算时间和可能的过拟合。

max_depth：随机森林中每个决策树的最大深度。更深的树可以捕获数据中更复杂的关系，但也可能导致过度拟合。

min_samples_split：在决策树中拆分节点所需的最小样本数。较高的值可以导致更简单的树，并防止过度拟合。

min_samples_leaf：决策树中一个叶节点所需的最小样本数。较高的值可以导致更简单的树，并防止过度拟合。

max_features：在每个节点上寻找最佳分割时要考虑的最大功能数。较低的值可以降低树的复杂性并防止过拟合。

from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [20, 50, 150, 200],
    'max_depth': [None, 6, 10, 20],
    'min_samples_split': [10, 15, 20],
    'min_samples_leaf': [1, 2],
    'max_features': ['sqrt', 'log2']
} #192 different hyperparameter settings 4 x 4 x 3 x 2 x 2

rf = RandomForestClassifier(random_state=42)

grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, scoring='roc_auc' ,cv=7, n_jobs=-1)
grid_search.fit(X, y) #fitting the full dataset

print("Best parameters: ", grid_search.best_params_)
print("Best score: ", grid_search.best_score_)

y_val_pred = grid_search.best_estimator_.predict(X_val)

from sklearn import metrics

fpr, tpr, thresholds = metrics.roc_curve(y_val, y_val_pred)
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
plt.show()

在线运行本实验请登录ModelCube
http://modelcube.cn/experiment/experiment-detail/1008991

http://mp.weixin.qq.com/s?__biz=MzU2NTcxODIyMg==&mid=2247515320&idx=1&sn=895546f23a277e83034aaa7c40b1fd55

数据科学人工智能

聚焦数据科学，大数据，人工智能，区块链和云计算等话题。技术资料分享，院士名家观点分享，前沿资讯分享。

最新文章

ModelCube数据集 | 2016年美国大选数据集

ModelCube数据集 | 印度食品数据集

ModelCube数据集 | 数据分析师职位数据集

ModelCube数据集 | 房价预测数据集

ModelCube数据集 | 杂货数据集

ModelCube数据集 | 欧洲51.5万酒店评论数据集

ModelCube数据集 | 葡萄酒质量数据集

ModelCube数据集 | 世界人口数据集

ModelCube数据集 | 糖尿病数据集

ModelCube数据集 | 宾夕法尼亚州蒙哥马利县911电话数据集

ModelCube数据集 | 80种谷物营养成分数据集

ModelCube数据集 | 线性回归数据集

ModelCube数据集 | 真实/虚假职位发布预测数据集

ModelCube数据集 | 波士顿房价数据集

ModelCube数据集 | 英雄联盟钻石排名游戏（10分钟）

ModelCube数据集 | 百万新闻标题数据集

ModelCube数据集 | 中国台湾省公司破产数据集

ModelCube数据集 | 用于命名实体识别标注语料库

ModelCube数据集 | 欧洲足球赛事数据集（9074场）

ModelCube数据集 | 超市分店销售分析数据集

ModelCube数据集 | Netflix电视节目和电影数据集

ModelCube数据集 | Zomato餐厅数据

ModelCube数据集 | 新闻类别数据集

ModelCube数据集 | 车辆保险数据集

ModelCube数据集 | 墨尔本住房市场数据集

ModelCube数据集 | CSV格式的MNIST数据集

ModelCube数据集 | 各大平台电影数据集（Netflix、Prime Video、Hulu和迪士尼）

ModelCube数据集 | 信用卡审批预测数据集

ModelCube数据集 | 亚马逊森林火灾数据集

ModelCube数据集 | 销售样例数据

ModelCube数据集 | 快速约会实验

ModelCube数据集 | 鸢尾花数据集

ModelCube数据集 | NIFTY-50股市数据（2000-2001）数据集

ModelCube数据集 | 航空公司乘客满意度数据集

ModelCube数据集 | TED演讲数据集

2024中国大数据产业发展指数重磅发布

ModelCube数据集 | 学生学习成绩数据集

重磅上线！基于卷积神经网络的岩相分类综合实训项目正式发布

重磅上线！MyScale图像智能检索综合实训项目正式发布

ModelCube数据集 | 世界各国/地区人口数据集

ModelCube数据集 | NBA球员数据集（1950年至今）

ModelCube数据集 | 泰坦尼克号数据集

ModelCube数据集 | 英国二手车数据集

ModelCube数据集 | 语音性别识别数据集

ModelCube数据集 | 印度板球超级联赛数据集

ModelCube数据集 | 心脏病数据集

ModelCube数据集 | 手语数字数据集

ModelCube数据集 | 2020年世界卫生统计报告数据集|完整|地理分析

ModelCube数据集 | 印度创业基金数据集

ModelCube数据集 | 太阳能发电数据集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉