IF=8.5！仅以常规体检数据，厦大学者用5种机器学习方法构建了心血管预测模型

健康 2024-10-29 07:47 浙江

引言

如今机器学习法越来越热门，今天为大家分享一篇发表在一区top的文章，研究团队基于血常规等数据，使用五种机器学习算法构建了针对多种心血管疾病的预测模型。

先来看看本文的研究设计吧：

1.数据收集与处理：对于缺失数据，研究团队选择直接删除

2.机器学习算法的调整

对训练集和验证集进行标准化
结合使用网格搜索交叉验证（CV）和手动微调，对五种机器学习算法进行了超参数选择

3.模型性能的评价

主要使用ROC曲线的AUC综合评估各模型性能

4.识别区分各心血管疾病的特异性指标

主要使用SHAP算法对特征进行识别

近期，厦门大学的学者在期刊《Cardiovascular Diabetology》（医学一区top，IF=8.5）发表了一篇题为：“Construction of machine learning diagnostic models for cardiovascular pan-disease based on blood routine and biochemical detection data”的研究论文。

在该项研究中，研究团队从血液常规和生化检测数据中提取50个特征，基于机器学习法构建了多种心血管疾病（CVD）的预测模型。同时，还探讨了各种心血管疾病（CVD）的独特血液学特征，包括一些代谢相关指标。

这项具有成本效益的工作将使更多的人受益，并有助于诊断和预防心血管疾病。

如果你需要全文，请公众号后台回复关键词“pdf”。如果您需要统计服务，郑老师的统计团队可以帮忙！详情可咨询助教，微信号：aq566665

数据收集与处理

在该项研究中，研究团队纳入了2018至2023年在厦门大学第一附属医院神经内科和心脏病科的住院患者。筛选了患者入院后首次检查的血常规和生化数据作为模型构建的特征，健康人则选择每年首次体检的数据。

去除缺失值率超50%的特征后，血常规筛选出22个特征，生化测试数据则筛选出28个。为确保每种CVD疾病的样本量足够，删除了样本少于100例的CVD疾病，同时删除了缺失特征比例大于50%的样本。

最终，使用25,794名健康人和32,822名患者构建模型。

图1 研究流程

机器学习算法的调整

为比较不同机器学习方法的性能，研究团队选择五种机器学习方法（LR，RF，SVM，XGBoost和DNN）来构建预测模型。

在去除缺失值后，研究数据按7：3的比例随机拆分为训练集和验证集。

为消除不同特征尺度对预测模型准确性的影响，研究者对训练集和验证集进行了标准化。然后，结合使用网格搜索交叉验证（CV）和手动微调，对五种机器学习算法进行了超参数选择。

五种机器学习算法超参数选择：

针对LR调整的参数为C、max_iter、penalty和solver；
对于RF，参数为max_depth、min_samples_leaf和n_estimators；
对于SVM，调整后的参数为C、gamma和kernel；
对于XGBoost，参数为colsample_bytree、gamma、learning_rate、max_depth、n_estimators和子样本；
对于DNN，调整后的参数包括激活、层数和每层神经元数。

所有最佳参数都是在区分心血管疾病患者和健康个体的模型的训练集中确定的。

采用5倍交叉验证，曲线下面积（AUC）作为主要性能评估指标，以确定最佳估计值。

模型性能的评价

所有模型都使用最佳估计量进行训练，然后在验证集上进行验证。

使用灵敏度（Sn）、特异性（Sp）、阳性预测值（PPV）、阴性预测值（NPV）、F1评分、马修斯相关系数（MCC）和准确性（Acc）进行模型性能评估。

同时，使用ROC曲线的AUC对模型性能进行了综合评价。此外，为了进一步评估模型的稳健性，使用自举法在验证集上计算所有性能评价指标，以确定其95%置信区间（CI）。

研究结果表明，XGBoost的综合性能最佳。

同时，研究团队还尝试仅使用血常规或生化检测数据构建模型，结果发现血常规结合生化检测的模型性能最佳。

图2 基于临床血液样本的CVD疾病预测模型构建

(A) 69个CVD疾病预测模型的AUC

五种机器学习方法使用不同数据的ROC曲线：(B)血常规联合生化检测；(C)血常规；(D)生化检测

为了进一步细分各种心血管疾病，研究团队基于XGBoost构建了69个模型。

结果表明，这些模型的AUC范围为0.5256至0.9267。其中，与其他CVD模型相比，区分扩张型心肌病（DCM）模型的性能最佳（AUC：0.9267）。

这意味着这些模型可以帮助医生区分不同的心血管疾病（CVD）。

DCM的诊断主要取决于超声心动图和心脏磁共振，而不是血常规和生化检测。

图3 69个模型的AUC值

识别区分各心血管疾病的特异性指标

为了更好地了解50个特征对心血管疾病预测模型的贡献，并找到心血管疾病特异性指标，研究团队SHAP算法计算每个特征的贡献度。

由于机器学习的黑箱原理，很难解释每个特征的贡献，因此在本研究中引入了SHAP算法。

什么是黑箱原理？

假设你有一个黑箱，放进去肉（输入）会出来香肠（输出），放进去面粉（输入）会出来馒头（输出），虽然你不知道这个过程是如何发生的，但可以通过不断输入-输出总结出规律，或者说是模型。

黑箱理论也是如此，它是把研究对象作为一个未知的黑箱，通过观察对象的输入、输出，以此来认识对象的功能特性，以及探索其内部结构和机理的一种科学方法。

SHAP算法如何运用？

就像我们不知道黑箱内部如何运作，那些机器学习模型内部运作机制同样复杂且难以解释，Shap可以量化特征对预测结果贡献。

SHAP算法通过分析所有可能的特征子集组合来评估每个特征对预测结果的影响，这意味着Shap值可以帮助我们理解模型是如何决策，即何种特征对预测结果的影响最为显著。

在该项研究中，每个特征的SHAP值由shap python包（版本0.44.0）计算。

研究结果表明，K（钾）、TP（总蛋白）、ALB（白蛋白）和NBIL（间接胆红素）是区分心血管疾病患者和健康个体的通用指标，而RBC（红细胞计数）、K、DBIL（直接胆红素）和GLU（葡萄糖）是区分不同类型心血管疾病的通用指标。

图4 使用不同数据建立CVD疾病预测模型的前20个特征

红色代表高值，蓝色代表低值。如果SHAP值为正，则表示该特征对模型的积极影响，反之亦然。所有特性都按照重要性从上到下排列。

图5 分析不同CVD疾病的具体指标。

综上所述，研究基于血常规和生化测试数据开发了具有成本效益的大规模筛查模型。这些模型不仅能够区分心血管疾病患者和健康个体，还能够区分各种类型的心血管疾病。

此外，这项研究确定了每种心血管疾病独特的血液学和代谢特征，这可以为临床医生提供早期疾病预防和诊断的专业见解。

郑“叫兽”有话说

不过最后，郑“叫兽”告诉各位，阅读这篇文章时，有几个注意点。

第一，这篇文章的结论，如果用于开展心血管病发病的风险预测，这是不靠谱的。

你看哦，这些预测因子，血常规、生化常规，都是患者住院后采集的信息。也就是先有心血管病，再有血常规、血生化。这就明显违背了预测模型现有预测因子再有结局的基本原则。

因此，这篇文章拿健康人群比较，来预测心血管病的风险，不是那么可靠的。

第二，这篇文章，应该视为诊断预测模型的应用。因为它利用的血常规、血生化用于不同类型心血管的鉴别。

因此，预测模型最重的是什么？一定要区分你的模型的预后预测模型还是诊断预测模型。

基于横截面调查数据，往往开展诊断预测模型的研究。

公众号后台回复关键词“pdf”，即可获取原文！更多关于临床预测模型与机器学习统计服务，请联系郑老师团队，助教微信：aq566665。

关于郑老师统计团队及公众号

全国较大的线上医学统计平台，专注于医护学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以下科研与统计服务：

①研究者发起的临床、护理试验项目

②医院回顾性数据分析与机器学习预测模型

③医学数据库NHANES、GBD、孟德尔随机化等挖掘发表级数据

④预测模型、GBD、NHANES医学数据库挖掘1对1 R语言指导

联系助教小董咨询（微信号aq566665）

http://mp.weixin.qq.com/s?__biz=MzAwOTYyMDY3OQ==&mid=2650445855&idx=1&sn=e970d452999070d1b25c1486ac7521e1

医学论文与统计分析

本号为高校统计学老师所设，介绍医学论文进展与统计学方法，SPSS分析方法、真实世界研究、R语言与数据挖掘。关注后，发送关键词“33”到公众号就可以获取常见的统计软件比如Spss，sas，PASS（绝对无毒）等

最新文章

缺失数据填补新方法：递归特征消除+随机森林，也许更优！

IF=96.2！交大院士团队发文NEJM，强化血压干预可降低糖尿病患者21%心血管风险

年底大课！零基础入门的“机器学习”预测模型，欢迎报名

《柳叶刀》为何发表中国学者中医药研究阴性结果的文章？

SHAP可视化方法，临床预测模型解释新框架！

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

Lancet重磅！首次刊登中草药临床研究，中国学者喜提咖位，还是个阴性结果

挑战半天搞定一篇NHANES！10分钟教你解决数据清洗大难题！

北大学子发表JAMA论文：中国医学生感知受虐率高达84.5%

可预开发票，郑老师团队25年统计新课预告，发表文章后退款

SHAP法可解释性机器学习介绍：理论与方法

不少文章这个样本量计算公式都写错了，你注意到了吗？

IF=63.1，共病研究登顶JAMA正刊，谁说NHANES免费数据库发不了好文章？

零基础入门的“机器学习”预测模型，我们的机器学习培训课程来了

机器学习+SHAP建模，预测模型就是好文章？求你们了，别玩偏了

机器学习入门（4）| 一般线性模型

JAMA子刊：三组比较先别用倾向得分匹配，考虑用重叠加权

可预开发票，郑老师团队25年统计新课预告，总计17门课

审稿人：仅仅报告P值是不够的，请提供主要结局的效应量

开课啦！新一期公开免费课“30天学会SPSS与R语言”，欢迎报名

可预开发票，郑老师团队25年统计新课预告，机器学习课程马上来了

Lancet子刊：中国学者用9种机器学习算法构建可解释性临床预测模型

2025年我们将提供统计服务！医院临床/护理数据分析，可预开发票

BMJ：临床预测模型，超长分步指南！

可预开发票，郑老师团队25年统计新课预告，机器学习课程马上来了

又一个免费数据库！川大华西朱彩蓉团队用20种癌症数据+趋势性分析，拿下JAMA子刊

可预开发票，郑老师团队2024-25年科研统计课程预告，共17门课

时代变了，“SHAP” 取代“列线图”，成为预测模型文章标题的重点

可预开发票，郑老师团队2024-25年科研统计课程预告，共17门课

新一代“神药”？JAMA文章显示，减肥药"司美格鲁肽"，或可降低67%老年痴呆风险

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等

IF=8.5！仅以常规体检数据，厦大学者用5种机器学习方法构建了心血管预测模型

可预开发票，郑老师团队2024-25年科研统计课程预告，含机器学习、轨迹模型等

SPSS 30.0新版来了，这次有什么新功能？

IF=93.6！复旦大学邵志敏教授团队发文医学顶刊BMJ杂志

半天搞定NHANES一篇SCI论文的利器来了！自动下载、自动加权、快速出图表

大数据：首篇论文发表10年后，半数学者退圈。你还会坚持吗？

孟德尔随机化课程，入门到高级，郑老师团队主讲，一个月搞定，快速发表论文，立即可学！

IF=22.5！中医临床研究发文JAMA子刊，针灸治疗椎间盘突出症疼痛效果明显

选对工具很重要！师姐花了1天写代码，我3分钟完成倾向得分匹配分析

真实世界临床研究怎么做统计分析可以发SCI呢？看郑老师主讲的这门课程就够了

IF=63.1！一周之内，中山大学连发JAMA、BMJ 2篇顶刊文章

NHANES医学数据库挖掘R语言实操，欢迎报名，一天搞定，就在周日

浙大学者结合血浆蛋白质组学等，开发结直肠癌发病预测模型，发文Nature子刊，来看看过程与统计方法

值得收藏！机器学习法常用的分析方法

就在本周末，2024年NHANES医学数据库挖掘直播课，欢迎报名，发文后退款

IF=93.6！中山大学发文顶刊BMJ杂志

NHANES新数据，欢迎参加郑老师团队第2期NHANES 挖掘1对1指导班！

开课啦！新一期公益免费课“30天学会SPSS与R语言”，欢迎报名，有问必答

南方医科大学学者开展巢式病例对照研究发文JAMA子刊，这种设计思路可借鉴一下

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉