机器学习方法揭示糖尿病前期和2型糖尿病患者慢性肾病的代谢特征

文摘   健康   2024-07-21 00:00   江苏  

深度学习辣汤小组文献阅读学习之一百五十九篇

 2024/2/22 

DeepLearning 深度学习辣汤小组

Abstract

2020年,来自德国诺伊赫贝格亥姆霍兹慕尼黑中心--德国环境健康研究中心分子流行病学研究室的Huang Jialing等人使用机器学习方法分析了代谢物和临床指标与慢性肾病(CKD,Chronic kidney disease)的关联。并在DIABETES期刊(IF:9.4609 医学1区 TOP)上发表题为“Machine Learning Approaches Reveal Metabolic Signatures of Incident Chronic Kidney Disease in Individuals With Prediabetes and Type 2 Diabetes”的文章。

DOI

https://doi.org/10.2337/db20-0586


左右滑动查看文章



一、研究背景



慢性肾脏疾病(CKD,Chronic kidney disease)影响全球约9.1%的普通人群。在CKD的已知危险因素中,糖尿病占所有CKD病例的30-50%,其微血管并发症糖尿病肾病是终末期肾脏疾病的主要原因。此外,未确诊的糖尿病和糖尿病前期与美国、欧洲和亚洲人群中CKD的高患病率有关。因此,在综合的个性化糖尿病管理框架下,早期筛查有发生CKD风险的高血糖个体对于有效预防和管理CKD事件至关重要。

尿微量白蛋白与肌酐比值(UACR, urinary albumin-to-creatinine ratio)升高和肾小球滤过率(eGFR, estimated glomerular filtration rate)降低是肾脏相关结构损伤和功能下降的两个临床生物标志物,用于诊断CKD。代谢组学可以帮助识别代谢特征与临床结果之间的关联,但缺乏对糖尿病前期或2型糖尿病患者CKD相关的代谢物的研究。本研究应用priority-Lasso和多变量logistic回归(MLR, multivariate logistic regression)来识别基于人群的成人队列KORA(Augsburg地区合作健康研究)中与CKD事件相关的代谢物。



二、数据集



本研究对德国南部奥格斯堡地区进行的纵队研究KORA调查中的两个后续结果进行了科学研究,该调查包括四次定期调查,每次调查结束后间隔约五年。首次后续调查(F4)于2006年至2008年间涵盖了3,080位年龄范围在32岁至81岁的个体。在第二次后续调查(FF4)中,共有2,269位参与者接受了检查,时间跨度为2013年至2014年。鉴于代谢组学数据及CKD(eGFR和UACR)的临床变量是在F4研究中进行测量的,因此我们选择将F4作为基线数据。

本研究调查了2142名同时参加KORA F4和FF4的个体,经过排除后剩余385例高血糖患者及1453例正常糖耐量(NGT, normal glucose tolerance)患者,以9:1划分为训练集和测试集(图1)。采集高血糖患者数据用来鉴定可能与CKD发病相关的潜在代谢物生物标志物,并开发和评估一系列代谢物和临床预测因子,NGT患者则被用于候选生物标志物的敏感性分析。



三、研究方法



本研究应用priority-Lasso和多变量logistic回归(MLR, multivariate logistic regression)来识别基于人群的成人队列KORA中与CKD事件相关的代谢物。使用三种机器学习方法(支持向量机[SVM],随机森林[RF]和自适应增强[AdaBoost]),进一步评估了由代谢物和临床表型构建的预测集的预测能力,并将其性能与CKD通常使用的临床算法进行了比较。还随机重复100次10倍交叉验证,以开发高血糖患者CKD事件的代谢物和临床预测因子。使用AUC评估其预测性能,将开发的预测因子的AUC值与建立的由年龄、性别、eGFR和UACR组成的预测模型进行比较,这四个临床变量作为参考预测因子。研究方法如图1所示。



四、结果与结论



由图1和表1可知,在KORA F4研究的1,838名符合条件的非CKD参与者中,共有200人在平均随访6.5年期间发展成为CKD。血糖升高的参与者患上CKD的概率(22.1%)高于正常葡萄糖耐受性(NGT)个体(7.9%)。相较于非CKD个体,血糖升高和NGT群体中的CKD新发病例具有年纪偏大的显著特征,并且基线时期的血红蛋白A1c,空腹和餐后2小时血糖以及尿白蛋白肌酐比值(UACR)显著较高,而其肾小球滤过率(eGFR)水平则显著降低。此外,他们自我报告的降压药物和降脂药物摄入也明显增加(表1)。

在对385名高血糖参与者的125种代谢产物进行的分析中,有13种基线代谢产物与初步进展性慢性肾病(incident chronic kidney disease,CKD)存在名义上的相关性(P小于或等于0.05),包括基础和完全多重线性回归模型(图2A)。在这13种代谢产物中,4种被priority-Lasso选择,且SM C18:1和PC aa C38:0这两种代谢物在AIC逐步选择后仍然保持显著性(图1)。这两种代谢产物的相对浓度在85名CKD病例受试者中显著较高,与300名非CKD个体形成对比(图2B)。因此,经过三步特征选择的结果显示,SMC18:1和PC aa C38:0作为高血糖个体中CKD的候选生物标志物被明确识别。

如图3所示,在对可使用的临床预测因素(即代谢产物和临床变量)进行了100次的10倍交叉验证期间,本研究的预测模型的AUC中位数在所有三种机器学习算法中的稳定性优秀,达到了相当高的0.813。对这组预测因素与参照预测因素(年龄,性别,eGFR,UACR)进行比较时发现,本研发的预测模型的中位数AUC值较参照组增长了2.5%,达到了0.825,因此,在100次10倍交叉验证的过程中,有97次表现优于参照预测因素。这些结果表明,本研究所研发的预测模型优于现有的针对CKD的临床预测因素。

综上所述,本研究确定了两种潜在的代谢产物生物标志物以及针对糖尿病前期及T2D患者特异性的、最优的CKD风险预测组合。充分展示了代谢组学的价值及其与适当预测因子组合在提升精准识别具有高血糖及CKD风险升高糖尿病患者过程中的重要性。




图1:研究流程


表1:KORA研究人群的特征


图2:血清代谢物与CKD的关系


图3:三种机器学习方法预测高血糖个体CKD事件的表现




Pepper soup transformed by: Yang Na



  //  

深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!

扫码关注我们

欢迎加入我们!

成员微信号:cy2011mcu

添加好友时请备注:

您的 单位-科室-姓名-研究方向


深度学习辣汤小组
AI学习日志,阅读相关文献,分享学习感悟,交流学习技巧,记录自我成长!
 最新文章