Advanced Science(IF=14.3):LASSO+模型融合+生存分析=多模态标志物高尿酸血症的早期检测和预后预测

文摘   2024-11-21 20:01   中国  

点击蓝字 关注我们

本次解读的是发表在Advanced Science(IF=14.3)上的一篇文章《Multimodal Machine Learning-Based Marker Enables Early Detection and Prognosis Prediction for Hyperuricemia》,本研究基于机器学习的多模态标志物可实现高尿酸血症的早期检测和预后预测。



01背景介绍

高尿酸血症 (HUA),即血尿酸 (SUA) 水平升高,是痛风的主要病因,并与一系列代谢相关疾病(如慢性肾病、高血压、心血管疾病和糖尿病)的风险增加相关联。HUA 的早期检测和干预对于有效管理病情和预防并发症至关重要。然而,HUA 发展过程通常较为隐匿,许多患者在出现明显症状(如痛风发作)之前并不知晓自身病情。尽管临床参数和多基因风险评分 (PRS) 已被用于评估 HUA 风险,但目前仍缺乏一个能够综合遗传和临床特征的全面预测框架。

机器学习 (ML) 技术,特别是多模态机器学习,凭借其强大的数据处理和模式识别能力,为整合多源数据和构建更精准的预测模型提供了新的机遇。本研究旨在利用多模态机器学习技术开发一种新的 HUA 预测模型,以期改善 HUA 的早期检测和风险分层,并最终促进更有效的疾病管理策略。


02材料与方法

01 数据来源

英国生物库(UKBiobank):这是一个大型的前瞻性队列研究,包含50万名40-69岁英国居民的健康信息,包括遗传数据、生活方式信息和健康记录。本研究从中筛选出421,287名参与者,用于模型训练和内部验证。之所以选择UKBiobank,是因为其规模庞大、数据全面,随访时间长,可以提供可靠的结局信息。

南方医院健康体检数据集: 该数据集包含 8,900名在中国南方医院接受健康体检的个体的基因和临床数据,用作外部验证集,以评估模型在不同人群中的泛化能力。选择该数据集是因为其代表了不同于UKBiobank的人群,可以更好地评估模型的普适性。



02 统计分析

数据预处理:对数据进行清洗,处理缺失值和异常值,并对连续变量进行标准化处理,以确保不同特征具有可比性。

特征选择:使用 LASSO回归从38,277 个候选SNP中筛选出与HUA显著相关的SNP,并结合10个临床特征构建预测模型。

模型构建:构建一个堆叠式多模态机器学习模型,该模型由基模块和元模块两部分组成。

基模块:包含七个并行运行的基分类器:LightGBM、XGBoost、CatBoost、随机森林、AdaBoost、逻辑回归和KNN。这些分类器分别对输入的临床和遗传特征进行预测,并输出预测概率。

元模块:使用 XGBoost作为元分类器,将基分类器的预测概率作为输入特征,进行二次训练,并输出最终的 HUA 预测概率。这种堆叠式结构可以有效地整合不同基分类器的优势,提高模型的预测性能。

模型训练和验证:将UKBiobank数据集按 8:2的比例随机分为训练集和内部测试集。使用 5折交叉验证在训练集上训练堆叠模型,并使用内部测试集评估模型的性能。此外,使用南方医院数据集作为外部测试集,进一步评估模型在不同人群中的泛化能力。

ISHUA的构建和评估:使用堆叠模型的预测概率构建ISHUA,并评估其预测痛风和其他代谢相关结局的能力。

风险分层:使用Youden指数确定最佳阈值,将参与者分为痛风低危组和高危组。

生存分析:使用Kaplan-Meier曲线和Cox 比例风险回归模型评估ISHUA与痛风和其他代谢相关结局的关联,并计算风险比(HR)和95%置信区间(CI)。

生活方式的影响:在高危组中,分析不同生活方式对痛风和其他代谢相关结局风险的影响。将参与者根据健康生活方式因素的数量分为三组:不利生活方式(0或1个健康因素)、中等生活方式(2个健康因素)和有利生活方式(3或4个健康因素)。使用Cox比例风险回归模型分析生活方式与结局之间的关联,并计算风险比 (HR)和95%置信区间(CI)。



03结果

01 基线分析

UKBiobank数据集中包含421,287名参与者,中位年龄为58岁(IQR:50-63),其中 46.18%为男性。南方医院数据集中包含8,900 名参与者,中位年龄为36岁(IQR: 30-46),其中45.93%为男性。两个数据集在年龄、性别、BMI、SUA和其他代谢指标方面存在显著差异。训练集和内部测试集的基线特征相似。



02 训练集中堆叠ML模型的性能

通过对训练样本中的38277个遗传特征应用最小绝对收缩和选择算子(LASSO)算法,确定用于识别HUA的最重要的遗传变量(λ min)。最小λ表示通过五重交叉验证实现最小均方误差的λ。总共有1378个遗传特征和10个临床特征用于模型构建。

在训练集中,使用遗传特征预测HUA的堆叠模型的AUC为0.703(95%CI:0.700,0.705),使用临床特征为0.822(95%CI:0.820,0.824),使用遗传和临床特征组合为0.859(95%CI:0.857,0.861)。此外,使用遗传和临床特征组合的堆叠模型预测HUA的准确度为0.736(95%CI:0.735,0.737),灵敏度为0.828(95%CI:0.825,0.832),特异性为0.723(95%CI:0.721,0.724)。研究结果表明,堆叠模型,其中包括遗传和临床特征,表现优于单个分类器。

对于内部测试集,仅使用遗传特征、仅使用临床特征以及组合遗传和临床特征,预测HUA的AUC分别为0.661(95%CI:0.656,0.666)、0.802(95%CI:0.796,0.806)和0.836(95%CI:0.832,0.839)。使用遗传和临床特征组合的堆叠模型预测HUA的准确性为0.740(95%CI:0.737,0.743),灵敏度为0.775(95%CI:0.768,0.783),特异性为0.734(95%CI:0.731,0.737)。

对于外部测试集,仅使用遗传特征、仅使用临床特征以及组合遗传和临床特征预测HUA的AUC分别为0.588(95%CI:0.576,0.600)、0.756(95%CI:0.745,0.766)和0.779(95%CI:0.769,0.788)。使用遗传和临床特征组合的堆叠模型预测HUA的准确度为0.723(95%CI:0.714,0.732),灵敏度为0.664(95%CI:0.648,0.680),特异性为0.759(95%CI:0.748,0.770)。



03 ISHUA的预后评估

ISHUA与HUA危险因素的相关性: ISHUA 与已知的HUA风险因素(年龄、性别、肥胖、血脂异常和高血糖)显著相关。ISHUA 随着年龄的增长、男性、肥胖、血脂异常和高血糖而增加。

ISHUA与痛风以及其他代谢相关结局(CAD、HF、AF、高血压、DmT2 和 ESRD)显著相关。ISHUA值越高,发生这些结局的风险越高。ISHUA在预测痛风方面表现良好,在训练集和内部测试集中的 AUC 分别为 0.815 和 0.814。使用最大 Youden 指数确定的最佳阈值 (0.183) 将参与者分为低危组和高危组。



04 高危人群生活方式与不良结局的关系

在高危组中,有利的生活方式与痛风和其他代谢相关结局的风险降低显著相关。与不利生活方式相比,中等生活方式和有利生活方式的痛风 HR 分别为 0.75 (95% CI: 0.68-0.84) 和 0.53 (95% CI: 0.47-0.59)。其他代谢相关结局也观察到类似的趋势。



04总结

结论

本研究以大样本UKBB队列为训练集和内部测试集,以南方医院健康体检者数据集为外部测试集,沿着构建了一种新型的多模态ML模型,用于合成高尿酸血症的计算机定量标志物(ISHUA)。所提出的模型的性能超过了个别单模态ML模型,表现出一致和令人满意的疗效。ISHUA标志物能够在早期阶段预测代谢相关结局风险,便于将痛风事件分层为低风险和高风险组。此外,发现生活方式的改变可以减轻高危人群中代谢相关的结果,为临床医生提供了个性化管理HUA和痛风的有价值的见解。

小编总结

本研究的亮点在于开发了一种新的基于多模态机器学习的HUA量化指标ISHUA,并证明了其在HUA早期检测和痛风风险预测方面的良好性能。该模型整合了遗传和临床信息,并揭示了生活方式改变对降低高危人群痛风和其他代谢相关疾病风险的重要性。ISHUA有潜力成为临床实践中HUA风险评估和管理的有价值工具。

然而,仍需进一步研究解决当前研究的局限性,例如在更多样化的人群中进行外部验证,并探讨ISHUA在实际临床环境中的成本效益和可行性。此外,未来的研究还可以探索将其他数据模态(如影像学数据和蛋白质组学数据)整合到模型中,以进一步提高其预测性能和临床实用性。最终,ISHUA的应用可以促进更精准的HUA患者管理,并有助于降低痛风和其他代谢相关疾病的全球负担。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】《CARDIOVASC DIABETOL》(IF=8.5)在不同代谢和昼夜节律状态下估计的葡萄糖处理率与心血管疾病发病率的相关性

【2】如何量化疾病风险因素负担——GBD+低体力心血管负担优雅诠释

【3】《ALZHEIMERS RES THER》IF=7.9听力损伤与痴呆和认知功能有何关系?一项关于孟德尔随机化的研究。

【4】LANCET子刊(IF=9.6):机器学习+多模型比较+模型可视化=甲状腺乳头状癌远处转移的预测模型

【5】《CARDIOVASC DIABETOL》(IF=8.5),心源性猝死高危患者的TyG、室性心律失常和主要心血管事件。

扫二维码

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



极智分析
为临床、科研人员提供一站式临床研究在线分析建模平台;提供医学统计咨询服务;提供临床数据分析服务;提供医疗大数据建模服务;分享研究进展、临床研究设计方案、询证医学案例。
 最新文章