高尿酸血症(HUA)已成为第二大流行代谢紊乱,其特征是长期无症状期,可能引发痛风和代谢相关结果。早期检测和预测HUA和痛风对于预防性干预至关重要。通过整合来自英国生物银行(UK Biobank)的421287名参与者和南方医院的8900名参与者的遗传和临床数据,开发并验证了一种堆叠多模态机器学习模型,以合成其概率作为高尿酸血症的虚拟定量标记(ISHUA)。该模型在检测HUA方面表现出令人满意的性能,在训练、内部和外部测试集中的曲线下面积(AUCs)分别为0.859、0.836和0.779。ISHUA与痛风及其代谢相关结果有显著关联,能有效区分低风险和高风险个体,训练集和内部测试集的AUC值分别为0.815和0.814。
高风险群体显示出对代谢相关结果的增加易感性,与生活方式不良的参与者相比,具有中等或良好生活方式档案的参与者痛风的风险比分别为0.75和0.53。对于其他代谢相关结果也观察到类似的趋势。基于多模态机器学习的ISHUA标记能够实现痛风和代谢相关结果的个性化风险分层,揭示生活方式的改变可以在高风险群体中改善这些结果,为预防性干预提供指导。
这项研究包括了来自英国和中国的两个队列的参与者。英国生物银行(UK Biobank)是一项正在进行的前瞻性研究,包含了来自英国各地、年龄在40至69岁之间招募的五十万个体的临床和基因型数据以及多次随访,这些参与者在2006年至2010年间加入研究。在排除了缺失协变量和基因型数据的参与者后,共有421287名参与者被纳入研究。这个队列被随机分为8:2的比例,其中337029名在训练集,84258名在内部测试集。
南方医院的健康体检者数据集包含了接受健康检查的个人信息。数据提取自2015年至2020年间访问医院的18岁及以上的个体。数据收集和预处理遵循了与英国生物银行(UK Biobank)相同的标准。最终,共有8900名参与者被纳入研究,作为外部测试集。
在英国生物银行(UKBB)中,临床数据是利用相应的数据字段代码收集的,包括人口统计信息、体重指数(BMI)、血尿酸(SUA)、血糖(Glu)、甘油三酯(TG)、总胆固醇(CHO)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、血尿素氮和血清肌酐(sCr)。在南方医院的健康体检者数据集中,临床数据从电子健康记录系统中检索。尽管目前尚无基于血尿酸水平的高尿酸血症(HUA)的共识定义,但如果男性的血尿酸水平大于420微摩尔每升,女性的血尿酸水平大于360微摩尔每升,则诊断为高尿酸血症,这与以往的研究一致。
英国生物银行(UKBB)中的基因型数据源自全基因组关联研究(GWAS)芯片(Affymetrix UK BiLEVE和UK Biobank Axiom芯片阵列)。对于南方医院的健康体检者数据集,基因分型是使用Infinium Chinese Genotyping Array v1.0进行的。从外周血单个核细胞中提取基因组DNA。目标遗传变异是那些在UKBB进行的GWAS分析中被鉴定为与血尿酸(SUA)水平全基因组显著相关(5×10^-8)的单核苷酸多态性(SNPs)(网址:http://www.nealelab.is/uk-biobank)[31],或者是如先前报道的与跨种族人群中的SUA相关的SNPs。从这两个数据集中提取了那些SNPs的基因型信息,最终提取了同时存在于两个数据集中的38277个SNPs。
临床结果
在英国生物银行(UKBB)中,通过参与者过去和未来的医疗及其他健康相关记录,获得了详细的随访数据,这些数据提供了与特定原因死亡和其他健康事件相关的随访信息。通过国际疾病分类(ICD)代码和自我报告代码识别出痛风和代谢相关结果的病例。代谢相关结果包括高血压、冠状动脉疾病(CAD)、心力衰竭(HF)、房颤(AF)、终末期肾病(ESRD)和2型糖尿病(DmT2)。每位参与者的随访时间从基线开始计算,直到临床结果被确认的日期、失访的日期或最后一次随访的日期,以最先发生的为准。排除了在高尿酸血症(HUA)诊断之前发生的病例。
生活方式因素的评估
在英国生物银行(UKBB)中,通过触摸屏问卷获取了参与者的饮酒、吸烟状况和体力活动信息,而饮食习惯则来源于食物频率问卷。饮酒量是根据自我报告的红酒、白酒、啤酒、烈酒和加强酒的摄入量来计算的。慢性重度饮酒被定义为女性任何一天饮用≥3杯,男性≥4杯(一杯按英国标准测量为8克乙醇)。吸烟状况被二分为吸烟者和非吸烟者。体力活动量是根据国际体力活动问卷,以每周步行或从事中等强度或剧烈活动的分钟数来衡量。规律的体力活动被定义为每周至少进行中等强度活动≥150分钟,剧烈活动≥75分钟,或中等和剧烈活动合计≥150分钟[45]。饮食习惯通过食物频率问卷进行评估,并根据与当前心血管代谢健康饮食指南相一致的七类常消费食物群的摄入量,生成了健康饮食评分。健康饮食被定义为至少消费这七类食物群中的四类。
在本研究中,确认了四个健康生活方式因素:不/适度饮酒、非吸烟状态、规律体力活动和遵循健康饮食。根据这些健康生活方式因素的数量,参与者被分为三组:1)不利生活方式(0或1个健康生活方式因素),2)中等生活方式(2个因素),以及3)有利生活方式(3或4个因素)。
特征选择
在英国生物银行(UKBB)的训练集上进行了特征选择和归一化处理,然后将这些处理应用于内部和外部测试集。这个过程旨在优化机器学习(ML)模型的性能和临床可解释性,同时减轻其复杂性。关于临床特征,基于现有研究,选择了10个对血尿酸(SUA)水平有显著影响的变量,包括性别、年龄、体重指数(BMI)、甘油三酯(TG)、总胆固醇(CHO)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、血糖、血尿素氮和血清肌酐(sCr)。对于遗传特征,利用LASSO回归从训练集中提取的38277个单核苷酸多态性(SNPs)中识别与高尿酸血症(HUA)表型最相关的预测性SNPs(lambda min)。LASSO回归分析是使用“LassoCV”统计软件(Python基金会)进行的。鉴于遗传和临床属性之间固有的尺度差异,所有选定的特征都使用“StandardScaler”(Python基金会)进行了标准化。临床和遗传特征联合输入到堆叠模型中进行进一步分析(图1A,B)。
模型开发和验证
在模型开发中,采用了堆叠机器学习方法,这是一种集成学习技术。这种方法使用各个分类器(基分类器)预测的概率作为可训练特征提供给元分类器。因此,提出了一个由基模块和元模块组成的堆叠多模态机器学习架构,这两个模块以级联方式相互连接。基模块包括七个基分类器:轻量梯度提升机(LGBM)、经典极端梯度提升(XGB)、分类提升(CAB)、随机森林(RF)、自适应提升(ADB)、逻辑回归(LR)和K最近邻(KNN),它们并行运行,独立预测输入特征,随后聚合这些预测结果。聚合后的结果随后被传递到元模块,元模块由一个元分类器(XGB)组成,它进一步处理来自基模块分类器的聚合结果,以得出最终的高尿酸血症(HUA)表型预测(图1C)。
在整个训练阶段,基模块采用了五折交叉验证方法来准备元模块的输入。这种方法有助于减轻过拟合并增强模型稳定性。这包括将训练集随机分成五个大小相同的不同子集进行迭代模型训练(总共五次)。在每次迭代中,五个子集中的四个同时用于训练七个基分类器,而剩下的子集用于内部验证。具体来说,七个基分类器在剩下的子集上预测结果,使得可以评估基分类器的性能与真实情况的对比。同时,这些预测结果被聚合形成元分类器的输入特征。在完成五次迭代后,得到了一套全面的元输入特征,使得可以使用所有特征训练元分类器来预测HUA表型。随后,在内部和外部测试集上评估了堆叠模型的性能,以评估其有效性(图1C)。
预后评估
堆叠多模态模型为每位参与者生成了概率分数,这些分数被用作ISHUA值。ISHUA值的范围从0(最低的高尿酸血症概率)到1(最高的高尿酸血症概率),作为高尿酸血症的定量标记,预测与痛风和代谢相关结果相关的未来风险。
利用接收者操作特征(ROC)曲线分析,我们评估了ISHUA对训练集中痛风发生情况的鉴别能力。然后,根据Youden指数的最大值确定截断值,将参与者分为低风险和高风险群体。随后,评估了这些风险群体与训练集中参与者的代谢相关结果的关联。
为了验证ISHUA的鉴别能力,我们在内部测试集上测试堆叠多模态模型后获得了概率分数。截断值从训练集中获得并应用,将内部测试集的参与者分为两组,并验证其对量化代谢相关结果风险的预测价值(图1D)。
统计分析
研究参与者的特征见表1。当连续变量呈现偏态分布时,以中位数和四分位数范围表示。分类变量以频率和百分比表示。对于组间比较,连续变量采用Mann–Whitney U检验。分类变量使用卡方检验或Fisher精确检验进行评估。进行ROC曲线分析以评估单一和堆叠机器学习模型的预测效率。根据ISHUA值(由ISHUA的Youden指数最大值分层)生成了痛风和代谢相关结果的Kaplan-Meier曲线。使用Cox比例风险回归模型检验风险组(由ISHUA的Youden指数最大值划分的痛风风险组)与结果之间的关联。不同生活方式与高风险组中的不良结果之间的关联也使用Cox比例风险回归模型进行评估。效应大小以风险比(HRs)和精确度衡量(95%置信区间[CIs])报告。所有模型分析均使用Python进行。其他分析使用R软件(版本4.0.2;R基金会统计计算,维也纳,奥地利)进行。对于所有分析,双尾P值<0.05表示统计学意义。
整体研究设计如图1所示。本研究包含两个主要部分。第一部分的目标是利用从训练集(英国生物银行[UKBB],337029名参与者)中提取的遗传和临床特征来训练一个堆叠多模态机器学习(ML)模型,以预测高尿酸血症(HUA)。随后,该模型在内部(UKBB,84258名参与者)和外部(南方医院队列,8900名参与者)测试集上进行了验证。第二部分涉及通过模型的概率分数构建ISHUA,旨在定量预测与痛风和代谢相关结果相关的未来风险。评估了ISHUA在早期预测个体痛风风险增加方面的有效性。随后,使用Youden指数的最大值将人群分为高风险和低风险组,以便进一步评估这两组之间代谢相关结果的发生情况。
英国生物银行(UKBB)数据集中的生活方式因素,包括饮酒、吸烟状况、体力活动和饮食习惯,被提取出来,以研究是否良好的生活方式能够减轻高风险组与高尿酸血症(HUA)相关的不良结果的风险。
所有参与者的人口统计学和临床特征总结在表1中。英国生物银行(UKBB)共有421287名参与者,南方医院共有8900名参与者被纳入分析。英国生物银行和南方医院队列的基线特征存在差异。英国生物银行的参与者高尿酸血症(HUA)的患病率较低(12.91%对比38.08%),主要原因是中国广东省的参与者据报道HUA的患病率较高。英国生物银行队列的参与者年龄比南方医院队列的参与者大,并且体重指数(BMI)、血清尿酸(sCr)、血尿素氮、甘油三酯(TG)、胆固醇(CHO)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)和血糖(Glu)水平更高。。训练集和内部测试集之间的基线特征没有观察到显著差异。
对于连续特征,报告的是中位数(四分位数范围)。对于分类特征,报告的是计数(%)。连续变量使用Mann–Whitney U检验进行评估。分类变量使用卡方检验或Fisher精确检验进行评估;P值用于评估英国生物银行和南方医院队列之间临床变量的统计学显著性。BMI,体重指数;SUA,血清尿酸;sCr,血清肌酐;TG,甘油三酯;CHO,胆固醇;LDL-C,低密度脂蛋白胆固醇;HDL-C,高密度脂蛋白胆固醇;Glu,血糖;HUA,高尿酸血症。
关于模型中使用的临床特征,共选择了10个变量,包括性别、年龄、体重指数(BMI)、甘油三酯(TG)、总胆固醇(CHO)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、血糖(Glu)、血尿素氮和血清肌酐(sCr)。现有研究强调,年龄、性别、血脂浓度和BMI是影响血尿酸(SUA)水平的重要因素。肌酐和血尿素氮是肾功能的指标,而肾功能又会影响尿酸的排泄。我们进一步使用逻辑回归分析探讨了临床特征对高尿酸血症(HUA)的影响。总体而言,这些临床特征在英国生物银行(UKBB)和南方医院队列中与HUA有显著关联,除了总胆固醇(CHO)仅在南方医院队列中显著。此外,Cox比例风险回归模型显示,这10个临床特征与痛风发病风险的增加有关。
在训练集中,从在英国生物银行(UKBB)的全基因组关联研究(GWAS)分析中被鉴定为与血尿酸(SUA)全基因组显著相关(5×10^-8)的38277个单核苷酸多态性(SNPs)中筛选出了1378个SNPs,或者如先前报道的与跨种族人群中的SUA相关[8]。这些选定的SNPs被注释,映射到460个非冗余基因。其中,值得注意的基因包括SLC2A9(rs3775946)、ABCG2(rs141471965)、PKD2(rs139497546)、SLC22A12(rs111068643)、SLC17A1(rs1165199)、ADH1C(rs141973904)、WDR1(rs10939702)和NRXN2(rs572492285)。这些基因大多与尿酸代谢或炎症相关。
进行了基因本体(Gene Ontology, GO)和京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析。在KEGG通路富集分析中,发现包括胆固醇代谢通路和1型糖尿病在内的九条通路显著富集(校正P值<0.05)。类似地,GO富集分析揭示了尿酸代谢过程、外源物质转运和主动脉发育等生物过程的富集;细胞成分如细胞顶端部分和顶端质膜;分子功能如活性跨膜转运蛋白活性和类胰岛素生长因子I结合(校正P值<0.05)。
通过将最小绝对收缩和选择算子(LASSO)算法应用于训练样本中的38277个遗传变量,确定了识别高尿酸血症(HUA)最重要的遗传变量(lambda.min)。Lambda.min表示在通过五折交叉验证实现最小均方误差的lambda值(见图2A,B)。总共使用了1378个遗传特征和10个临床特征来构建模型。
首先,我们使用基模块中的七个基分类器独立预测训练集中的输入特征。基于七个基分类器通过五折交叉验证的预测结果,我们训练了堆叠模型,并观察到其性能优于单个分类器。
在训练集中,使用遗传特征的堆叠模型预测HUA的AUC为0.703(95% CI:0.700, 0.705),使用临床特征的AUC为0.822(95% CI:0.820, 0.824),而使用遗传和临床特征组合的AUC为0.859(95% CI:0.857, 0.861)(见图2C)。此外,使用遗传和临床特征组合的堆叠模型预测HUA的准确率为0.736(95% CI:0.735, 0.737),敏感性为0.828(95% CI:0.825, 0.832),特异性为0.723(95% CI:0.721, 0.724)。我们的结果表明,结合遗传和临床特征的堆叠模型比单个分类器表现更好。
我们使用内部和外部测试集评估了堆叠机器学习(ML)模型。对于内部测试集,使用仅遗传特征、仅临床特征以及结合遗传和临床特征预测高尿酸血症(HUA)的AUC分别为0.661(95% CI:0.656, 0.666)、0.802(95% CI:0.796, 0.806)和0.836(95% CI:0.832, 0.839)(见图2D)。结合遗传和临床特征的堆叠模型预测HUA的准确率为0.740(95% CI:0.737, 0.743),敏感性为0.775(95% CI:0.768, 0.783),特异性为0.734(95% CI:0.731, 0.737)。
对于外部测试集,使用仅遗传特征、仅临床特征以及结合遗传和临床特征预测HUA的AUC分别为0.588(95% CI:0.576, 0.600)、0.756(95% CI:0.745, 0.766)和0.779(95% CI:0.769, 0.788)(见图2E)。结合遗传和临床特征的堆叠模型预测HUA的准确率为0.723(95% CI:0.714, 0.732),敏感性为0.664(95% CI:0.648, 0.680),特异性为0.759(95% CI:0.748, 0.770)。由于南方医院队列与英国生物银行(UKBB)的年龄分布不同,我们将外部测试集分为两个年龄组(小于40岁和40岁及以上),并相应地评估了模型的性能。对于结合遗传和临床特征的堆叠模型,年龄小于40岁的参与者的AUC为0.789(95% CI:0.776, 0.801),40岁及以上的参与者的AUC为0.764(95% CI:0.748, 0.780)。总体而言,包含遗传和临床特征的多模态模型在两个测试集中表现良好。
我们利用堆叠多模态模型得出的高尿酸血症(HUA)概率为英国生物银行(UKBB)训练集中的参与者生成了ISHUA,并评估了其预后意义。观察到已知的HUA风险因素与ISHUA之间的相关性(见图3);具体来说,ISHUA随年龄每增加十年稳定增加0.024(95% CI:0.024, 0.025; P < 0.001),在男性(0.074 [0.073, 0.074]; P < 0.001)、肥胖个体(0.148 [0.147, 0.149]; P < 0.001)以及表现出血脂异常(0.063 [0.062, 0.064]; P < 0.001)或血糖异常(0.056 [0.055, 0.058]; P < 0.001)的人群中高于没有这些因素的人群。此外,ISHUA捕捉了来自SNP得分的HUA风险轴,每增加一个SNP得分四分位数,ISHUA增加0.047(95% CI 0.047–0.048; P < 0.001)。内部和外部测试集中的结果相似。
在确定了ISHUA捕捉的HUA风险后,我们评估了其作为痛风和代谢相关不良结果的定量标记的潜力。我们的结果表明,ISHUA与代谢相关不良结果的发生有显著关联,尤其是痛风。因此,我们进一步评估了ISHUA在预测痛风发生方面的有效性。在训练集中,ISHUA在预测新发痛风方面表现出色,AUC为0.815(95% CI:0.811, 0.819)。根据最大的Youden指数,我们建立了一个最优的截断值,将参与者分为低风险(<0.183)和高风险(≥0.183)两组。高风险和低风险组的患者分别被估计为痛风发生的高风险和低风险(见图4A)。
为了检验ISHUA在预测痛风发生方面的普适性,我们在UKBB内部测试集中验证并验证了该得分。ISHUA在内部测试集中保持了良好的预测性能,AUC为0.814(95% CI:0.806, 0.822)。我们使用相同的截断值(0.183)将内部测试集中的参与者分为低风险和高风险组。
我们随后评估了训练集和内部测试集中两组与代谢相关不良结果的关系。在平均13.6年的随访期间,我们在训练集中识别了3523、23353、10393、17250、40730、18212、1670和24919例痛风、冠状动脉疾病(CAD)、心力衰竭(HF)、房颤/房扑(AF)、高血压、2型糖尿病(DmT2)、终末期肾病(ESRD)和全因死亡的新发事件。我们在内部测试集中识别了879、5795、2588、4227、9994、4570、416和6292例痛风、CAD、HF、AF、高血压、DmT2、ESRD和全因死亡的新发事件。Kaplan-Meier生存曲线显示,在训练集和内部测试集中,高风险组的新发痛风或其他代谢相关结果的风险显著更高(见图4)。在调整了生活方式因素后,高风险组与痛风、代谢相关结果和全因死亡的风险增加相关。
我们随后分析了高风险组中生活方式类型与结果之间的关联,以探索良好生活方式是否可以减轻痛风和其他代谢相关结果的风险。在训练集的高风险组中,具有中等和良好生活方式档案的参与者痛风的风险比(HRs)较低(分别为0.75 [0.68, 0.84] 和 0.53 [0.47, 0.59]),房颤(AF)(分别为0.91 [0.85, 0.97] 和 0.76 [0.71, 0.81]),冠状动脉疾病(CAD)(分别为0.91 [0.86, 0.96] 和 0.78 [0.74, 0.83]),心力衰竭(HF)(分别为0.86 [0.79, 0.93] 和 0.66 [0.61, 0.72]),高血压(分别为0.90 [0.85, 0.95] 和 0.81 [0.77, 0.85]),2型糖尿病(DmT2)(分别为0.85 [0.80, 0.90] 和 0.74 [0.69, 0.78]),终末期肾病(ESRD)(分别为0.80 [0.66, 0.96] 和 0.58 [0.48, 0.70]),以及全因死亡(分别为0.81 [0.77, 0.86] 和 0.64 [0.60, 0.68])的风险比,与生活方式不良的个体相比(见图5)。在内部测试集中观察到了类似的趋势。
排版:王倩倩
文字:王倩倩