可解释多模态机器学习框架揭示远端感觉运动性多发神经病变的病理特征

文摘   2024-12-17 19:06   美国  

医学科研新动向

Interpretable multimodal machine learning (IMML) framework reveals pathological signatures of distal sensorimotor polyneuropathy

Communications medicine

<2024年12月16日>

远端感觉运动性多发神经病变(Distal Sensorimotor Polyneuropathy, DSPN)是一种高度复杂的神经系统疾病,常见于糖尿病患者、糖尿病前期人群、肥胖人群及老年人。该疾病的主要特征为下肢感觉丧失,伴或不伴神经病理性疼痛,严重影响患者的生活质量。DSPN的发病机制涉及多因素交互作用,包括炎症反应、代谢异常和遗传易感性,但至今尚未完全阐明。此外,DSPN的临床诊断依赖于症状评估和神经生理测量,导致部分患者未被及时诊断。随着多组学技术的发展,系统地集成基因组、转录组、蛋白质组、代谢组和临床数据成为揭示复杂疾病病理机制的关键方法。因此,本研究提出了一种可解释多模态机器学习(IMML)框架,旨在通过整合临床与分子数据,预测DSPN的患病率与发病风险,并识别潜在的病理生物标志物,以加深对DSPN发病机制的理解,并为早期干预提供依据。

研究设计

1. 数据来源与对象

  • 数据来源:KORA F4/FF4队列研究。

  • 参与者:1091名,年龄62-81岁。

  • DSPN诊断标准:使用MNSI评估患病(F4)和发病(F4到FF4)DSPN。

2. 数据类型与预处理

  • 基因组数据:SNP总数7,545,537,质控标准为缺失率>1%、MAF<1%、HWE偏离(p<1e-10)。

  • 转录组数据:探针总数48,804,处理包括log2转换与分位数标准化。

  • 蛋白质组数据:初始蛋白质探针1129,质控后保留1160个蛋白。

  • 代谢组数据:代谢物总数525,缺失值填充并去除缺失率>70%的代谢物,最终保留466个。

  • 甲基化数据:探针总数485,512,去除跨SNP区域探针,最终保留399,541个。

  • 炎症蛋白数据:初始蛋白92个,质控后保留71个高质量蛋白。

  • 临床数据:83个变量,移除缺失率>10%的变量,类别变量独热编码。

3. 特征选择

  • 分子数据:通过基因集富集分析(GSEA)提取leading-edge分子。

  • 临床数据:使用弹性网络回归筛选重要变量,基于t统计量评估变量权重。

4. 模型训练与集成

  • 算法:弹性网络回归(Elastic Net)。

  • 特征集成:向前特征选择(FFS),逐步增加数据模态,评估性能。

  • 数据划分:80%训练集,20%测试集,五折交叉验证与100次重采样。

5. 性能评估与统计分析

  • 性能指标:受试者工作特征曲线下面积(AUROC)。

  • 统计检验:使用Wilcoxon秩和检验评估性能改进的显著性。

核心结果

1:研究流程与数据特征
1)样本分布(1a):1091名F4参与者中,188例患病DSPN,903例健康对照;FF4随访中,131人发展为发病DSPN。
2)特征数量(1b)
  • 初始SNP:7,545,537,处理后3,167,521

  • 转录组探针:48,804,处理后30,000+

  • 蛋白质:1129个探针,最终保留1160个

  • 代谢物:525,处理后466

  • 炎症蛋白:92,处理后71

3)模态重叠性(1c):样本数据稀疏,完全表征的样本为242个。

4)IMML框架(1d-h):通过GSEA和FFS筛选特征,最终提取重要变量并集成数据。

2. 临床数据对DSPN患病率的预测

1)单模态性能临床数据的AUROC为0.752(95%CI:0.733-0.770),显著优于任何单独分子数据(AUROC = 0.583)。

2)特征重要性筛选出4个重要临床变量:

  • 年龄:p<0.05
  • 腰围:p<0.05

  • 身高:p<0.05

  • 神经病病史:p<0.05

3)PCA聚类:基于上述变量,DSPN病例与健康对照分布显著分离。

4)预测概率分布:大部分病例集中于高预测概率区域。

3. 多模态数据提升DSPN发病预测

1)模型性能

  • 临床基线模型:AUROC = 0.603(95%CI:0.588-0.624)。

  • 添加分子数据后:2模态:AUROC = 0.700(95%CI:0.686-0.722);3模态:AUROC = 0.714(95%CI:0.684-0.720)。

2)特征重要性

  • 炎症蛋白:17个(如CXCL9、IL-6)

  • 代谢物:4个(如caprate, linolenate)

  • 转录因子:3个(如CDC42, SP3)

  • 临床变量:2个

3)PCA分析(3e)重要特征能有效区分发病DSPN与对照组。

4. DSPN发病的关键分子特征

1)特征网络:两大子网络:炎症蛋白(如CXCL9、IL-6)和脂肪酸(如caprate, linolenate)显著连接。

2)炎症通路:趋化因子-受体结合通路显著上调(p=0.008)。

3)SUMO化通路(4c)与DNA复制修复相关的SUMO化通路显著下调。

4)脂肪酸代谢(4d)脂肪酸受体信号(如GPR40)下调,caprate和linolenate水平降低。


  • 本研究开发了可解释多模态机器学习(IMML)框架,用于预测远端感觉运动性多发神经病变(DSPN)的患病率与发病风险,并揭示其病理特征。

  • 临床数据(年龄、腰围、身高、神经病病史)表现出最强的预测能力,模型AUROC达到0.752

  • 整合临床与分子数据显著提高了预测性能,最佳模型AUROC达到0.714

  • 炎症激活是DSPN发病的核心特征,体现在趋化因子受体结合信号通路和炎症相关蛋白水平显著上升。

  • SUMO化功能障碍涉及DNA复制、修复及RNA运输过程的异常,可能加速神经元的损伤。

  • 脂肪酸代谢紊乱表现为caprate和linolenate等脂肪酸水平降低,提示脂肪酸受体信号(如GPCR通路)在DSPN中的作用。

-END-

文字丨本人点滴积累,如有补充,下方留言即可

(左下角“阅读原文”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章