DRUGAI
今天为大家介绍的是来自Slavé Petrovski与Dimitrios Vitsios团队的一篇论文。随着生物样本库级数据集的出现,为发现新型生物标志物和开发人类疾病的预测算法提供了新的机遇。在本文中,作者提出了一种基于表型关联的机器学习——MILTON,它利用多种生物标志物来预测英国生物银行中的3,213种疾病。通过利用英国生物银行的纵向健康记录数据,MILTON能够预测在招募时未确诊的潜在疾病病例,并且其预测效果大大优于现有的多基因风险评分(PRS)。作者进一步展示了MILTON在增强遗传关联分析中的应用,在对484,230个基因组测序样本以及46,327个具有匹配血浆蛋白质组学数据的样本进行的全表型关联研究(PheWAS)中,MILTON提高了88个已知基因-疾病关联信号的显著性,并识别出182个在未增强的基线队列中未达到全基因组显著性的基因-疾病关系。作者在FinnGen数据集中验证了这些发现,并使用了两种用于基因-疾病优先排序的独立机器学习方法。这些提取的基因-疾病关联以及潜在疾病的预测生物标志物已全部公开可用。
公开链接:
http://milton.public.cgr.astrazeneca.com
识别高风险个体是预防医学的重点。传统风险评估工具主要依赖年龄、性别、家族史等临床参数,以及针对特定疾病的一些基础生物标志物。然而,这些工具无法全面捕捉复杂疾病的生物过程。大规模生物样本库整合电子健康记录和多组学数据(如血液检测、蛋白质组学和代谢组学),为发现新型生物标志物和提高疾病预测能力提供了前所未有的机会。
英国生物银行(UKB)是全球最大的生物样本库之一,包含50万名40至69岁参与者的健康记录和基因测序数据。其丰富的表型数据包括健康记录、生活方式、血液和尿液生物标志物等。UKB揭示了许多新的基因关联及潜在治疗靶点,并提供了通过组合生物标志物预测疾病的机会。例如,最近的研究通过对5万多名参与者的血浆蛋白质检测,发现了一些能够在10年前准确预测痴呆的蛋白质。
除了疾病预测和生物标志物发现,基于生物标志物的预测还可增强病例对照研究。然而,许多生物样本库依赖账单代码和自我报告,可能导致误分类、数据缺失和病例定义的差异。识别尚未确诊的隐性病例仍然是一个挑战和机会。
作者提出了一种系统方法——MILTON,利用常规测量的生物标志物、血浆蛋白水平和其他定量特征,准确预测多种疾病。这不仅提供了潜在的生物标志物组合,还增强了基因关联研究。作者通过该模型进行了针对3,213种表型和484,230个基因组的全表型关联研究,识别出了一些在基线研究中未达到显著性的基因-表型关联。
框架总览
临床生物标志物在许多疾病的诊断和评估中起着关键作用,因为它们提供了可衡量的指标,反映疾病的存在和/或严重程度。在全表型关联研究(PheWASs)中,这些标志物还能帮助识别隐性或被误分类的病例。
图 1
如图1所示,作者介绍了一种机器学习方法——MILTON,该方法利用定量生物标志物预测3,213种疾病表型的状态。MILTON首先通过已确诊的患者数据学习疾病特定的特征,然后在原始对照组中预测潜在的新病例。这些扩充后的队列用于重新进行罕见变异聚合分析,并将结果与用于训练模型的基线队列进行比较。
基于样本采集和诊断日期定义模型
如图2a所示,UKB中的生物标志物测量样本可能是在相应个体被诊断出疾病前最多16.5年或诊断后50年采集的。为了确定这一时间差对预测性能的影响,作者根据三种不同的时间模型对病例进行选择并训练MILTON模型:预后模型、诊断模型和时间无关模型,以及五种不同的时间滞后。
其中,预后模型使用的是生物标志物采集后最多10年内确诊的个体;诊断模型则使用的是采集前最多10年内确诊的个体;时间无关模型则使用所有已确诊个体进行模型开发。
MILTON疾病预测性能
首先,MILTON使用67个特征进行训练,这些特征包括30项血液生化指标、20项血细胞计数、4项尿液检测、3项肺活量测量、4项体型指标、3项血压测量、性别、年龄和禁食时间。在对不同表型和多个种族进行单独测试后,根据时间无关、预后和诊断模型,MILTON分别满足了3,200、2,423和1,549个ICD10代码的最低稳健性标准。其中,代码指的是ICD10代码,这些代码用于标识不同的疾病和健康状况。每一个ICD10代码代表一种特定的疾病或健康问题,用于标准化医疗记录和统计分析。
通过使用AUC(曲线下面积)评估模型性能,MILTON在1,091个ICD10代码中实现了AUC≥0.7,在384个代码中达到了AUC≥0.8,在121个代码中达到了AUC≥0.9(图2b)。
在图2c中,作者发现诊断模型在1,466个ICD10代码中通常表现更好,EUR血统参与者的所有时间模型均有结果可用。总体而言,随着可用于训练的ICD10代码病例数量增加,图2d中AUC、敏感性和特异性在欧洲和非洲血统中保持稳定,而在南亚诊断模型中则有所提升。
MILTON成功预测了疾病的发生
图 3
为了评估MILTON在预测真实病例中的有效性,作者研究了在预后模型下被MILTON分配高病例概率(0.7 ≤ Pcase ≤ 1)的个体,是否最终在后续的UKB表型更新中被诊断为对应的ICD10代码疾病。为此,作者仅使用2018年1月1日之前确诊的病例训练MILTON模型,并分析了之后确诊病例的预测概率得分(封顶分析,见图3a)。在1,740个ICD10代码中,AUC≥0.6,其中1,695个代码(97.41%)在Pcase ≥ 0.7的参与者中显著富集。
图3b使用优势比进行统计分析,当优势比大于1时,这一结果在预测概率阈值≥0.3的情况下也得到了支持。这些结果验证了MILTON在未确诊个体中预测潜在病例的能力,强调了其在疾病风险预测中的价值以及在基因关联分析中增强现有阳性病例标签的潜力。
MILTON在疾病预测中优于多基因风险评分
多基因风险评分(PRSs)已经被广泛研究,旨在帮助临床诊断疾病。作者将基于67个定量特征训练的MILTON模型与基于特定疾病的PRS或UKB中的36个标准PRS进行比较。如图3c所示,基于67个定量特征训练的MILTON时间无关模型在151个ICD10代码中的111个显著优于基于单一疾病特异性PRS训练的模型(性别和年龄作为协变量)。这种趋势在预后模型和诊断模型中也得到了相同的观察结果。
在另一项预测499个随机选择的ICD10代码任务中,作者训练了包含UKB提供的全部36个标准PRS的MILTON模型。图3d再次显示基于67个特征训练的模型显著优于基于PRSs训练的模型。
血浆蛋白质组数据提升了多种疾病的预测性能
除了标准的临床生物标志物外,其他组学数据的可用性为病例预测提供了额外的特征。最近,UKB药物蛋白质组项目联盟对49,736名UKB参与者中的2,923种血浆蛋白进行了分析。使用来自欧洲血统子集的46,327名参与者的数据,结合蛋白质组数据,作者重新训练了MILTON模型,既单独使用蛋白质组数据,也与已经分析的67个生物标志物结合使用。图3e显示这稍微提高了整体预测性能,图3f中52种表型的AUC提升了≥0.1。
MILTON识别预测特征和疾病集群
图 4
MILTON能够推断每个特征在定义疾病表型中的重要性,并评估它们在不同种族间的一致性(图4a)。作者发现,MILTON为至少一个与疾病章节相关的生物标志物分配了高特征重要性评分(FISs)。例如,图4b中糖化血红蛋白(HbA1c)和血糖是1型糖尿病(E10)中排名前两位的特征,因为它们常用于糖尿病的临床诊断。这表明MILTON可以区分不同生物标志物在男性和女性中的特定参考范围,因为某些疾病的生物标志物具有性别差异的参考范围。
作者查看了在添加蛋白质组数据后MILTON性能提升的ICD10代码的主要特征,作为正面验证,作者确认MILTON将已知与某些疾病相关的生物标志物列为顶级预测特征(图4b, c)。作者还探讨了独特表型所需的特征数量,确定了每种疾病的前七到八个最重要特征足以提供接近唯一的疾病特征标志(图4d)。类似地,在约3,000个蛋白质和临床协变量中,前5-6个顶级特征也足以区分不同的ICD10代码。最终,作者在图4e中生成了富含相似生物标志物特征的表型组,它能够探索不同患者群体中的共病特征。
MILTON增强队列的PheWAS揭示了潜在的新信号
MILTON在疾病风险预测方面的强大能力为增强基因关联分析中的阳性病例标签提供了新的可能性。作者提取了MILTON增强的队列用于2,371个欧洲血统的ICD10代码,其中AUC>0.6,南亚血统有271个代码,非洲血统有179个代码,东亚血统有9个代码,美洲血统有2个代码。MILTON增强的队列包含所有已知的病例,并随着从L0(保守预测)到L3(更包容的预测)的演变,增加MILTON预测的潜在病例。通过对这些来自欧洲血统的增强队列进行的罕见变异聚合分析,识别了2,905个显著的基因-ICD10关联,涵盖1,207个ICD10代码和165个基因,其中99.93%的最低P值出现在非同义突变模型中。
图 5
为了与参考数据集对比,作者在基线队列上对每个ICD10代码进行了二元PheWAS分析,并在增强队列中找回了236个与基线分析结果一致的基因-疾病关联,这些关联被标记为“已知的二元关联”。对于多个已知信号,图5a中MILTON的PheWAS结果得到了增强。
最后,作者将剩余的182个基因-疾病关联标记为“潜在的新信号”(图5b, c)。FIZ是指每个ICD10代码下高度预测性生物标志物的特征重要性Z分数。为了表征某个关联为“潜在的新信号”,作者要求在MILTON训练期间对于FIZ>1.2的生物标志物,其对应的定量PheWAS关联应当是不显著的。这种过滤是为了确保任何潜在的新信号反映独立的疾病关联,而非与生物标志物的相关性。结果显示,MILTON在所有ICD10代码中报告了231个潜在的新信号,其中76.37%在基线PheWAS中也达到了名义显著性。
基于MILTON增强队列的外显子组关联研究
图 6
为了评估使用MILTON扩展队列对常见变异关联研究的额外好处,作者将MILTON应用于变异水平的富集分析(外显子组关联研究, ExWAS),涵盖了所有表型(n = 2,259, AUC > 0.6)。如图6c所示,MILTON识别出了8,013个变异水平的基线关联中的6,321个,并观察到15,490个“已知的定量”关联以及9,882个潜在的新关联。在9,882个潜在的新ExWAS关联中,61.94%(n = 6,121)在基线队列中达到了P < 0.05的显著性。为了进一步分析,作者还对20个ICD10代码进行了常见变异全基因组关联研究(GWAS),并对MILTON增强队列和基线队列分别进行分析,再次确认在MILTON队列中实现了真实病例的良好富集。
在FinnGen生物库中的验证
作者通过FinnGen生物库来验证基于MILTON ExWAS的潜在新信号。在所有可以在FinnGen中验证的MILTON潜在新ExWAS关联中,54.76%(n = 2,002)在FinnGen第10版中达到了P < 0.05的显著性(图6d)。作为参考,在基线PheWAS推导出的全基因组显著性结果中,88.76%(n = 4,525)在FinnGen中得到了支持证据。
潜在的新信号在两种独立的人工智能工具中排名靠前
作者通过两个独立的机器学习工具——Mantis-ML(v.2.0)和AMELIE验证了由MILTON增强队列的PheWAS推导出的潜在新信号。
Mantis-ML(v.2.0)在全表型范围内训练,利用公开的基因资源(如人类表型本体(HPO)、Open Targets和Genomics England)以及知识图谱,为人类外显子组中的基因在数千个表型中进行排名。图6a通过逐步超几何检验比较了Mantis-ML(v.2.0)的预测结果与MILTON识别的关联。与基线队列相比,L3队列中非同义QV模型识别出的基因在Mantis-ML(v.2.0)中显著富集于排名靠前的基因,涵盖所有三种时间模型。
AMELIE(v.3.1.0)通过自动化的文献检索,集成了PubMed文献库的每日更新,以估算候选基因的疾病因果关系排名。AMELIE要求疾病按照HPO分类。因此,作者首先从17,451个表型中为每个ICD10代码识别出语义上最相似的五个HPO疾病,并为这些疾病查询AMELIE中的疾病-基因关联。图6b显示,在16个ICD10章节中的13个章节中,潜在的新目标比通过十次随机抽样生成的负对照基因集的AMELIE得分显著更高。
这些验证表明,MILTON能够突出潜在的新信号,这些信号也得到了依赖于大量生物学证据和数百个公共数据资源的人工智能基因优先排序方法的支持。
讨论
MILTON是一个基于多组学和生物标志物的机器学习框架,用于疾病预测和增强病例对照研究。尽管使用的特征集较广泛,而非特定疾病,MILTON在许多表型中表现出较高的预测能力。然而,一些表型的预测效果较差可能是由于缺乏独特的生物标志物特征。某些疾病(如肿瘤、耳部、皮肤)可通过加入更多信息丰富的特征来改善模型表现。MILTON在大多数疾病中优于多基因风险评分(PRS),但在黑色素瘤、乳腺癌等疾病中,PRS表现更好。通过进一步学习蛋白质组数据,MILTON提升了52个表型的预测性能。
编译 | 于洲
审稿 | 王梓旭
参考资料
Garg, M., Karpinski, M., Matelska, D. et al. Disease prediction with multi-omics and biomarkers empowers case–control genetic discoveries in the UK Biobank. Nat Genet 56, 1821–1831 (2024). https://doi.org/10.1038/s41588-024-01898-1