Nat. Commun. | Meta-EA:结合进化行动的基因特异性预测框架

学术   2025-02-01 00:02   韩国  

DRUGAI

今天为大家介绍的是来自美国贝勒医学院的Panagiotis Katsonis与Olivier Lichtarge发表的一篇论文。在临床实践中,评估错义变异影响的计算方法面临着一个重大挑战:它们在不同基因中的表现往往不够稳定。虽然集成评分系统通过组合多种预测方法来提高可靠性,但由于训练数据中某些基因的比例过高,可能会导致预测结果出现偏差。为了解决这个关键问题,作者开发了一个创新的解决方案:基因特异性集成框架。与传统方法不同,该框架使用参考计算注释进行训练,而不是依赖临床或实验数据。基于这个框架,作者开发的Meta-EA(Meta-Ensemble Analysis)集成评分系统在各个基因集的预测性能上都能达到顶级单一预测方法的水平。通过进一步整合剪接效应和人类遗传多态性的等位基因频率信息,Meta-EA的性能得到了显著提升。在衡量预测准确度的ROC曲线分析中,无论是基因平衡还是不平衡的临床评估,都达到了0.97的高水平。这项研究充分利用了现有的变异影响预测方法,为临床解读提供了更加准确可靠的评估工具。

预测遗传变异对蛋白质功能的影响是一项复杂的任务。这不仅需要考虑蛋白质折叠、配体相互作用、催化活性、细胞定位、表达和降解等多个方面,还要考虑环境因素、生理条件以及基因间相互作用的影响。这些因素会导致实验结果的变异性,以及临床数据中的不完全外显现象。目前的计算方法主要基于序列同源性分析,并结合蛋白质结构和功能数据。同源序列是生物进化过程中,经过自然选择或遗传漂变保留下来的结果。因此,预测变异效应实际上是对蛋白质进化历史的逆向工程研究。


变异影响预测数据库(dbNSFP)收录了超过30种预测方法的评分。虽然这些方法声称具有出色的性能,但独立研究发现它们与实验数据之间存在显著差异。为了客观评估这些预测方法,关键基因组解释评估项目开展了系统性的测评工作。传统的集成方法通常采用机器学习技术,使用来自多个基因的临床注释数据。然而,这种方法存在几个明显的局限性:训练数据可能偏向于某些特定方法,临床注释可能存在错误,而且训练用的变异数据在不同基因间分布不均衡。为了克服这些限制,作者提出了一个创新的无监督框架Meta-EA。与传统方法不同,它不依赖已知的变异注释数据,而是基于与独立参考方法的预测一致性。作者选择进化行动(Evolutionary Action)作为参考方法,因为它不依赖于其他预测工具,并且在CAGI挑战中已经证明了其优秀的性能。


CAGI数据、计算方法以及距离树

研究团队利用dbNSFP数据库中独立运行的预测器和来自基因组解释重要性评估(Critical Assessment of Genome Interpretation, CAGI)的实验变体注释数据集,对预测基因变体影响的计算方法进行了性能评估。研究共评估了31种变体影响预测方法,其中包含8种方法的不同版本。

图 1


本研究使用受试者工作特征曲线下面积(AUROC)作为评估指标。图1a展示了各方法的相对性能表现。结果显示,进化行动方法的表现始终位居前列,这与CAGI此前的评估结果一致。一些未参与CAGI挑战的方法,如AlphaMissense、REVEL、ESM1B、VEST和DEOGEN2等也展现出优秀的性能。相比之下,fitCons、GenoCanyon和PolyPhen2-HDIV等方法的表现相对较弱。作者还发现,很多方法在不同基因评估中的表现存在显著差异。这种预测性能的不一致性表明,作者需要针对不同基因开展专门的预测方法评估。


研究团队提出了一个重要假设:在缺乏特定基因训练数据的情况下,可以选择一种预测方法作为参考标准,来评估其他预测方法的性能,并据此开发综合评分系统。图1b展示了六个金标准数据集的分析结果,显示各方法与实验数据的皮尔逊相关系数(PCCex)和与进化行动方法的相关系数(PCCEA)之间存在很强的相关性,相关系数(rPCC)值在0.83到0.95之间。


为了量化不同预测方法之间的一致程度,研究团队计算了所有方法对在人类蛋白质上的皮尔逊相关系数(PCC)。图1c以无根树(Unrooted Tree)的形式直观展示了各方法之间的距离关系,这种可视化方式有助于我们理解不同预测方法之间的关联程度。特别有趣的是,两个独立开发的方法——进化行动和PROVEAN——展现出意外的一致性。这种一致性可能源于它们都基于氨基酸替换概率进行计算,尽管PROVEAN采用通用计算方法,而进化行动则使用上下文相关的计算方式。这些发现表明,方法论上的重叠往往会导致预测结果的趋同。因此,像BayesDel这样的集成预测器在设计时会通过降低相似预测器的权重来解决这种冗余问题。


集成方法与基准测试

研究团队开发了一种基因特异性集成方法。如图2a所示,该方法通过迭代过程将多个独立的组件方法与进化行动相结合。具体而言,首先选择与参考方法一致性最高的组件方法作为集成评分的基础,然后通过迭代过程选择其他组件方法的线性组合,以不断提升集成评分与参考方法的一致性。每个组件方法可以多次参与,其权重因子范围在0.125到1之间。

图 2


研究团队对33,498个人类蛋白质序列计算了Meta-EA集成评分,分析显示组件方法的使用频率与其在CAGI数据集中的性能呈正相关(rPCC = 0.38, 图2b)。有趣的是,集成方法的使用频率低于预期,当排除这些方法后(图2b中的红点),相关性反而增强(rPCC = 0.50),这可能是由于集成组件方法与独立方法之间存在潜在的信息冗余。


为评估Meta-EA的性能,研究使用了两类数据集:6个CAGI数据集(包括酶功能评估和酵母互补实验)和来自ProteinGym的60个人类蛋白质实验数据集(涉及多种蛋白质功能的测定)。结果显示,在CAGI数据集中,Meta-EA在六个数据集中的五个都优于进化行动方法和大多数组件方法,以及所有组件方法的简单线性组合(图2c)。与进化行动方法相比,Meta-EA在ROC曲线上方面积(1-AUROC)的改善范围在-3%到17%之间,平均提升9%。在所有39种评分系统中,Meta-EA经常位居前两名(图2d)。在ProteinGym数据集的测试中,Meta-EA同样展现出优秀的性能,与表现最佳的组件方法AlphaMissense相当(图2e)。这些结果表明,Meta-EA不仅提升了预测准确度,而且能够在不同基因的预测中始终保持领先水平,展现出与最新变体影响预测技术相当的竞争力。


临床调整

研究团队探讨了基于进化的基因变异预测与临床注释之间的一致性,并研究如何通过调整来改进预测准确性。如图3所示,研究从三个维度进行了分析:RNA剪接效应、人类等位基因频率和已知的基因-性状关联。

图 3


在RNA剪接效应分析中,研究团队采用了准确度较高的SpliceAI评分系统。结果显示Meta-EA评分与预测的剪接影响之间相关性较弱(图3a)。在ClinVar数据库中,良性变异表现出较低的Meta-EA评分,且与剪接影响几乎无关;而致病性变异在剪接影响较小时具有较高的Meta-EA评分,但随着剪接影响增大,Meta-EA评分反而降低。这种现象表明某些变异主要是由剪接效应导致致病,而与其功能影响关系不大。


在人类多态性研究方面,研究团队发现超罕见变异中致病变异比例最高,随着等位基因频率升高,致病变异的比例逐渐下降,当频率超过0.01时接近于零(图3c)。仅使用等位基因频率预测变异致病性的AUROC就达到了0.928(图3d)。当将变异影响预测评分与来自gnomAD、UK biobank和All of Us的等位基因频率数据结合时,AUROC值更是提升至0.973。


开发与测试Meta-EA的临床版本

研究团队开发了Meta-EAclinical,这是一个整合了基因特异性变异影响预测、人类等位基因频率和剪接效应的临床预测工具。在62,587个ClinVar错义变异中,有24,364个变异获得了至少35种预测方法的评分。为消除数据偏差,研究团队创建了100个平衡子集,每个子集中每个基因都包含一个致病变异和一个良性变异,以确保评估结果的可靠性。

图 4


研究发现Meta-EAclinical在平衡和不平衡数据集上都展现出最佳性能。有趣的是,那些依赖临床注释数据训练的方法(如FATHMM、MVP、MetaLR等)在平衡子集上的表现反而下降。图4b显示,方法的AUROC值差异与其对每个基因分配的平均评分标准差之间存在正相关(rPCC=0.50),这表明一些方法可能在训练过程中学习到了基因层面致病-良性注释比例的固有偏差。如图4e所示,ClinVar数据的审查状态会显著影响预测性能,获得多个提交者认可的变异表现最好。在较新的ClinVar数据中,Meta-EAclinical的AUROC轻微下降(0.008),这主要是因为较新数据中常见良性变异的比例较低(图4d)。


通过对特定基因的深入分析,研究发现蛋白质结构域在决定基因变异的临床后果中起着关键作用。例如,GJB4基因的致病性变异主要位于跨膜区域,而不是其他进化保守的位点(图4g)。类似的模式也在LGR4和SGCD基因中观察到,这表明疾病致病性与进化约束并不总是一致的。因此,变异影响预测还需要结合受影响蛋白质结构域或位点与目标疾病之间的关联证据。


结论

本研究提出了一个基因特异性的无监督集成框架Meta-EA,通过与进化行动方法的一致性来整合多种变异影响预测方法,而不依赖于现有的临床或实验注释数据。在66个实验注释变异数据集的评估中,Meta-EA通常能够匹配每个数据集中表现最佳的方法,并在所有测试集中实现最高的平均性能,超越了包括最新深度学习方法在内的30多种组件方法。该框架优先选择在现有变异集中具有高性能的预测器,同时较少使用具有强相互依赖性的预测器。Meta-EA的简单性、通用性和可扩展性使其易于适应新的需求,可以灵活地纳入新的组件方法或采用不同的参考方法。由于主要整合基于序列同源性的方法,Meta-EA的评分主要反映了变异的进化影响。这种基于计算注释的训练方法解决了临床和实验数据稀缺的限制,为开发基因特异性集成模型开辟了新途径。

编译|于洲

审稿|王梓旭

参考资料

Katsonis P, Lichtarge O. Meta-EA:a gene-specific combination of available computational tools for predicting missense variant effects[J]. Nature Communications, 2025, 16(1):159.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章