准确和早期的遗传诊断可以改善个人预后并降低医疗保健系统的成本。随着外显子组测序现在成为许多罕见疾病诊断实验室的标准,迫切需要一个最新的准确列表,以评估诊断相关的基因。然而,覆盖在外显子组数据上的特定疾病虚拟面板可能会导致由于相关基因的遗漏而产生假阴性结果,因为这样的面板更新起来非常耗时。同样,具有多种疾病关联的基因需要被考虑包含在多个面板中,这增加了工作量。这样的工作实际上只能由较大的实验室或像PanelApp这样的众包平台来完成,而不是在常规诊断中的较小实验室。根据我们的经验,使用小型校正面板在特定表型的诊断工作流程中是可行的,但是在外显子组分析中也需要包括一个单一的广泛基因面板,该面板包含了每一个至少具有最小疾病因果证据的基因,特别是对于异质性疾病。
确实存在全面列出诊断相关基因的列表,例如来自PanelApp Australia的Mendeliome面板。此外,最近也启动了努力在诊断实验室之间协调基因-疾病关联,但在疾病基因的校正方面仍然落后。此外,不同实验室之间的差异可能非常明显,这从最近一项比较41个实验室外显子报告的研究中可以看出。最近已经发表了一个全面的框架,用于更广泛地选择虚拟面板的基因,但它缺乏持续更新,并暗示了可能遗漏尚未出现证据的基因变异的潜在风险。这促使我们建立了一个自动化和开放的诊断相关基因列表,我们称之为MorbidGenes Panel,它是通过使用多种来源生成的。
材料与方法
为了包含所有至少具有最小疾病因果证据的基因,我们每月从公开可用且广泛使用的数据库OMIM、ClinVar、HGMD、PanelApp和GenCC收集数据。由于神经发育障碍是遗传诊断非常频繁的转诊原因,我们决定也包括SysNDD作为一个专业校正的表型特定数据库。基因根据可用证据进行评分,如果满足以下至少一个标准,则包含在面板中:(1)该基因在OMIM中与疾病相关联(不包括临时关联和易感性表型),(2)ClinVar列出了至少四个(可能)致病变异,不考虑来源(即包括体细胞变异)但不包括拷贝数变异,(3)HGMD列出了至少四个致病变异,(4)在Genomics England PanelApp或PanelApp Australia的至少一个面板中具有绿色校正状态,(5)在SysNDD数据库中具有“确定”状态,或(6)在GenCC中至少有一个条目具有“确定”状态。MorbidGenes面板每月更新,使用自定义R包。下载界面允许用户访问和筛选面板,并将基因纳入他们的内部流程。
结果
MorbidGenes Panel是一个免费的资源,可以在https://morbidgenes.uni-leipzig.de访问查询(补充图1),并且截至2024年10月,它包含了5037个基因。平均每个月大约有12个基因被添加(图1A)。每个数据库为一个基因的Morbidscore授予一个点。大多数基因-疾病关联得到了多个数据库的良好支持,这反映在Morbidscore中(图1B)。最大的基因组基于所有来源ClinVar、HGMD、OMIM、GenCC和PanelApp(不包括SysNDD)提供了足够的疾病因果证据(图1C)。面板中大约三分之二的基因至少得到四个数据库的支持,即Morbidscore为4。
总共有726个基因仅由一个数据库支持。其中,187个仅由OMIM条目支持。这些OMIM条目中有一些是基于单一但最近的出版物(例如VPS50或SLC30A7),但在ClinVar中没有提交致病变异,或者该基因尚未被PanelApp等平台审查。另一方面,一些基因的OMIM条目,如DIABLO和TNC,是基于十多年前的单一文章,这些文章描述了单一家庭的表型,并被PanelApp和GenCC等校正平台标记为证据有限。
超过300个基因在PanelApp中具有绿色校正状态,但在OMIM中没有相关的表型,也没有在HGMD或ClinVar中发现超过四个致病变异。Genomics England PanelApp和PanelApp Australia共享3737个绿色基因,而分别有282个和407个病态基因仅存在于Genomics England PanelApp和PanelApp Australia中。对于这些基因中的一些,赋予绿色状态的证据是无法追溯的。
讨论
MorbidGenes Panel提供了一个全面的与疾病相关的基因数据集,为诊断实验室提供了一个每月更新的与常规诊断相关的基因列表。
像PanelApp Australia的Mendeliome面板这样由专职审查员手动校正的诊断相关基因列表确实是需要的,但维护这样一个列表所付出的巨大努力反映在该小组69名审查员几乎每天的活动上。此外,像GenCC这样的全球社区分享基因-疾病列表的全球努力非常值得称赞,但在校正方面落后,因此更像是第二级别的证据。由于GenCC从不同的数据源收集证据,但本身不产生新的证据,GenCC数据库实际上并不需要用于校正MorbidGenes面板,因为它没有为面板添加独特的基因。尽管如此,GenCC中显示的证据提供了所有可用的基因-疾病校正的全面概述,因此MorbidGenes面板中保留了指向可用GenCC条目的链接。
我们这种方法的缺点是细节的损失,因为只保留了基因名称和相应的来源。这与像PanelApp这样的手动校正面板形成对比,后者提供了明确的基因-疾病关联、等位基因疾病、临床摘要、遗传方式以及支持这些证据的文章链接。然而,MorbidGenes Panel的目标并不是成为另一个校正的黄金标准,而是作为一个第一线的快速检测工具,用于检测需要整合到遗传诊断常规中的临床相关基因。这个缺点通过在网站上提供到相应来源的链接得到了补偿。
将MorbidGenes Panel作为日常诊断中的in silico(计算机模拟)面板应用,可以将需要评估的变异数量从每个外显子组约60,000个减少到约20,000个,从而排除了与诊断无关的基因中的变异。我们意识到MorbidGenes Panel可能仍然包含假阳性基因,例如基于在ClinVar中被分类为致病性的体细胞变异,或者基于旧的和未经确认的OMIM条目。
由于我们希望建立一个简单的逻辑来包含一个基因,并且也希望将手动校正降到最低,我们决定保留在MorbidGenes Panel中只有一个Morbidscore得分的基因,这些基因可能更被视为未知意义的基因(GUS)。一个基因可能只基于有限的证据得到支持,例如基于一个研究报告,报告中有五个个体携带一个新的错义变异——但如果分析的个体有一个与该报告中完全相同的变异,并且表型重叠,这将触发将该变异包含在遗传报告中,从而为GUS增加更多价值。
尽管对许多基因的证据有限,但始终需要对个体的基因型和表型进行特定案例的评估,以决定哪些变异需要报告给转诊医生。由于Morbidscore代表了支持某个基因证据的数据库数量,用户可以设置一个个人阈值,以更严格地过滤支持数据库数量最少的基因。
正如图1所示,将一系列多样化的数据源纳入面板校正尤为重要,因为如果只关注单一数据库的证据,可能会遗漏重要基因。对于手动校正的面板来说尤其如此,因为在Genomics England PanelApp和PanelApp Australia中,分别有282个和407个基因仅作为绿色基因被校正,这进一步强调了多样化数据集的必要性。定期更新是面板管理的另一个重要支柱,因为新的致病基因不断出现。从2023年1月到12月,有超过130个基因被添加(图1A),每个基因都代表了一个可能被遗漏的潜在诊断,如果面板没有定期更新的话。基于表型的方法,如过滤具有特定HPO术语的基因,存在排除相关变异的风险,因为像HPO这样的数据库中表型-基因关联的系统描述落后,需要一段时间才能更新。因此,在常规诊断中,不仅要包括具有最小充分证据的基因,还要保持诊断流程的最新状态,以便对诊断外显子组进行潜在的重新评估,这两个方面都可以轻松实现我们的MorbidGenes Panel。
结论
我们的框架提供了一个基于简单逻辑的广泛诊断相关基因列表,这种逻辑限制了校正工作量,并提供了可复制的数据生成,如果需要,甚至允许在更短的时间框架内进行更新。在诊断设置中,MorbidGenes Panel的主要优势是(1)排除了无关基因中的变异,因此更好地专注于与疾病有明确关联的基因,而不管相关表型如何,(2)每月更新,提供快速整合新的基因-疾病关联,以及(3)一个易于使用的Web界面,链接对诊断报告相关的资源。该面板已成功应用于莱比锡大学医学中心人类遗传学研究所的常规诊断中,该研究所每年进行超过2200个诊断外显子组报告,除了像恶性高热或高胆固醇血症这样非常特定的表型外,每个案例都应用了MorbidGenes Panel的最新版本作为in silico面板。我们鼓励遗传学界尽快在公共数据库中提交有关基因-疾病关联的证据,增加像MorbidGenes panel这样的自动化虚拟面板中的临床相关基因数量。
广告
上海寻因生物推出WGS科研服务,专注于疑似遗传病但WES阴性案例,全面分析SNV、INDEL、CNV、SV、STR、LOH、mtDNA、transposon等,测序加分析3200元/每例,欢迎联系13761757010(微信同号)。