携带者筛查通常在怀孕期间或受孕前提供给个体,以确定他们生育患有隐性遗传疾病孩子的风险。当夫妻双方都携带相同基因常染色体隐性(AR)疾病相关的致病/可能致病(P/LP)变异的杂合子时,他们可以对当前或未来的怀孕做出知情决策。可选择的选项包括胚胎植入前/产前基因检测、为出生患病儿童做准备、使用供体配子或收养。传统上,携带者筛查主要集中在某些群体中高发的特定疾病,如囊性纤维化、脊髓性肌萎缩症和血红蛋白病。然而,随着多样化祖源人群的不断增加以及测序技术的进步,“扩展”携带者筛查变得越来越可行。扩展筛查方法包括测试广泛的隐性遗传病,无论祖源如何,但需要根据携带频率、疾病严重性和其他因素仔细筛选候选基因。2021年,美国医学遗传学与基因组学会(ACMG)建议在怀孕和受孕前为所有个体提供一个基因面板,其中包括97个与AR疾病相关的基因。基因经过系统评估,如果其在任何祖源群体中具有至少1/200的携带频率且该群体占美国人口的1%以上,则被纳入筛查。然而,携带频率是基于基因组聚合数据库(gnomAD)v.2.0.2计算的,该数据库在非欧洲祖源群体的代表性上有限。因此,尚不清楚ACMG推荐的面板是否能充分覆盖不同人群中的高风险夫妇。随着gnomAD v.3的发布,非欧洲群体的代表性得到了改善;然而,gnomAD v.3仅包含了76,156名参与者的基因组。我们和其他研究小组分析了gnomAD v.3的基因组,并展示了基因携带频率(GCF)的动态变化。2024年4月发布的gnomAD v.4.1.0版本包含了来自730,947个体的前所未有的外显子数据,相比v.2和v.3版本的合并数据,数据量增加了五倍。此版本通过大约185,000名非欧洲祖源个体的加入,进一步增加了数据库的多样性。随着时间的推移,来自不同人群的等位基因频率数据的可用性已成为gnomAD的优势,因此它已在多个专注于特定祖源人群的研究中得到了应用。在本研究中,我们利用生物信息学管道从ClinVar中获取了与孟德尔常染色体隐性疾病(AR基因)相关的2,987个基因中的P/LP变异列表,然后计算了这些变异的携带频率,以估算gnomAD v.4.1.0中代表的祖源人群中的GCF。我们根据临床表现的严重性对携带频率≥1/200的基因进行了筛选,提供了一个候选基因列表,供考虑在混合人群(ACMG 3级)和特定祖源(ACMG 4级)筛查中使用,基于gnomAD v.4.1.0提供的最新信息。在此,我们展示了基于gnomAD v.4.1.0和ClinVar数据,针对不同祖源的常染色体隐性基因P/LP变异的携带频率的研究结果。
2023年10月7日,从ClinVar数据库中获得了一份包含2,256,088个变异的变异携带者频率(VCF)文件,这些变异已映射到GRCh38参考基因组。提取了没有冲突解释的常染色体致病/可能致病(P/LP)变异。从VCF文件中筛选出总计136,624个P/LP变异,涉及2,987个常染色体隐性(AR)基因,用于进一步研究(图1A)。AR基因列表来自在线孟德尔遗传数据库(OMIM)的Gene Scout。接下来,使用染色体编号、位置和参考/替代等位基因,查询过滤后的ClinVar变异列表与gnomAD外显子数据中的匹配变异。我们使用2024年4月19日发布的gnomAD v.4.1.0版本,以识别与ClinVar变异匹配的变异,用于后续分析。我们在gnomAD v.4.1.0外显子中识别出58,734个变异,排除了剩余的77,890个变异,未纳入后续分析。对于gnomAD v.4.1.0外显子中每个匹配的变异,使用等位基因信息来估算变异携带者频率(VCF)和基因携带者频率(GCF),如前所述。简而言之,VCF被计算为一个群体中携带目标变异的个体比例。GCF定义为群体中对给定基因的任何P/LP变异为杂合子的个体比例。VCF值用于计算每个祖源人群中AR基因的GCF(见补充方法),并报告所有人群中给定基因的最大GCF。祖源GCF数据按gnomAD v.4.1.0中表示的以下祖源分类:非洲/非洲裔美国人(afr)、混合美国人(amr)、阿什肯纳兹犹太人(asj)、东亚人(eas)、芬兰人(fin)、中东人(mid)、非芬兰欧洲人(nfe)和南亚人(sas)。一个标为“其他个体(rmi)”的群体,包含30,209个个体,由于祖源信息不明确/混杂,被排除在本研究之外。
图1 利用gnomAD v.4.1.0对常染色体隐性疾病的基因携带者频率进行系统分析
总共识别出349个GCF ≥ 1/200的常染色体隐性(AR)基因,并对这些基因进行了逐步注释,以确定与这些AR疾病相关的临床表现的严重性(见表S3)。首先,所有ACMG 3级基因被认为符合临床表现严重性要求,并被纳入筛选。其次,之前被注释为与重型孟德尔疾病相关的基因也被纳入。其余基因则根据Lazarin等人所采用的框架进行注释,该框架将常染色体隐性疾病在纯合子个体中的临床严重性分类为:严重(寿命缩短至婴儿期或童年期、智力障碍)、重度(寿命缩短至早期成人期、行动障碍、内脏畸形)或中度(感觉障碍、免疫缺陷、癌症、精神疾病、畸形特征)。那些仅在成人期表现出的疾病,如不育症,以及临床表现轻微的疾病被排除在外。基因的注释工作由两位遗传咨询师以及实验室和临床遗传学、儿科和产前医学方面的专家进行,并基于OMIM、ClinGen、ClinVar以及当时可用的公开文献进行审查。为了我们的临床注释,我们采用了一种包容性方法,确保没有重要基因被遗漏。因此,一些具有低外显率或表现为不同儿童期症状的基因被纳入了最终的基因列表。
在349个基因中,GCF ≥ 1/200的基因有286个被确定与中度至重度临床表现相关(表1、表2、表3和表4)。具有GCF ≥ 1/200的基因数量在各个祖源人群中有所不同,从南亚人群的40个到阿什肯纳兹犹太人群的119个不等(图1B;表S4和表S5)。在八个祖源人群中,具有GCF ≥ 1/200的基因的中位数为60个。有趣的是,286个基因中有189个(66.1%)仅在一个祖源人群中具有GCF ≥ 1/200(表1、表2、表3和表4)。只有以下六个基因(2.1%)在所有人群中均具有GCF ≥ 1/200:ABCA4(MIM: 601691)、CYP21A2(MIM: 613815)、FLG(MIM: 135940)、GJB2(MIM: 121011)、KCNE1(MIM: 176261)和PAH(MIM: 612349)。不同gnomAD v.4.1.0人群之间共享的GCF ≥ 1/200的基因数量和百分比总结在图S2中。任意两个人群之间在符合条件的基因列表中的最大重叠度为13.3%(38/286个基因),这是非芬兰欧洲人群和阿什肯纳兹犹太人群之间的重叠度。总体来说,具有最高GCF的主要基因在多个gnomAD v.4.1.0祖源人群中共享(图1C和图1D)。此外,贡献于最大GCF的P/LP变异在基因之间有所不同,范围从1个(60个基因)到376个(USH2A [MIM: 608400]),每个基因的平均变异数为15个,中位数为4个变异。这些变异的数量在人群之间也有所不同(图S3;表S6)。gnomAD v.4.1.0中具有GCF ≥ 1/200的祖源基因列表(表S5)可作为在具有较高祖源同质性地区,针对不足代表性基因祖源的携带者筛查面板的基础。
总之,本研究利用了目前人群最大的基因组数据集——gnomAD v.4.1.0,提供了对不同祖源人群中AR(常染色体隐性遗传病)疾病携带者负担的最新评估。我们的研究结果强调了随着数据集的扩展和新疾病关联的报告,定期重新评估携带者筛查面板的重要性。值得注意的是,我们识别出286个符合泛族裔携带者筛查标准的基因,这一数量相比2021年ACMG基于gnomAD v.2.0.2推荐的97个基因有了显著增加。此外,最佳的携带者筛查面板在人群之间存在显著差异,这表明对于来自同质背景的个体,可能更适合进行祖源特异性的筛查,而对于具有多样或混合祖源的个体,则更适合进行泛族裔筛查。这些结果凸显了大型、具有代表性的基因组数据集在指导公平且精确的携带者筛查工作中的重要性。随着基因组测序的日益普及,未来可能出现一种新的模式,即个体进行全面的基因组测序,并根据其具体的祖源背景和当前筛查指南定期进行重新分析。我们的生物信息学框架为此类工作提供了基础,并可以很容易地应用于未来版本的人群基因组数据库。
广告
上海寻因生物与艾吉泰康联合定制了携带者筛查、遗传性肿瘤及ACMG二级发现三合一捕获试剂盒,提供从DNA提取、建库、测序、数据分析、报告全流程服务,欢迎垂询!联系电话13761757010(微信同号).