尽管蛋白质编码区域只占人类基因组的1-2%,但它们包含了大约85%的已知致病变异。尽管如此,基因组测序(GS)通常比专注于外显子区域的测序方法获得更高的诊断率,这不仅因为其覆盖更加均匀,还因为其在捕获鸟嘌呤或胞嘧啶含量特别高或低的基因组区域方面效率更高。当然,GS的真正优势在于其能够检测到蛋白质编码区域之外的变异。此外,GS的均匀覆盖有助于通过基于发现不一致的配对和分裂reads的半定量算法和调用器来检测拷贝数变异(CNVs)。更为重要的是,GS能够检测到拷贝中性重排,如倒位和易位。许多研究发现,使用GS可以提高诊断产出,例如在智力障碍,儿科疾病,神经系统疾病和遗传性视网膜退化(IRD)中。
后者疾病组包括一系列以外层视网膜和/或视网膜色素上皮的进行性退化或静止性功能障碍为特征的疾病。遗传性视网膜退化(IRD)在北美和欧洲大约影响每3000人中的1人。遗传诊断受到临床异质性和遗传异质性(>270个“疾病基因”(RetNet, https://sph.uth.edu/retnet))的阻碍。对于孟德尔疾病来说,诊断率因表型而异,并且与遗传异质性水平成反比。在某些临床上定义明确的IRD表型中(例如,脉络膜病变),遗传诊断率可以超过90%,而IRD最常见的亚型,视网膜色素变性,显示出极高的遗传异质性,导致诊断率较低。
另一组遗传性眼病,具有较少临床异质性,是遗传性视神经病变(ION)。这类疾病主要影响视力、中心视野和色觉,原因是视网膜神经节细胞及其轴突逐渐丢失,这些轴突构成了视神经。在ION中,Leber遗传性视神经病变(LHON)和显性视神经萎缩(DOA)是临床上最常见的两种疾病。线粒体DNA中的三种变异占LHON病例的约95%,而大约70%的DOA病例携带OPA1中的致病变异。毫无疑问,二代测序(NGS)方法加速了IRD和ION中潜在致病变异的识别。尽管进行了相当全面的基因检测,如应用特定捕获面板的目标测序或外显子测序(ES),仍有24-52%的IRD病例和高达78%的ION病例在遗传上未能得到诊断。
自2019年以来,在图宾根大学眼科医院招募的患有IRD或ION的个体接受基于GS的遗传诊断测试。在累积了1000个数据集的显著数量后,本研究的目的是提供在未筛选的IRD和ION病例队列中观察到的变异谱,并特别评估GS与针对性方法相比的优势。鉴于内含子变异在解读方面具有挑战性,本研究还在一个亚组中额外测试了补充RNA测序的潜在诊断附加值。
结果
共有1000名个体参与了这项研究,其中941人患有IRD,59人患有ION。男性和女性比例相等(50.4%为女性,49.6%为男性)。在X连锁疾病中,受影响的男性比例自然更高,例如,视网膜劈裂症中为100%,脉络膜病变中为91.7%。
检测时的中位年龄为39岁(范围:1-85岁),其中10.7%的参与者为未成年人。在早发性疾病中,遗传测试大多在儿童和青年时期进行,例如,全色盲(中位年龄:19岁;范围:3-55岁)和Leber先天性黑蒙(中位年龄:15.5岁;范围:2-63岁)。相比之下,晚发性疾病的遗传测试则在晚年进行,例如,黄斑营养不良症(平均年龄:48岁;范围:9-80岁)和Best卵黄样黄斑营养不良症(平均年龄:46岁;范围:6-75岁)。
在IRD队列(共941人)中,最大的表型组是视网膜色素变性(占42.4%,共399人),其次是锥杆细胞营养不良(占9.4%,共88人),斯塔加特病(占8.8%,共83人)和黄斑营养不良症(占8.7%,共82人)。较小的ION队列包括59个病例,其中83%被诊断为显性视神经萎缩(共49人)。
在参与者中,有57.4%(574人)可以做出明确的遗传诊断。另有16.7%的参与者(167人)被发现携带意义未明的变异(VUS)或在与其表型一致的基因中携带未经确认的双等位基因变异,但这些变异需要进一步的功能验证。剩余的25.9%(259人)的样本收到了阴性报告。在未解决的病例中,有31%(整个队列的8.0%)携带一个或多个在隐性基因中的单杂合可能致病或致病变异,其中ABCA4(19人)、USH2A(5人)和EYS(5人)是最常受影响的基因。
图1
整个队列的总体诊断率(定义为解决和可能解决的病例)为74.1%。当仅考虑IRD病例(共941人)时,总体诊断率为75.1%,而较小的ION队列(共59人)为59.3%。有30%的参与者报告有其他受影响的家庭成员。在有阳性家族史的参与者中,总体诊断率提高到85%。
解决病例的比率在不同疾病实体中差异很大,并且在遗传异质性很小或没有遗传异质性的疾病中最高,例如脉络膜病变(100%)、X连锁视网膜色素变性(89.4%)和视网膜劈裂症(84.6%)(图1)。在黄斑营养不良症(51.2%)和单纯性视网膜色素变性(36.1%)中,解决病例的比率要低得多。总体而言,在190个基因中识别出致病和可能致病的变异(表1)。最常涉及的基因是ABCA4(16.3%),其次是USH2A(6.3%)和RPGR(4.7%)。这三个基因占所有解决病例的30.7%。因此,ABCA4占队列中10个最常见等位基因的5个,而USH2A占3个。
表1 临床亚组分布的具有致病变异的基因
在1097个变异中,1026个为单核苷酸变异或小的插入和缺失,包括错义变异(n=548;49.9%)、无义变异(n=139;12.6%)、移码变异(n=173;15.7%)、非移码插入或缺失变异(n=27;2.4%)、经典剪接位点变异(n=70;6.3%)和非经典剪接位点变异(n=44;4.0%)。较少检测到的变异包括影响剪接的内含子变异(n=13)、调控区域的变异(n=6)、小核糖核酸变异(n=2)、起始密码子丢失(n=1)、终止密码子丢失(n=1)和转运RNA变异(n=2)。此外,在77名个体中识别出71个独特的结构变异(SVs)(包括具有相同SV的多个家庭成员和具有两个双等位基因SV的个体),占变异总数的6.5%。图2显示了所有变异类型的总数。
表2提供了结构变异(SVs)的概览。它们的大小范围从118个碱基对(bp)到2.4兆碱基对(Mb)。多个外显子事件最为频繁(n=35),其次是单外显子事件(n=25)。涉及一个或多个基因的较大SVs在15个等位基因中被观察到。少数变异涉及内含子或上游区域,一个案例被显示携带不平衡的易位。就单个基因而言,大多数SVs在EYS(10个变异)和PRPF31(9个变异)中被识别。大多数SVs的断裂点可以达到碱基分辨率。图3展示了EYS中复合杂合SVs的一个例子。
图3 双等位基因结构变异的示例。基因组测序结合全面的生物信息学分析揭示了一个结构变异,其断裂点位于内含子区域,并且只有部分拷贝数变化,同时伴随着EYS基因的转位缺失。上图显示了相应的IGV截图,下图是总结结构变化的示意图
WGS优势
尽管很难估计具体数字,但在IRD中未诊断病例的一个相当大的比例可能归因于只能通过GS(基因组测序)检测到的变异类型。GS的一个主要优点是与其他技术相比,它具有更均匀的覆盖率。这一点可以在gnomAD中看到,它包含了外显子组和基因组数据集:虽然89.4%的外显子组被覆盖了至少20倍的测序深度,但GS以97.1%的覆盖率超过了这个值。由于外显子组数据集是在基因组数据集之前生成的,一般测序过程的改进可能解释了部分差异,但GS更均匀的覆盖率已经被反复观察到。根据外显子组或Panel实验的质量以及初始诊断工作的范围,我们假设使用一个针对超出外显子组的数据分析优化的生物信息学流程和不断增长的非编码区域临床注释DNA变异列表,可以实现额外5-10%的诊断。对于遗传性眼病,这一估计也得到了经验支持,在一个在同一临床设置中招募的队列中记录了70.8%的诊断率,与当前研究中的76.8%相比,对应于额外7.8%的诊断。
结论
总之,基因组测序(GS)可以为相当一部分IRD和ION患者提供特定的遗传诊断。分子诊断为个体提供了更好的遗传咨询、临床管理的重新导向、潜在系统表现的监测,以及为现有和未来精准疗法的准备。GS避免了未解决病例的连续测试,并且是唯一一个覆盖非编码区域的平台。虽然外显子组测序(ES)目前是首选的一线诊断工具,但越来越多的研究已经将GS作为一线测试。鉴于测序成本的持续下降和测序能力的提高,预计诊断中GS分析的数量将进一步增加。随着生物信息学预测的改进,GS的益处的全范围可能变得更加明显,这将允许更好地选择候选内含子变异。然而,通过功能后续研究对这些内含子变异的功能研究可能仍然是一个挑战。
广告
上海寻因生物推出WGS科研服务,专注于疑似遗传病但WES阴性案例,全面分析SNV、INDEL、CNV、SV、STR、LOH、mtDNA、transposon等,测序加分析3200元/每例,欢迎联系13761757010(微信同号)。