背景
罕见遗传病定义为影响<2000人中就有1人的疾病。总的来说,它们是影响6-8%人口的发病的常见原因,已经涵盖7000多种疾病,每年有200多种新疾病被发现。我们对罕见病(RD)遗传基础的了解不断加深,对医学和基础研究产生了深远的影响,诊断途径已经简化,由遗传学提供的疾病机制现在已经很常见,而以前它们很少见。了解新的遗传变异和基因可以为治疗干预的新方法提供信息。
基因组医学这些进步的核心是下一代技术的开发。最初用于对已知疾病基因面板和外显子组进行靶向测序,成本的逐步降低意味着现在作为医疗保健环境中的一线基因检测,对患者的整个基因组进行测序是负担得起的。事实上,罕见病患者的临床全基因组测序(WGS)目前正在多个国家进行,包括英国(最初由英格兰基因组学(GEL)的100,000基因组计划(100KGP),最近作为NHS基因组医学服务的一部分)、加拿大(通过Care4Rare计划)、美国(通过Medical基因组计划),日本(作为罕见和未确诊疾病倡议的一部分)、法国(在其基因组医学2025计划中强调的那样)、中国香港、印度(GUaRDIAN联盟)和巴西,而iHOPE计划(由Illumina资助的慈善联盟)正在为世界各地服务不足的罕见病家庭提供WGS。
现在的关键问题是如何进一步提高诊断率,因为大多数测序的个体仍然没有获得基因诊断。例如,GEL对其前2183个家系(4660个基因组)的初步研究的诊断率目前为25%,这与其他广谱临床罕见病研究中报道的诊断率相似。一个需要改进的主要领域是对基因组变异类型和区域的评估,这些类型和区域不会被基因面板和基因芯片或全外显子组序列(WES)捕获。尽管对整个基因组进行了测序,但WGS数据的临床诊断分析在很大程度上仅限于鉴定基因面板中预定义的基因中的单核苷酸变异(SNV)和小插入/缺失(INDELs),或者最多是在基因组的编码区中鉴定。很少对结构、非编码和剪接位点变异进行系统分析,但正是在这些以前未知的基因组区域和变异类型中,才有机会提高WGS的诊断率。
事实上,有相当多的证据表明这些不同的变异类型与罕见病的发病机制有关。已发现结构变异(SV),例如倒位,是一系列罕见病的基础,其中几种仅通过长读长测序鉴定。多年来,人们已经报道了一系列罕见病的深内含子变异,包括剪接位点变异和那些有助于mRNA加工的变异(VazDrago综述),但尚未通过临床基因组测序进行系统研究,非经典剪接位点变异对罕见病的贡献认为被低估了。临床WGS中遗漏这些变异类型的主要原因是缺乏适当的工具和数据集来识别它们,从而将大量真(但非致病性)和假(人为)变异与致病性变异区分开来。
在之前的研究WGS500的基础上,我们对500个基因组进行了测序,并确定了成功应用WGS分析患者基因组的关键因素,我们试图通过建立评估转诊的临床流程并在经认可的诊断实验室内进行测序,将WGS扩展到临床环境,在临床相关的时间范围内返回结果。我们在100KGP之前开始的OxClinWGS研究包括癌症和罕见病患者。癌症队列的结果,包括报告结果以告知及时使用靶向分子疗法的挑战,之前已经描述过,临床WGS的经济、法律和伦理考虑。特别是,我们报告了如果只考虑测序耗材成本而不考虑分析成本,WGS的成本可能会被低估,并且每个基因组的预期成本只有在大规模计划中才有可能实现。
我们的目标是对所有变异类型进行全面分析,包括剪接位点、结构和非编码变异,因为我们预计之前的测试可能会遗漏这些变异。我们将成熟的生物信息学工具与我们自己的新算法相结合,以帮助识别和解释这些更具挑战性的变异类型。其中包括我们用于分析SV的SVRare工具,包括拷贝数变异(CNV)、倒位和易位;我们用于剪接位点变异检测和注释的新算法ALTSPLICE和用于非编码变异注释的定制GREEN-DB数据集。我们在这里报告该OxClinWGS队列中罕见病病例的结果和诊断率。
结果
队列结果概述OxClinWGSRD队列共包括122个家系的300个基因组。招募了148名男性和152名女性参与者,其中大多数是欧洲白人血统,但也包括非洲、亚洲和美国家庭(附加文件1:图S3),反映了主要招募患者的人口。总体队列统计数据,包括家庭规模、性别、疾病类别和招募的个体病例的破获状态的详细信息,如图1B、C、附加文件3:表S4-S6和附加文件1:图所示。S6和S7。队列中所有患者的WGS结果,包括致病基因和变异(如果解决)和相关表型在附加文件3中提供:表S6和S7,其中还包括之前发表的一些个体病例的参考文献。附加文件2中提供了所选患者的更详细临床病例史。本研究中发现的变异已上传到ClinVar。
我们在该罕见病队列中的诊断率为43/122例(35%)。这些病例具有ACMG致病/可能致病性分类的变异(39/43),或者是已知疾病基因中具有因果关系证据的变异(4/43),这些变异被临床接受并返回,为这些患者的诊断或治疗提供信息。在整个队列中,我们认为39%的病例得到解决(47/122),因为另外4个病例在新疾病基因中存在变异,这些基因具有令人信服的因果关系证据,来自具有匹配表型或功能数据的其他家系(图1B,附加文件3:表S7和S8)。另有12/122(10%)病例在从基因分析中确定的主要候选病例中存在意义不确定的变异。还确定了2例具有clinical可操作的继发性发现的病例。图1D显示了通过变异类型解决的案例概述,WGS500基因分类(参见方法)如图1E所示。遗传模式、新生(de novo)状态和结果类的更多详细信息总结在附加文件1中:图S8。
图1
在整个队列中,我们确定了8个新的疾病基因。其中3项已得到确认,并作为合作研究的一部分之前发表;POLR2A中的新发p.Gln735*突变发生在一名新型神经发育综合征伴严重婴儿发作性肌张力减退的患者中;神经发育眼网综合征和癫痫患者的KMT2E新发p.Tyr1224fs突变和MCM10中的双等位基因变异(p.Gly79fs和c.764+5G>A)导致端粒缩短并引起免疫功能障碍和心肌病。DOCK7和SAMD9L两个基因在发现时是新的基因,我们有证据表明另外三个新的疾病基因(DHRS3、FOXD3、HDLBP)存在因果关系。其他主要候选基因的变异也在功能研究中进行研究。此外,一个基因RMND1对于多小脑回的表型是新颖的,而BMP4是Kapur-Toriello综合征的推定新基因,如果得到证实,将扩大该基因的表型范围,从目前与小眼症和唇裂综合征的关联。
图2显示了该项目在已解决的病例和新的候选疾病基因方面的成果总结
图2
变异类型和HPO信息概述
我们的分析流程研究了所有变异类型,包括SNV、INDEL和SV。按类别划分的所有变异的数量、它们的次要等位基因频率(MAF)、大小分布和预测的影响显示在附加文件1中:图S9-S12(含)。对于每个变异类别,我们研究了每个家系中新生(de novo)变异(附加文件1:图S13)。确定了14个致病性/可能发病性(ACMG分类)新生(de novo)变异,包括FBN1中的一个次要发现(见下面)。将HPO术语整合到分析中,并有助于优先考虑与注释的患者表型相关的潜在疾病基因。平均而言,每个家系记录了4.7个HPO术语(范围1-24),其中'癫痫'是最常见的(附加文件1:图S14)。我们通常观察到,已解决的案例聚集了更多的HPO词。HPO谱的热图分析(附加文件1:图S15)表明不同疾病组之间存在重叠。例如,我们的超罕见病病例与神经学和肌肉骨骼(MSK)组一致,这可以通过以下事实来解释:该类别包含Fine-Lubinsky和Kapur-Toriello综合征患者,这些患者与MSK组中的颅缝早闭患者有一些共同特征。此外,热图还反映了血管、血液和免疫患者之间共有的临床特征。
虽然我们的大多数情况都是由蛋白质编码SNV解释的,但值得注意的是,SVs,剪接位点和深内含子变异迄今为止在WGS研究中尚未得到充分探索,共同贡献了我们解决的病例中的20/47(43%)。下面将更详细地介绍这些内容。
结构变异
结构候选变异占我们诊断率的4/43(9%)和我们考虑解决的病例的7/47(15%)(表1)。三个SVs导致两个新型疾病基因的鉴定。第一个是包含启动子的纯合3.9kb缺失在两个兄弟姐妹中鉴定出DHRS3的5UTR来自一个有颅骨的巴基斯坦近亲家庭骨愈合。编码脱氢的基因缺失脱氢酶/还原酶-3有望导致血浆中形态发生素全反式体水平的上升液相色谱法证实的维甲酸层析多级串联质谱。
发现另外两个颅缝早闭家族在第二个新的RD基因FOXD3的两侧具有杂合SV,这两个基因都在其特异性家族中与疾病分离。FOXD3编码一种对早期胚胎发育至关重要的先锋翼状螺旋转录因子(TF),因此是颅缝早闭的良好候选者。其中一个家族患有双冠颅缝早闭,在FOXD3下游有一个354kb的缺失,去除了拓扑关联结构域(TAD)边界。另一个具有多缝合颅缝早闭的家系在FOXD3上游有11.5kb的重复,该基因复制了一个高度保守的增强子元件,该元件先前显示与Foxd3相互作用并驱动鸡胚胎中的神经嵴表达。这种SV已通过在小鼠身上建模得到证实,小鼠也会出现颅缝早闭。
第四个SV导致一名患有Aicardi综合征的女性患者的临床诊断发生变化,这是一种罕见的先天性畸形综合征,几乎只见于女性,其特征是胼胝体发育不全、癫痫发作和脉络膜视网膜腔隙。尚未确定导致这种综合征的基因。在我们患者体内鉴定的X染色体上一段3kb的新生(de novo)缺失去除了ARX的第一个外显子。PCR和Sanger测序对这种缺失的价值被附近的重复序列和该区域的高GC内容所混淆,但反而被MLPA证实(图3A-C)。ARX的变异与多种X连锁智力障碍(XLID)综合征有关,包括XL无脑畸形、发育和癫痫性脑病1型(DEE1)和Partington综合征,反映了TF同源框基因家族的这一成员在控制胚胎早期发育过程中许多大脑结构形成的核心作用。根据我们的WGS结果,回顾了该患者的临床特征,由于她患有发育性和癫痫性脑病以及胼胝体发育不全,但没有Aicardi综合征典型的眼科特征,她的临床诊断更改为DEE1(OMIM#308350)。
图3
第五个SV导致WWOX外显子6-8的框内219kb缺失,导致180个氨基酸丢失,包括线粒体靶向序列。这个变异与c.705dup(p.His236fs)变异成反式,并为严重癫痫患者提供了诊断。这些复合杂合变异先前被报道为扩大与该基因相关的表型谱的病例系列的一部分。
另外两个SV代表更复杂的重排。通过先前的临床芯片检测,已在两名患有严重神经发育综合征和肌张力减退的兄弟中鉴定出Xp22.11-Xp21.3的633kb大重复。短读长WGS数据使我们能够确定这种重排的精确断点,此外还可以识别Xq27.1(Fig.3D)的第二个102kb重复。较大的重复包含PDK3、PCYT1B和POLR1A,而较小的重复不包含任何注释基因。尽管split读长对表明两个重复是相互关联的,但仅靠短读长数据无法确定两种可能的配置中哪一种是正确的(图3E)。然而,FISH数据与光学映射(一种正交技术)相结合(图3F-H)表明,633kb片段插入到102kb串联复制体内,位于SOX3下游约200kb处。据报道,SOX3下游的基因组研究会导致许多可变的疾病,包括下足腺痛和喉外展肌麻痹。因此,我们在这里假设了类似的位置效应,涉及长距离调节机制。
在一名遗传性上颌前突患者中发现了第二种复杂重排。该患者将1号染色体的5个片段插入染色体17q24.3,据推测,这会破坏接近KCNJ2/SOX9的TAD。这种重排是通过纳米孔长读长基因组测序进行的,并被归类为染色体合成的一个例子,揭示了这种罕见的颅面表型的新机制。
虽然原则上,这些SV中的四个(WWOX、两个FOXD3和DHRS3变异)可以通过芯片检测到,但在WGS转诊之前,它们没有被检测发现,因为它们没有被探针均一地覆盖,不符合临床实验室报告的阈值或存在于新基因中;因此,它们的重要性没有得到重视(表1)。我们注意到,对于两个复杂的SV,仅通过阵列检测会使它们的全部复杂性被忽视,事实上,对于其中之一,用于表征精确插入位点的WGS分析是招募的原因,因为已经确定了较大的重复片段。
所有SV均通过独立方法进行验证,包括PCR和Sanger测序、MLPA、SNP阵列、纳米孔长程测序和BioNano(表1)以及所需方法的范围强调了在常规临床环境中大规模进行这项工作的挑战。
剪接位点和深内含子变异
我们使用了三种不同的剪接算法来为我们对剪接位点变异的分析提供信息;SpliceAI、MaxEntScan和我们的新算法ALTSPLICE。我们首先通过使用先前发表的、手动确认的临床剪接变异和对照SNV集将ALTSPLICE的性能与SpliceAI的性能进行比较,对ALTSPLICE进行了鉴定。ALTSPLICE和SpliceAI的分数显示在附加文件3中:表S9。发现ALTSPLICE的精确召回曲线下面积为96.8%,SpliceAI为96.4%(附加文件1:图S17),验证了ALTSPLICE算法,即两者的性能总体上是相似的,即使它们是独立构建和训练的。
我们鉴定了16个剪接位点或深内含子变异(其中14个是独一无二的),如表2所示。剪接位点变异占我们确诊病例的12/43(28%),占我们已解决病例的13/47(28%)。另外三个剪接位点或深内含子变异,在两种情况下是意义不确定的变异。表2和附加文件1显示了这14种独特变异的不同剪接算法的分数比较:图S18。
第一个经典剪接位点变异,即CHRNE中的c.1032+1G>C变异,在一名在临床检测中遗漏的先天性肌无力患者中被发现。在WGS后回顾性回顾原始Sanger测序时可以观察到这一点,这表明在订购WGS之前回顾以前的检测结果可能是有用的。
小头畸形患者的第二个经典剪接位点变异是由于RTTN外显子20末端的3bp缺失引起的,该基因已知与这种情况相关。SpliceAI得分很高(0.91),强调了这些算法在识别由小INDEL创建的剪接位点变异方面的效用。
第三个经典剪接位点变异是新生(de novo)剪接供体变异(c.2345+1G>A),预测在已知的小头畸形相关基因WDFY3(OMIM#617520)中具有致病性,在产前扫描中观察到先天性脑异常(包括小脑)。这是对KIF5C中新生(de novo)错义p.Glu237Gly变异的补充(附加文件1:图S19),该基因中致病性杂合变异导致皮质发育不良并伴有其他脑畸形(CDCBM2,OMIM#615282)。SpliceAI和ALTSPLICE都预测了反向链上WDFY3中供体位点的丢失,并弱预测了供体增加,这将导致外显子跳跃,分别导致无义介导的衰变(NMD)或替代亚型。已知疾病基因中存在两个新发致病突变,这表明该患者可能具有混合表型,这可以解释患者微头畸形的严重程度(有关进一步讨论,请参阅附加文件2)。一项早期临床外显子组研究表明,高达5%的RD患者可能由于两个或多个单基因缺陷而具有表型,这一值在最近一项对7374例患者的WES数据的研究中得到了重复。我们无法在患者来源的细胞中确认这些WDFY3和KIF5C变异,因为原始样本来自终止妊娠,没有进一步的样本可用,但考虑到性腺嵌合体的可能性以及因此对生殖风险评估的影响,应考虑报告WDFY3中的其他变异。
在已知基因中鉴定出7个非经典剪接位点变异。第一个位于SLC34A1的经典剪接位点(c.1175-3C>A)之外,并通过小基因测定验证(附加文件1:图S20),它与第二个变异c.241dup(p.Glu81fs)一起证实了该患者肾钙质沉着症的诊断。SEC23B聚嘧啶束中的c.1512-16A>G变异降低剪接效率,导致外显子14跳跃。该变异是在一名最初被认为患有遗传性球形红细胞增多症(HS)的患者中发现的,但在该患者与HS相关的基因中未发现致病性变异。在该患者中还发现了SEC23B中的第二个致病性变异,c.40C>T(p.Arg14Trp)。SEC23B不是与HS相关的基因,但已知与隐性遗传病、先天性红细胞生成障碍性贫血(CDAII)有关,后者经常被误认为是HS。WGS发现需要使用电子显微镜对患者的血细胞进行广泛调查,以确认临床诊断为CDAII的变化。这凸显了在临床专业知识和成本方面对资源的需求,这可能是验证WGS结果所必需的,在临床环境中可能具有挑战性,需要研究支持。内含子c.1512-16A>G变异不会包含在用于常规临床测试的目标组合中。
第三个非典型剪接位点变异,c.135+26A>G,在一名患者的隐性基因ABCB4中发现患有遗传性胆汁淤积症,并通过minigene基因检测得到证实(minigene验证找百翼,小琴15527135357 微信同号)。第一个命中,c.2200G>T(p.Glu734*)无义突变(stop gain),已经被识别出来通过常规临床检测证实,但这是第二次打击WGS最终为此提供了遗传诊断年轻患者。
在VHL基因中鉴定了4个非经典剪接位点变异。虽然已知双等位基因VHL变异会导致先天性红细胞增多症,但这些患者所患的情况是,这些变异在内含子中太深(大于外显子/内含子边界100bp),无法通过常规检测或外显子组测序来发现。在其中3名患者中,已知的致病性变异p.Arg200Trp在WGS之前已被发现。WGS在3例患者中发现了相同的第二次命中,即c.340+770T>C的VHL变异,这导致剪接失调和隐蔽外显子的保留,并通过功能研究证实为致病性。VHL基因中的另一个深内含子纯合子变异,c.340+816A>C,在另一名先天性红细胞增多症患者中被鉴定出来,该患者也被证实是致病性的。
临床影响
我们的结果为该队列中RD患者的诊断提供了信息,此外还影响了治疗(见图2)。对临床诊断的影响对于6例患者,基因诊断导致临床诊断发生变化,从WGS鉴定出致病性变异。在发现ARX结构变异后,转诊为Aicardi综合征患者的诊断更改为DEE1(参见上面的SV部分)。2例转诊为FineLubinsky综合征,分别发现POR和SLC39A13致病性变异的患者,临床诊断分别改为Antley-Bixler和脊椎发育不良抽动性Ehlers-Danlos综合征。在鉴定出PAX2致病性变异后,两兄弟的临床诊断被转诊为家族性尤夫尼罗河高尿酸血症肾病,该诊断通过眼科检查得到证实。一个最初被诊断为Majeed综合征的家庭在识别出PSTPIP1变异时将其诊断更改为PAPA综合征,而另一个家庭在最初诊断为HS时接受了CDAII的修订临床诊断,进一步识别出SEC23B变异(参见“结果”部分)。
在其他情况下,在我们的WGS项目中发现时,鉴定的基因是新的,包括用于ILD的DOCK7和用于常染色体显性共济失调全血细胞减少综合征的SAMD9L;因此,它们不会被之前的检测所发现,并且可以首次为这些患者提供基因诊断。使用纳米孔长读测序对SAMD9L中的新生(de novo)变异进行分相。
讨论
自2010年以来,用于检测RD遗传决定因素的技术取得了重大进展,并且已经建立了许多患者及其家人的遗传诊断。WES现在被广泛使用,并为识别编码基因组中的变异提供了一种经济高效的方法。低覆盖率WGS被描述为微阵列的替代品,用于识别构成性CNVs,虽然这已被应用于人群基因组学研究,但低阅读深度意味着它不能用于稳健地识别罕见病患者的个体基因型。最近,标准覆盖的WGS为整个基因组的变异提供了一个无假设的询问平台,新的、改进的测序技术、生物信息学管道和算法以及疾病基因注释,再加上基因配对计划,提高了WGS测试的速度和效率。这为超越临床遗传学的经典疾病领域,如智力残疾和复杂的发育障碍,进入所有器官系统的未诊断疾病,包括代谢紊乱、免疫缺陷、血液学和心脏病,以及神经系统疾病提供了信心和一些成功,只要怀疑有遗传原因。
我们通过深入研究来自多个医学专业的大量转诊患有广泛RD的家庭来解决这一缺陷,避免了由于新发变异(如智力障碍)的负担而诊断率高的疾病领域。除了仔细审查编码基因组外,我们还开发并利用了一系列必要的工具来正确评估基因组周围相关变异的其他来源。
其中包括系统地搜索结构、剪接和非编码变异,期望这些工具能够揭示更多介导疾病的相关变异。新的应用程序来自其他组以及我们自己的组,大大增加了识别相关变异所需的工作量。通过应用这些工具,我们发现这组更广泛的变异有助于大大提高成功率,现在确诊率达到35%,如果考虑到根据当时可用的护理测试标准进行预筛选的队列中所有有因果关系证据的病例,则为39%。这证明了研究所有变异类型以最大限度地提高诊断率的重要性。尽管WGS不是实现这一目标的唯一方法,例如,一些CNV可以通过WES或芯片检测到,但我们的结果表明,即使回顾性调查这些病例,我们10/43(23%)的诊断鼻病例也不会被WES检测到或按照临床标准报告(表1和2以及附加文件3:表S7)。特别是,WES遗漏了许多结构变异和更深内含子区域中的变异。
从WGS数据中识别SV存在可考虑的挑战;高GC含量区域导致读取深度不均匀,而短测序读取难以唯一映射到基因组的高度重复区域。结合基于不同理论模型的算法有助于降低CNV的错误发现率,同时保持灵敏度。
在我们的研究中,SV占我们已知诊断的4/43(9%)和我们认为已经解决的病例的7/47(15%)。原则上,可以通过芯片检测到4个SV,但由于探针覆盖率不足,或者由于相关基因的新颖性,研究结果的意义不确定,因此无法通过标准检测进行鉴定。我们的分析明确筛选了太大而无法被小变异调用者调用和太小而无法被准确检测的缺失,并且该WGS分析揭示了上述ARX中的3kb缺失。在我们描述的7个SV中,3个SV涉及特定基因,2个涉及单个基因的侧翼区域,而2个是复杂的重排,包括一例染色体合成病例,为上颌前颌骨提供一种新的疾病机制。
结论
基因组测序在临床上越来越多地被用作为罕见病患者提供基因诊断的技术平台。然而,如果基因组的分析局限于基因面板或基因组的编码区,则可能会遗漏致病性结构、剪接位点和深内含子变异。如果要实现基因组测序的诊断潜力,应对全基因组序列进行全面分析。
广告
上海寻因生物推出WGS科研服务,专注于疑似遗传病但WES阴性案例,全面分析SNV、INDEL、CNV、SV、STR、LOH、mtDNA、transposon等,测序加分析3200元/每例,欢迎联系13761757010(微信同号)。