文章来源:中华神经科杂志, 2024, 57(5): 413-418.
作者:甘世锐 杨康 陈万金 王柠
摘要
近年来,遗传学领域对非编码区的关注逐渐升温,这一被视为基因组“暗物质”的领域正逐渐被揭开其神秘的面纱,并日渐成为基因诊断及治疗的“沃土”。文中聚焦非编码区相关的各种诊断分析及干预技术,及其在神经系统单基因病和多基因病中的发病机制、诊断及治疗中的应用,旨在为神经系统遗传病的研究提供更全面的视角。
基因在结构上分为编码区(coding region)和非编码区(non-coding region)。在遗传学领域,基因编码区的重要性众所周知。然而,近年来研究者们对非编码区的关注日渐升温。非编码区是指基因组中不包含编码蛋白质所需信息的区域。在人类基因组中,约有98%的DNA属于非编码区。这些区域曾被视为基因组的“暗物质”“垃圾DNA”,但随着研究深入,人们逐渐认识到非编码区在基因表达和调控、RNA合成、染色体结构、基因组稳定性、进化等方面扮演着关键的角色。随着基因诊断及治疗技术的飞速发展,非编码区在神经系统单基因病及多基因病的发病机制、诊断及治疗中起到愈发重要的作用。
一、揭秘基因组的“暗物质”:解读非编码区的结构和生物学功能
非编码区序列可以分为基因内序列和基因外序列 [ 1 ] 。基因内序列是指处在基因区内且与蛋白质编码密切相关却不直接编码蛋白质的序列。其主要包括内含子、5′非翻译区(5′UTR)和3′非翻译区(3′UTR)、顺式调控元件、RNA基因和重复序列等。其中内含子、5′UTR和3′UTR是结构基因的一部分,与编码区一同被转录;而顺式调控元件通常位于结构基因附近,通过与转录因子结合来调控基因的表达,包括启动子、增强子和终止子等。RNA基因则可转录出具有明确功能的RNA分子,如rRNA和tRNA。此外,绝大部分非编码序列以重复序列的形式存在。基因外序列是染色体上分布的不编码基因的序列,处在基因间区,包括间隔区、假基因和转座元件等。这些基因外序列同样在调控基因表达和维持基因组稳定性上起着重要作用 [ 2 ] 。真核生物基因结构的简要示意图见 图1 。
图1 真核生物基因结构示意图(作者原创)
Figure 1 Schematic diagram of the gene structure in eukaryotes (original by authors)
在过去,重复序列被视为基因组中的“垃圾DNA” [ 3 ] 。然而,随着研究的深入,人们发现重复序列包含着丰富的遗传信息,是基因调控网络的重要组成部分 [ 4 ] 。根据在基因组中的分布情况,重复序列可分为散布重复序列及串联重复序列。散布重复序列又包括短散布核元件、长散布核元件、长末端重复序列和DNA转座子。串联重复序列通常分为微卫星序列[1~9 bp,也称为短串联重复序列(short tandem repeats,STRs)]、小卫星序列(10~99 bp,也称为数量可变的串联重复序列)和卫星序列(长度≥100 bp)。其中,STRs已被广泛应用于遗传连锁分析和法医学研究中,而近年来研究发现其与多种神经系统遗传病也密切相关,包括共济失调、神经元核内包涵体病(neuronal intranuclear inclusion disease,NIID)、肌萎缩侧索硬化(amyotrophic lateral sclerosis,ALS)、阿尔茨海默病(Alzheimer′s disease,AD)、眼咽远端型肌病(oculopharyngodistal myopathy,OPDM)、伴泛素阳性自噬镶边空泡性肌病(myopathy with rimmed ubiquitin-positive autophagic vacuolation)等 [ 5 , 6 , 7 ] 。
二、非编码区变异的检测在神经系统单基因遗传病的新基因鉴定及诊断中的应用
(一)非编码区变异的检测技术
随着测序技术的蓬勃发展,全外显子测序(whole exome sequencing,WES)已成为检测遗传性疾病的主要手段。然而,WES技术无法覆盖非编码区序列中的各种突变及结构变异 [ 8 , 9 , 10 ] 。为了更全面地了解DNA非编码区的变异,全基因组测序(whole genome sequencing,WGS)应运而生。它能够准确检测非编码区的点突变、结构变异和拷贝数变异,从而成为揭示非编码区变异的璀璨之星。而近年来涌现的以纳米孔单分子测序技术为代表的三代长读长测序技术虽然有着单次读长的错误率偏高及价格昂贵等缺点,但其相较于二代测序技术(WES、WGS)具有平均读长长、文库构建时间短、可检测核酸分子的表观遗传修饰等优点,为研究者发现非编码区动态突变及大片段结构变异提供了一个强有力的武器 [ 11 , 12 ] 。然而,由于难以预测或确定非编码区变异对蛋白质结构及功能的影响,研究和解释上述技术发现的非编码区未注释变异仍面临众多挑战。而通过转录组测序(RNA sequencing,RNA-seq)及染色体构象捕获技术可对DNA非编码区变异进行致病性评估。各种非编码区变异检测技术的优缺点见 表1 。
(二)非编码区变异检测在神经系统单基因遗传病的新基因鉴定中的应用
神经系统单基因遗传病是由单一基因突变引起的神经系统疾病,这些突变可能会影响神经元的结构、功能或代谢,从而导致神经系统的异常。早在1991年,脆性X染色体综合征被发现是由X染色体上的 FMR1基因的5′UTR CGG重复序列异常扩增所致。这是首个被确定与重复序列动态突变相关的疾病 [ 13 ] 。随后,研究者报告了一系列由非编码区的重复序列动态突变而导致的疾病,如 DMPK基因的3′UTR CTG异常扩增导致的强直性肌营养不良、 FXN基因的内含子区GAA异常扩增导致的弗里德赖希共济失调(Friedreich′s ataxia,FRDA)、 CSTB基因的启动子区CCCCGCCCCGCG异常扩增导致的进行性肌阵挛癫痫1型,以及 C9ORF72基因的5′UTR及内含子区GGGGCC异常扩增导致的额颞叶痴呆/ALS [ 14 , 15 , 16 , 17 ] 。
由于第一代和第二代测序技术的限制,发现新的非编码区致病基因变得越来越困难。然而,随着第三代测序技术的发展,尤其是长读长测序技术的应用,不断有新的非编码区致病突变被鉴定,从而明确了一系列新的神经系统单基因遗传病,如伴神经病变和前庭反射消失的小脑性共济失调综合征(cerebellar ataxia with neuropathy and bilateral vestibular areflexia syndrome,CANVAS)、NIID、脊髓小脑性共济失调(spinocerebellar ataxia,SCA)27B型(SCA27B) [ 18 , 19 , 20 ] 。在此浪潮下,我国学者相继报道了位于非编码区的多种重复序列异常扩增可导致NIID、OPDM及家族性皮质肌阵挛性震颤伴癫痫等疾病 [ 21 , 22 , 23 ] 。此外,福建医科大学附属第一医院罕见病研究团队在2022年联合应用遗传连锁分析与三代长读长测序发现 RILPL1基因启动子区GGC重复序列发生异常扩增,由此确定OPDM的新致病基因 [ 24 ] 。该团队还通过纳米孔长读长测序,在早发小脑性共济失调的家系中,发现了 FGF14基因深部内含子双等位基因GAA动态突变,扩展了 FGF14-GAA相关共济失调的临床表型谱 [ 25 ] 。因此,在迭代更新的测序技术推动下,非编码区这一基因组的“暗物质”在神经系统遗传病的新基因鉴定上愈发重要。
(三)非编码区变异检测在神经系统单基因遗传病诊断中的应用
随着越来越多非编码区变异相关的疾病被明确,在对神经系统遗传病患者进行基因诊断时,尤其是在传统编码区变异检测结果阴性的情况下,需要特别重视非编码区变异的检测 [ 26 ] 。检测的技术主要包括短读长、长读长全基因组测序,重点关注的编码区变异包括:拷贝数变异、复杂的结构变异(如倒位、易位)、异常插入事件(转座子、线粒体基因组、假外显子、逆转录病毒序列)、内含子变异、非编码RNA变异、串联重复变异,甚至基因间区的变异 [ 27 ] 。如对SCA患者进行基因诊断时,当编码区的常见动态突变检测(如SCA1、SCA2、SCA3、SCA6、SCA7及SCA17等)及全外显子测序均为阴性时,需进一步筛查SCA8、SCA10、SCA31、SCA36、SCA37、FRDA、CANVAS及脆性X染色体相关震颤/共济失调综合征等疾病的非编码区重复序列动态突变。
三、非编码区的基因治疗在神经系统单基因遗传病中的应用
非编码区变异的基因治疗指通过病毒载体或非病毒载体(包括脂质体纳米颗粒和多聚物两种类型)导入针对致病基因的野生型目的基因,而后通过干扰剪接或诱导非编码区定点突变,以恢复目的基因的正常表达,从而达到缓解或者治愈疾病的目的 [ 28 ] 。尽管基因治疗的有效性已得到证实,但仍需克服致癌倾向、易诱导急性免疫反应以及脱靶现象等一系列缺点 [ 28 , 29 , 30 ] 。针对非编码区变异的基因治疗目前主要包括修正剪接以及基因编辑两种。
其中,修正剪接是一种通过运用靶向剪接修饰剂来改变前体RNA的剪接过程,纠正剪接缺陷,从而提高目的蛋白水平的技术 [ 31 ] 。反义寡核苷酸(antisense oligonucleotides,ASOs)作为修正剪接疗法的代表已上市,但需重复腰椎穿刺给药,成为其临床应用的短板 [ 32 ] 。克服该短板需要开发出半衰期长、能穿越血脑屏障的靶向剪接修饰剂。在众多ASOs药物中,因“灵魂砍价”而备受瞩目的ASOs药物诺西那生钠(Spinraza,nusinersen),是全球首个针对脊髓性肌萎缩症(spinal muscular atrophy,SMA)的精准靶向药物。该药物可通过修正剪接而重新编码有功能性的SMN蛋白,从而改善运动功能、提高生存率,并改变SMA的疾病进程。尽管ASOs仍存在着一些不足,但该药的成功上市定可不断推动各种针对神经系统单基因病的修正剪接治疗方法问世。
针对非编码区的基因编辑则是通过对非编码区进行定向编辑,以实现特定碱基或DNA片段的插入、删除及替换等,从而改变目的基因的表达或功能。在众多基因编辑技术中,以CRISPR/Cas9技术应用最为广泛,已在临床应用中改善多种疾病的症状 [ 33 , 34 , 35 ] 。在神经系统疾病中,利用CRISPR/Cas9技术对SMA的 SMN2基因7号内含子的剪接沉默子进行破坏后,通过改变该基因的剪接模式来提高SMN全长蛋白的表达水平,从而显著改善SMA小鼠表型及提高小鼠寿命 [ 36 ] 。单碱基编辑系统是基于CRISPR/Cas系统改造的一种新型基因编辑技术,可在不引起DNA双链断裂的情况下,精确地将一个碱基替换为另一个碱基。该系统包括胞嘧啶碱基编辑器、腺嘌呤碱基编辑器(adenine base editor,ABE)、鸟嘌呤编辑器和先导编辑器(prime editor,PE)。使用ABE对 SMN2基因7号外显子的剪接沉默子进行编辑后,同样可以显著提高SMA小鼠的寿命,从而实现了针对SMA的更为精准的基因编辑治疗 [ 37 ] 。而应用ABE及PE可分别修饰抗肌萎缩蛋白基因的剪接供体位点及开发阅读框,从而导致人诱导多能干细胞来源的心肌细胞发生第51外显子跳跃,最终恢复抗肌萎缩蛋白的表达来治疗Duchenne肌营养不良 [ 38 ] 。
四、非编码区在神经系统多基因遗传病的发病机制及治疗中的应用
神经系统多基因病是一类涉及多个基因位点的变异或者相互作用,从而导致神经系统结构或功能异常的疾病,如AD、帕金森病、ALS及癫痫等。由于这些疾病的病因和发病机制尚未完全阐明,给诊断和治疗带来了巨大的挑战。近期研究发现,非编码区的变异或者异常表达,可能导致基因组的稳定性、可塑性和适应性发生改变,从而影响神经系统的发育、分化、突触形成、信号传导等过程,进而引起神经系统多基因病的发生。因此,非编码区在揭示神经系统多基因病的分子机制和寻找新的治疗靶点上同样具有重要意义。
(一)鉴定非编码区变异的致病性相关技术
尽管前述测序技术揭开了非编码区变异的神秘面纱,但要理解这些变异对蛋白质结构及功能的影响仍颇具挑战性。为解决这一问题,一系列新技术如雨后春笋般涌现,包括RNA-seq、高通量染色体三维构象捕获(high-throughput chromosome conformation capture,Hi-C)技术、染色质免疫沉淀(chromatin immunoprecipitation,ChIP)以及染色质免疫沉淀测序(chromatin immunoprecipitation sequencing,ChIP-seq)等。有研究发现,9%~30%的非编码区变异会通过影响mRNA的加工和表达而导致疾病的发生 [ 39 ] 。RNA-seq技术可揭示生物体内RNA的序列及数量,有助于发现mRNA异常剪接变异 [ 40 ] ;Hi-C技术则可检测全基因组范围内基因座的互作,从而鉴定WGS检测到的非编码区未注释变异的致病性 [ 41 ] ;而ChIP及ChIP-seq技术可鉴定和定性识别调节因子结合对基因表达的影响,还可以检测某种基因类型的调控行为,如转录因子结合到基因组中的位点,从而深入研究非编码区的表达调控和功能。
(二)非编码区在神经系统多基因遗传病风险基因评估及发病机制中的应用
全基因组关联研究发现了许多位于非编码区的AD相关风险位点,而应用ChIP及ChIP-seq等技术可鉴定这些位点所在区域的基因调控功能并定性识别调节因子与这些区域的结合对基因表达的影响。在帕金森病中,位于非编码区远端增强子元件中的单核苷酸多态性可调控α-突触核蛋白的表达从而导致疾病的发生 [ 42 ] 。而在癫痫中,通过Hi-C等染色体构象捕获技术,可以检测到拷贝数变异和结构变异通过改变染色质的三维构象而间接影响增强子的功能,导致基因调控功能的丧失。尽管这些技术及手段存在精准度有限、价格昂贵等缺点,但在揭示非编码区相关表观遗传及功能调控机制上具有重大价值,从而为神经系统多基因病的发病机制及风险评估提供了新的视角。然而这些多基因疾病通常具有复杂的遗传模式和多种致病机制,涉及多个基因和信号通路,因此数据量庞大,分析复杂,需要高性能的计算平台和专业的生物信息学软件,更需要同临床表型相结合,避免过度解读或误导。
(三)非编码区在神经系统多基因遗传病治疗领域中的应用
在AD及ALS等神经系统多基因病的治疗领域中,针对非编码区的治疗方法在近年来也取得了长足的进步。目前较为成熟的治疗方法主要为修正剪接疗法中的ASOs。例如,Ⅰ期临床试验结果显示ASOs药物在AD患者中表现出良好的安全性和耐受性,且可剂量依赖性地降低轻度AD患者脑脊液中的tau蛋白水平 [ 43 ] 。而在ALS的治疗中,对靶向 C9orf72基因非编码区的ASOs(BIIB078)也已在Ⅰ期临床试验中进行了评估 [ 44 ] 。尽管该药物同样具有良好的耐受性,但因未达到主要及次要终点,临床试验已经终止。虽然这些药物具有一定的安全性及有效性,但鞘内或脑室内给药会增加感染、出血、水肿等并发症的风险。因此,需要更多的研究来进一步了解这些治疗方法的安全性和有效性。此外,因研发成本高导致的价格昂贵,也在一定程度上限制了ASOs的推广与使用。
随着CRISPR/Cas9技术的发展及成熟,该技术的应用在神经系统多基因遗传病的治疗领域开辟了一条基于DNA水平修饰的新治疗途径。以传统的CRISPR/Cas9复合体为基础,开发出了Cas9酶失活的改良版(dCas9) [ 45 , 46 ] 。这种dCas9系统可与转录激活剂融合从而增加基因的表达,被称为CRISPR介导的激活(CRISPRa)。在癫痫小鼠模型中,已有研究通过用CRISPRa靶向长非编码RNA或癫痫相关 SCN1A基因、 KCNA1基因的启动子区域,使其表达增加,并恢复了功能失调的神经元兴奋性,改善了小鼠模型的癫痫发作频率和认知功能障碍 [ 47 , 48 ] 。
当我们逐渐深入研究基因组非编码区时,我们发现这片看似暗淡的基因组“暗物质”实际上在神经系统遗传病的诊断及治疗上蕴含着巨大的潜力。在未来,针对非编码区,我们需不断努力开发出更精确、快速、可靠的诊断工具,以及更高效、安全、经济的治疗方法,最终造福更多的神经系统遗传病患者。
参考文献略