编辑推荐文章
Editor's Recommendation
速览
在DNA复制、转录、双链断裂损伤修复等生命过程中,双链DNA会暂时解旋形成单链DNA(ssDNA)。ssDNA可能影响基因组的稳定性,也可能参与构成非B型结构DNA,反过来调节和影响某些关键细胞和有机体过程。本综述简要介绍了单链DNA形成的原因、参与构成的结构及在细胞中可能产生的功能,并总结了部分单链DNA高通量分析技术,为后续单链DNA研究提供方法启示,促进单链DNA分析技术和方法的进一步发展。
【关键词】单链DNA;R环;G-四链体;高通量测序
【作者信息】第一作者:李锐奇,通讯作者:赖玮毅
真核生物中的DNA通常情况下以双螺旋结构存在,两条脱氧核苷酸链依据碱基互补配对原则通过氢键相连,构成稳定的B型双螺旋结构(两条互补的双螺旋链反向平行,以同一中心纵轴,从右向上盘旋)。但是在复制、转录以及在DNA修复等过程中,双链DNA可能暂时解旋变成两条单链DNA(ssDNA)。单链DNA与一些非B型结构有关,如R环(R-loop)、G-四链体(G-quadruplex)、H-DNA、滑链(Slipped- strand)、发卡结构(hairpin structure)、十字型结构(cruciform)等。细胞内的这些单链DNA及含有单链的非B型结构会调控许多重要的细胞过程,因此,细胞内ssDNA的高通量测序是了解ssDNA在基因组定位并开展功能研究的重要手段。
01
ssDNA可产生于正常生物过程。DNA复制、转录、修复等过程中dsDNA局部解链,若暂时形成的ssDNA存在特殊序列,则可能形成非B型结构,而产生相对稳定的ssDNA结构。如R环是在转录过程中新生RNA与模板DNA链结合形成的,从而取代了非模板DNA链,由这条被取代的单链DNA和一个RNA-DNA杂交体共同组成的局部三链结构(图1A),RNA-DNA杂交体结构往往比双链DNA更稳定,因而R-loop可稳定存在。G-四链体通常由富含串联重复的DNA序列折叠而成,G-四分体(G-quartet)是G-四链体(G-quadruplex)的基本结构单元,是由4个鸟嘌呤构成的平面正方形结构,每个鸟嘌呤与相邻的两个鸟嘌呤通过Hoogsteen氢键相互作用而连接(图1B)。Hoogsteen氢键是一种特殊类型的氢键,其碱基的相对位置、方向和碱基之间的特殊配对方式与常见的沃森-克里克配对氢键不同,通过非经典的方式连接碱基,有助于维持特定结构DNA的稳定性。多个G-四分体平面的堆叠就构成了G-四链体,介于其中的序列被挤压成单链环;同时,当G-四链体由dsDNA中一条链构成时,互补链无法与其配对而形成单链(图1B)。H-DNA是一种分子内三链体,第三条链由双链DNA分子的其中一条链中镜像重复序列旋转向内折叠,生成一个三链体结构,另一条链未配对,为单链DNA(图1C)。在H-DNA的三链体结构中,双链中的嘌呤通过绕糖苷键旋转和碱基翻转可以与第三链碱基形成Hoogsteen氢键,从而维持结构的稳定。当直接重复序列以错位的方式与互补链进行碱基配对时会形成滑链结构(图1D),在DNA解旋之后,可能产生发卡或环外碱基。反向重复序列可以形成发卡结构(图1E)和十字型结构(图1F)。在这种结构中,与对称中心等距的序列相互互补配对,从而形成一个链内发卡,使该结构中心的非重复序列突出形成单链环。单链DNA反向重复序列自身回折形成链内配对,即可形成发卡结构。类似地,双链DNA中的反向重复序列可能引发两个链内发卡,形成十字型结构。
图1. 细胞内含单链的DNA结构示意图:(A)R环;(B)G-四链体;(C)H-DNA;(D)滑链;(E)发卡结构;(F)十字型结构。
单链DNA在许多细胞过程中都会产生,而含有单链DNA的结构也会反过来影响某些重要的细胞生理过程,包括遗传信息的转录、DNA复制、同源重组修复、减数分裂等。
R环能在哺乳动物的转录激活和终止中发挥作用,在不同条件下形成的不同长度的R环有助于招募特定的染色质重塑因子调控转录,许多ncRNA也可能通过R环改变染色质状态来协助转录控制。当转录过程中R环积累时,可能通过 SSB1 介导的单链 DNA 识别,SOSS-INTAC发挥RNA核酸内切酶作用诱导启动子附近终止转录,从而防止R环积累诱导的基因组不稳定性。此外,转录时还可能会形成G-四链体结构,它在启动子区域或其附近既可能促进转录也可能抑制转录,若G-四链体基序位于模板链上,则阻断转录机制从而抑制转录。如果G-四链体基序位于非模板链上,则可防止转录模板退火到互补链以保持转录链的单链构象从而促进转录。转录过程产生的负超螺旋可能诱导H-DNA的形成,在某些情况下,新生的富含嘌呤的RNA与H-DNA结构中的单链DNA结合可以进一步稳定H-DNA的形成,当形成H-DNA时,它可能会抑制或阻断转录过程。发卡或十字型结构会影响DNA的螺旋状态,可能会促进或阻止DNA-蛋白质相互作用,从而影响转录过程。十字型的突出会减少DNA的局部超螺旋,而超螺旋密度的局部改变可影响启动子活性,因此启动子区域的十字型突出可能会降低其活性。
对于DNA复制,在复制的起始阶段,RNA会作为引物参与与模板DNA互补配对作为复制起点形成DNA:RNA杂交体,但由DNA复制产生的DNA:RNA杂交体长度较短,与较稳定的R环有一定的区别。G-四链体容易在DNA复制的滞后链中产生,当复制减慢时,G-四链体更容易形成,形成G-四链体后复制将不能继续,很可能需要解旋酶来解开G-四链体结构。除此之外,在真核细胞和原核细胞中同时进行的DNA复制和基因转录可能发生“冲突”,即当DNA复制与基因转录沿着相反方向进行时的相撞或沿着相同方向时的追尾,而在转录的过程中形成的R环可能影响DNA复制。由于R环对DNA复制叉具有阻挡作用,可能会引起DNA损伤,如DNA复制叉断裂、DNA双链断裂和单链DNA空缺(ssDNA gap)等。当出现这些DNA损伤时,一般会激活同源重组等修复机制及时对DNA损伤进行修复,避免发生基因突变等对基因组稳定性产生不良影响。R环可以激发同源重组,这类与基因转录相关联的同源重组(Transcription associated recombination,TAR)的出现可能使细胞避免转录引起基因组不稳定。在对酿酒酵母(S.cerevisiae)和秀丽隐杆线虫(C.elegans)的研究中发现,R环可以在减数分裂中形成,并对减数分裂复制和基因组稳定性产生负面影响,而THO和THSC/TREX-2,可以在减数分裂中防止R环的形成,对生物的生殖遗传起着重要作用。
除了对细胞生理过程产生影响,单链DNA容易受到核酸酶、化学试剂的攻击以及被不恰当的蛋白质结合,影响基因组稳定性。单链DNA也可能是特定致突变剂或酶作用的靶点,如AID/ APOBEC胞嘧啶脱氨酶,AID(活化诱导的脱氨酶)主要在B细胞中表达,主要功能是将单链DNA中的胞嘧啶(C)通过脱氨转化为尿嘧啶(U),并与APOBEC(催化mRNA编辑的多肽样载脂蛋白B)一起介导体细胞超突变和免疫球蛋白类别重组开关。ssDNA比dsDNA更容易受到诱变性的DNA损伤并产生突变,因此,需要充分保护单链DNA区域,以避免遗传信息的丢失。ssDNA在生成时通常会被单链DNA结合蛋白如复制蛋白A(Replication protein A, RPA)复合物迅速包裹。这样不仅可以防止ssDNA受到核酸酶降解的影响,还可以协调DNA损伤检查点反应和DNA修复的激活,同时RPA还能防止DNA二级结构的生成。然而,由于RPA与ssDNA的结合是动态的,RPA无法完全保护ssDNA的碱基免受化学损伤。Yen1/GEN1、SLX1/SLX4等核酸酶可识别并切割十字型结构,同时也被招募到含有重复序列的脆性位点进行切割,导致双链断裂及基因组不稳定。而滑链结构可能在DNA损伤修复过程中产生错配修复导致基因组的不稳定。
单链DNA还与许多人类疾病及癌症都有关系。人类c-MYC基因启动子上形成的H-DNA与c-MYC引发的白血病相关的一个断裂位点重合,人类PKD1基因中的H-DNA可能提高该基因突变率进而导致遗传性疾病常染色体显性遗传多囊肾病(Autosomal dominant polycystic kidney disease,ADPKD)的发生。CTG、GAA等重复序列的转录可能会导致R环的形成,并促进重复序列本身的不稳定,导致其扩增或收缩。而神经系统疾病如弗里德赖希共济失调(Friedreich ataxia, FRDA)、脆性X染色体综合征等与三核苷酸重复序列扩增的遗传不稳定有密切关系,所以R环可能是诱导这些神经系统疾病的潜在因素。细胞内R环的清除依赖于RNase H,它可特异性识别R环中的DNA-RNA杂交体,并切除其中的RNA链,当RNase H1的活性降低或RNase H1和RNase H2被敲除时,CAG等重复序列的不稳定性将增加,除了RNase H,R环也可由DNA-RNA解旋酶如AQR和 SETX负责解开DNA-RNA杂交体结构,SETX在两种神经退行性疾病中发生突变,与R环积累密切相关。
基因组不稳定和复制应激是肿瘤细胞的征兆标志,R环累积会导致基因组不稳定和复制应激,因此R环是癌症的潜在驱动因素。R环通过DNA双链断裂(Double strand break, DSB)修复基因BRCA1和BRCA2与癌症形成关联,当细胞敲除了BRCA1或BRCA2基因,R环累积和DSB会增加,而RNase H1的过表达可以部分地减少了这种情况。在R环失调时,一部分无法被分解的核R环被XPG处理,导致细胞质中DNA-RNA杂交体积累,这些杂交体随后被细胞质中的cGAS和TLR3识别,激活IRF3介导的免疫信号传导和细胞凋亡。Burkitt淋巴瘤是由MYC原癌基因和免疫球蛋白S区之间易位产生,小鼠中AID对于在富含GC碱基的S区和转录的Myc区产生DNA双链断裂很重要,而这一过程可能形成R环,所以R环可能是诱导Burkitt淋巴瘤产生的原因。
G-四链体与人类白血病有关。在一些白血病患者体内,Aven蛋白表达增加,MLL1和MLL4 是与白血病相关的两个重要基因,在mRNA的编码区内,Aven蛋白能够与RGG/RG区域的G-四链体结构结合,促进MLL1和MLL4表达,诱导白血病基因的转录。Aven蛋白的缺失导致MLL1和MLL4蛋白的合成减少,导致白血病细胞的增殖减少。G-四链体也与神经退行性疾病如肌萎缩侧索硬化症和额颞叶痴呆密切相关,G-四链体结构的形成将阻碍转录过程中RNA聚合酶Ⅱ的移动而使转录中止,这不仅会导致正常蛋白质产物的缺失,还会产生不完整转录片段,这些片段自身也能折叠成G-四链体结构,它们可能会阻碍RNA结合蛋白,导致核仁应激反应损伤细胞; 也可能会逃出细胞核并与核糖体复合物结合翻译成二肽重复蛋白破坏细胞。
02
2 ssDNA结构测序方法
在现有的单链DNA测序技术中,仅有部分方法可针对ssDNA结构进行测序,如ssDNA-seq、KAS-seq等,大部分方法都是对含有单链DNA的特定非B 型结构(主要是R环和G-四链体)进行测序和定位,如DRIP-seq、R-ChIP、MapR、SMRF-seq、G4-seq、G4 CUT&Tag、G4 ChIP-seq等。
2.1 ssDNA-seq
ssDNA-seq利用高锰酸钾(KMnO4)处理活细胞,KMnO4偏好氧化ssDNA胸腺嘧啶C5-C6双键,氧化产物无法与互补链重新互补配对,维持了胞内单链结构的稳定性,因此容易被绿豆核酸酶(Mung Bean Nuclease,一种单链特异性核酸酶)酶解,产生DNA断裂。随后,利用脱氧核苷酸末端转移酶(TdT)对断裂的DNA末端进行生物素(Biotin)标记。基因组DNA经超声片段化后,利用生物素-链霉亲和素相互作用对被标记的片段进行富集,最后进行高通量测序(图2)。这个方法的缺点是使用高锰酸钾氧化会对活细胞基因组造成损伤,还可能影响其他酶的活性。
图2. ssDNA-seq原理示意图。
2.2 KAS-seq
KAS-seq是一种基于叠氮基-乙氧二羟丁酮(N3-kethoxal)和鸟嘌呤在单链DNA中的快速和特异性反应的单链DNA高通量测序方法(图3)。N3-kethoxal能对单链DNA上的鸟嘌呤进行特异性标记,它可以在37 ℃下5 min内特异性地与活细胞中单链状态DNA中的鸟嘌呤反应,然后对N3-Kethoxal修饰之后进行生物素化(Biotinylation),之后利用生物素-链霉亲和素相互作用对被标记的单链DNA进行富集。N3-kethoxal修饰可在95 ℃下短时间去除,不影响PCR扩增,之后通过文库构建,进行高通量测序。由于N3-kethoxal具有与鸟嘌呤反应标记的特性以及生物素与链霉亲和素之间的高亲和力,KAS-seq能在较少的细胞样本保持高灵敏度,适用于研究极少量的细胞样本。
图3. KAS-seq原理示意图。
2.3 DRIP-seq
DRIP-seq(DNA:RNA hybrid immunoprecipitation and sequencing)是一种基于S9.6单克隆抗体特异性识别DNA:RNA杂交链的免疫共沉淀及高通量测序分析技术。DRIP-seq是应用最广泛的全基因组捕获R环的技术,利用S9.6单克隆抗体特异性识别DNA:RNA杂交体,对染色质片段进行免疫共沉淀进行捕获,然后对回收的含有DNA:RNA杂交体的R环片段进行建库测序。此方法还出现了提高分辨率、特异性或敏感性的方法改进:bisDRIP-seq通过结合DRIP和重亚硫酸盐足迹来识别R环相关的单链DNA;S1-DRIP-seq利用核酸酶S1去除R-loop中的非模板单链DNA,防止其在免疫共沉淀过程中重新退火成模板DNA。RDIP-seq通过RNase I进行预处理后再进行免疫共沉淀富集R环,RNase I可去除未形成二级结构的单链RNA,防止其形成双链RNA或与基因组DNA退火形成DNA:RNA杂交体与S9.6抗体结合。免疫共沉淀后用DNase I处理将RNA释放,然后反转录成cDNA再进行高通量测序(DRIPc-seq)。
S9.6抗体以不依赖序列的方式识别DNA:RNA杂交体,也会非特异性结合双链RNA,导致假阳性信号,因此基于S9.6抗体的方法存在局限性。
2.4 R-ChIP
R-ChIP是一种基于RNase H与染色质免疫沉淀(ChIP)来检测体内R-loop的方法。RNase H可以识别DNA:RNA杂交体并降解其中的RNA链,而限制或防止R环在细胞内积累。R-ChIP构建了带V5标签的RNase H1突变体(仍具有对DNA:RNA杂交体的识别能力但无RNA酶活性)表达载体,转入细胞中,通过药物选择获得能够稳定表达突变体蛋白的细胞。细胞表达的RNase H1突变体与DNA:RNA杂交体结合,随后将细胞核分离出来并通过超声片段化。利用V5标签进行染色质免疫共沉淀(ChIP),纯化回收DNA:RNA杂交体,最后建库测序。由于RNase H突变体能够特异性识别DNA:RNA杂交体,R-ChIP对R环的识别和捕捉具有很高的特异性。但是获得稳定表达RNase H突变体的细胞需要很长的时间,且需要控制RNase H1突变体的表达量,过高可能会影响细胞正常的生理过程,过低可能会有非突变的正常内源RNase H1与DNA:RNA杂交体结合影响R-ChIP效率,不适用于动物组织或原代细胞,因此在使用范围上受到一定的限制。
2.5 SMRF-seq
Single-Molecule R-loop Footprinting and sequencing(SMRF-seq)依赖于DNA在非变性条件下,重亚硫酸盐将R环结构中单链DNA未配对的胞嘧啶C转化为尿嘧啶U。经过位点特异性的PCR扩增和文库构建后,从被标记的单链扩增出的DNA序列含胞嘧啶到胸腺嘧啶(T)转换的位点,同时其两侧的DNA序列未被转换。这些位点就代表R-loop“足迹”。对PCR产物使用SMRT-seq,可以在高覆盖度下对单个R-loop足迹的集合进行测序分析。SMRF-seq处理效率高,而且能够在上千碱基长度的链上以单分子分辨率和很高的覆盖率对R环进行定位和测序。但是SMRF-seq法需要将DNA提取出来,在体外进行DNA片段化时,部分短而不稳定的R环可能被破坏,导致测得的R环含量偏低。
2.6 MapR
MapR是一种基于RNase H识别、微球菌核酸酶(Micrococcal Nuclease, MNase)酶切,同时结合CUT&RUN技术检测全基因组中R环的方法。细胞首先被固定和通透,在没有钙离子存在的情况下,无催化活性的RNase H(RH∆)与MNase的融合蛋白(RH∆-MNase)扩散到细胞核中,钙离子是核酸酶MNase激活必须的二价金属离子,此时MNase无活性,不会切割DNA。RH∆能够对含有R环的染色质片段进行结合,加入钙离子后,MNase在RH∆结合位点两端对核酸进行切割使与RH∆结合的片段得到释放,反应结束后加入钙离子螯合剂EGTA终止反应。最后,释放的核酸片段被回收纯化并进行高通量测序。MapR是一种不依赖抗体、适用于各种细胞类型、高效方便的R环测序方法,同时还可以对少量细胞样本R环进行有效的检测。该方法不能分辨DNA:RNA杂交体中的DNA是正链还是负链,无法提供单链的信息。
2.7 G4 ChIP-seq
G4 ChIP-seq是一种基于G-四链体特异性抗体BG4与染色质免疫沉淀(ChIP)来检测细胞内G-四链体的方法。首先分离细胞核,超声将染色质片段化后,利用核糖核酸酶A处理染色质以去除RNA G-四链体和DNA-RNA杂交G-四链体。随后,用G-四链体特异性抗体BG4进行免疫共沉淀,免疫沉淀的DNA通过逆转交联后进行洗脱纯化回收带有标记的DNA片段,之后进行PCR扩增然后建库测序。各个实验环节(如染色质片段化、以及免疫沉淀)可能会导致G-四链体完整性被破坏。
2.8 G4 CUT&Tag
结论与展望
ssDNA在生物体中广泛存在,并对于维持细胞的正常功能和遗传信息传递起着重要的作用,随着研究的深入,其重要性日益凸显。本文对细胞内ssDNA的类型、形成的原因、生物功能、与疾病的关系及其高通量分析技术进行了阐述。而受限于ssDNA高通量分析技术,ssDNA在基因组的分布、功能依然存在问题和挑战。准确分析ssDNA在基因组上的分布,对于了解高度动态的转录事件,DNA复制及修复和其他过程都至关重要。
今后的研究在方法学方面,可对以下方面进行改进和尝试:建立新的温和ssDNA标记法;减少DNA处理过程对ssDNA结构的破坏;提高方法分辨率。方法学的进步,也将进一步揭示上述多种ssDNA的生物功能,并帮助人们了解ssDNA在疾病中的作用。
推文篇幅有限,欢迎阅读原文,共飨学术
点击文末「阅读原文」,直达文献。