供稿:卢薇,武汉大学
校稿:胡秋霜,武汉大学
推送:胡秋霜,武汉大学
今天给大家分享的文献发表在Nucleic Acids Researchs上,标题为DNA-binding proteins from MBD through ZF to BEN : recognition of cytosine methylation status by one arginine with two conformations,通讯作者是德克萨斯大学安德森癌症中心的程晓东教授。
DNA中的CpG二核苷酸的胞嘧啶甲基化(5mC)是最常见的表观遗传修饰之一,与基因表达调控、遗传信息传递以及基因印记等生物学过程紧密相连,也与人类疾病息息相关。CpA甲基化,特指在非CpG位点(尤其是CpA二核苷酸位点)上发生的胞嘧啶甲基化现象,其在非干细胞中的分布比例相对较低,然而,在胚胎干细胞中却占据了相当显著的比例,提示可能在生物体的发育调控中发挥着独特而重要的作用。CpG甲基化和CpA通过C-T突变联系起来。C-T突变是体细胞突变中最常见的类型之一,特别是在CpG位点上频繁发生,这种突变与DNA的甲基化状态密切相关。
本研究聚焦于三种DNA结合蛋白家族——MBD蛋白、C2H2锌指蛋白和BEN结构域蛋白,分析它们对DNA上的C、5mC和T的识别机制。这些蛋白通过精氨酸(Arg)残基与G的相互作用,并根据Arg侧链的不同构象来识别和区分5mC和未甲基化的C。
图1详细说明了DNA甲基化过程中的关键步骤和分子机制。胞嘧啶甲基化模式de novo和维护性DNA甲基化在CpG二核苷酸的过程:胞嘧啶甲基转移酶(DNMT3A、DNMT3B)在生殖细胞中与效应蛋白DNMT3L一起,以及在体细胞中与DNMT3B3一起,建立初始的de novo。DNMT1在DNA复制过程中确保基因组甲基化模式正确遗传,通过与DNA复制复合体的滑动夹子(Proliferating Cell Nuclear Antigen,PCNA)相互作用,以及与富含U的DNA结合因子1(UHRF1)协同,帮助DNMT1定位到半甲基化的CpG位点(图1A)。山中因子(Yamanaka factors)识别含有CpA/TpG序列的过程:5mC因自发脱氨转变为T,同时保留C5甲基基团,5mCpG-TpG的转变导致相反链上的CpG-CpA转变,从而引发遗传序列转换,并且DNMT3A也在CpA甲基化中具有活性(图1B)。Arg密码子上的甲基化(5mCpG)的脱氨产物会造成两种可能的T:G错配,若此类错配未能得到及时有效的修复,DNA复制会将CpG二核苷酸转变为CpA/TpG,伴随着编码变化(图1C)。
图1 CpG与CpA甲基化以及C-T突变的关系
甲基化CpG结合蛋白2(MeCP2)的MBD结构域通过两个精氨酸残基对称地识别两个5mC上的甲基,其中Arg通过其两个末端氮原子与G形成氢键,这种相互作用称为“直面”构象(图2A)。5-羟甲基胞嘧啶(5hmC)是5mC的氧化产物,MeCP2的Arg111形成了一个“甲基-精氨酸-鸟嘌呤三联体”,与TpG相互作用,而另一个Arg133则发生构象变化,以适应5hmC的存在(图2B)。与MeCP2一样,MBD4的MBD结构域同样也利用精氨酸残基通过直面构象与DNA上的甲基化位点相互作用,MBD4的Arg106不仅参与了与5mC相邻的G的氢键形成,还与T : G错配中的T形成了额外的氢键,这可能有助于保护DNA免受甲基化介导的脱氨损伤(图2C-2E)。
图2 MBD蛋白家族识别DNA上的两个甲基化位点
C2H2锌指蛋白含有锌指结构域。CTCF(一种C2H2锌指蛋白)在其识别序列中的两个保守的胞嘧啶位置(2-3位或12-13位)上显示出不同的亲和力,这与DNA甲基化状态有关(图3B)。CTCF的锌指结构域中的天冬氨酸(Asp)识别未甲基化的C,而谷氨酸(Glu)则可以识别甲基化或未甲基化的C。在2-3位CTCF可以结合未甲基化的CpG/CpG、半甲基化的CpG/5mCpG和C、未甲基化的CpA/TpG,在12-13位CTCF可以识别所有六种可能性(图3C、3D)。与 CTCF 类似,KLF4(一种锌指转录因子)的共识结合序列也包含可被甲基化的CpG 或一条链上固有甲基化的TpG,KLF4利用Arg和Glu对来识别不同的DNA甲基化状态(图3E-3H)。小鼠KLF4蛋白中D446变体中天冬氨酸(Asp,D446)的侧链形成了与未修饰胞嘧啶的氢键,由于这种氢键的形成,D446变体的KLF4蛋白更倾向于结合未修饰的CpG位点(图3I)。
图3 C2H2锌指蛋白识别甲基化和未甲基化的CpG及CpA位点
BEN结构域蛋白是存在于多种生物中的DNA结合蛋白,包括从植物和哺乳动物。人类基因组编码至少九种BEN蛋白,包括BANP、BEND2-7、NACC1和NACC2,它们在结构和功能上具有多样性(图4A)。这些蛋白通过其BEN结构域与特定的DNA序列元件结合,如CGCG或CACG,这些元件通常位于CpG岛内,对于基因表达调控至关重要。BEN蛋白通过识别这些元件来调节基因表达,保护CpG位点免受甲基化的影响,从而维持基因的活性状态(图4B)。例如,BANP蛋白结合CGCG元件调节干细胞和神经元细胞中的重要代谢基因,而BEND3的第四BEN结构域(BEN4)则结合CACG元件(图4C),图4D总结了这些BEN蛋白的DNA结合特异性和亲和力。
图4 BEN结构域蛋白
BANP蛋白中的Arg316利用一个末端氮(Nη2)和一个内部氮(Nε)与G形成双交氢键,这种与MBD蛋白“直面”构象不同的Arg-G相互作用称为“斜面”构象(图5A、5B)。BANP蛋白能识别并结合含有5mC的CGCG双链,其中5mC位于外C1和C4位置,但其亲和力可能受到甲基化状态的影响(图5C)。模型预测5mC位于C3位置时,将与BANP中的Arg316产生排斥力,这种排斥力是由于5mC的甲基基团与Arg316的侧链之间的空间冲突,导致BANP蛋白更倾向于结合未甲基化的DNA(图5D)。BEND3蛋白中的Arg810与CGTG/CACG双链中的G2采用了“斜面”构象形成相互作用,C1位置甲基化时(5'至G2)会阻止BEND3与靶DNA结合,这是因为在没有蛋白质构象变化的情况下5mC在C1位置引入一个直接的排斥力,作用于Arg810与甲基基团之间,导致空间冲突,从而阻止BEND3蛋白结合甲基化DNA(图5E、5F)。
接着是BEND6蛋白,ITC测定的体外结合亲和力表明,BEND6对CGCG的胞嘧啶半甲基化不敏感(图4D、5I)。根据CGCG处全甲基化的模型预测,Arg254可在C1处容纳5mC,形成5mC1-Arg-G2相互作用(图5J)。果蝇不敏感的BEN结构域蛋白与常见的哺乳动物BEN蛋白中Arg介导的识别机制不同,是通过赖氨酸(Lys)残基与TpG中的T形成特定的相互作用识别并结合含有5mC的DNA序列(图5K)。致癌转录因子MYX-MAX复合物通过MAX的Arg36与中央CpG位点的未修饰C形成特殊的弯曲构象,这种构象允许MAX蛋白特异性识别未甲基化的C,而在CpG处引入5mC会导致MAX的Arg36排斥(图5L)。
图5 BEN结构域蛋白与DNA的相互作用和识别模式
MBD结构域的MeCP2和ZF结构域的ZFP57中,Arg残基采用“直面”构象,能够容纳(5mC/T)pG二核苷酸中的甲基基团(图6A、6B)。而在BEN结构域的BEND3中,Arg残基采用“斜面”构象,可能会与5mC的甲基基团发生冲突,导致对未甲基化序列的偏好性结合(图6C)。这种差异反映了不同蛋白结构域对DNA甲基化状态的敏感性和特异性。
图6 MBD、ZF和BEN三个结构域与DNA的相互作用
综上所述,文章讨论了MBD、ZF和BEN蛋白如何共同利用精氨酸残基来识别甲基化和未甲基化的CpG二核苷酸,并且这种识别是通过精氨酸侧链的不同构象来实现的。
文章编号:452
原文链接:
https://doi.org/10.1093/nar/gkae832原文引用: