清华颉伟!表观遗传的遗传与重编程!

学术   2024-09-19 09:00   上海  

本文根据Epigenetics表观遗传学公众号的推文(ID:Epiview)缩减。最终来源是 2016 年 8 月清华大学颉伟研究员在复旦大学「表观基因组学暑期国际讲习班」中的报告,文中的“我”指颉伟研究员。报告视频详见:系列视频5 | 清华颉伟:表观遗传的遗传与重编程,视频全长约 2h30min,文字约 2 万字(不含提问)。

颉伟研究员的兴趣包括表观遗传学,基因组学和发育生物学。同时利用分子生物学、发育生物学和计算生物学的方法,采用干湿实验结合的方式,研究干细胞分化和个体发育以及人类疾病中的表观遗传调控机制。实验室将致力于:(1)动物胚胎早期发育过程中的表观遗传调控;(2)干细胞分化过程中的表观遗传调控;(3)调控序列如启动子、增强子、绝缘子以及三维基因组在发育和细胞命运决定过程中的功能;(4)表观遗传相关人类疾病的调控机理。

以下为正文:(颉伟念 Xie Wei,"愿君多采撷"的"撷"去掉提手旁就是这个字)。

Part 1: 表观遗传信息从何而来?从遗传学说起

Epigenetic Inheritance and Reprogramming,这其实是表观遗传的两个重要特征。我们先看看 epigenetic inheritance,先从 genetic inheritance 开始。

Genetics 具有很强的 power。龙生龙,凤生凤,老鼠生来会打洞。基因组决定了我们是人,表观基因组决定了我们是不同的人!最好的例子就是同卵双胞胎或多胞胎。

是否存在 science 基因呢?举一个例子,Kornberg 家族是很有名的科学家家族。其中一个叫 Roger Kornberg,是 2006 年诺贝尔奖化学奖获得者,发现了核小体是 DNA 包装的基本单元;还解析了 RNA 聚合酶 II 的结构!他的父亲 Arthur Kornberg,是 1959 年诺贝尔生理学或医学奖获得者,发现了 DNA 聚合酶 I 。他的兄弟 Tom Kornberg,是 UCSF 的教授,发现了 DNA 聚合酶 II 和 III。Kornberg 家族基本上把转录和复制领域的关键酶都找出来了。这里面有没有 inheritance,有没有可能存在 science 基因? 

为了让自己的后代更杰出,做这些有用吗?到现在为止仍然不是很清楚,does it work?这些都是 open questions。 表观遗传可能在其中有比较重要的作用!那么, epigenetic information 从哪里来的呢?又是怎么遗传的呢?有时 epigenetics 跟 genetics 不一样的地方,它可以被 reprogrammed?它是可以变的,一方面它不变(inherited),一方面它又可以变(reprogrammed),这是 epigenetics 非常重要的两个特性。  

80 年代经典的双雄/雌原核实验。这是一个很经典的例子。在 80 年代的时候就发现,精卵结合形成受精卵,在受精卵中把雄原核/雌原核拿掉,换成另外一方,放两个雄原核或两个雌原核,胚胎是发育不下去的。只有一个雄原核和一个雌原核才能发育下去,这说明除了 DNA 以外,一定有一些信息可以代表父亲或者母亲,它们知道基因组是从哪里来的。 

果蝇中细胞可以记住 Hox 基因的表达状态。之前遗传学的研究发现在果蝇中有一类对发育重要的基因,叫 Hox 基因,这些基因跟体节的发育相关。在胚胎发育过程中,果蝇存在很多体节。对 Hox 基因来说,在有些体节中表达,有些中不表达。一开始,这种表达或不表达是由转录因子来调控的;但有意思的是,当胚胎发育到后期时,转录因子已经不在了,原来不表达Hox 基因的细胞 derived 来的后代,这些基因仍然不表达;表达那些 Hox 基因的细胞 derived 来的细胞,仍然表达。细胞记住了那些基因表达还是不表达,而且是在没有最开始的那些转录因子的情况下。这个实验当时是做了一个 lacZ 的 reporter,Ubx 是 Hox 基因的启动子,它在这里 drive,这样我们就可以清晰地看到它在那些细胞里表达哪些里面不表达。 

对蜜蜂而言,饮食改变命运。蜜蜂是有分工的:有些是蜂后,每天在家吃好吃的,休息,生蜜蜂;另外,还有一类叫工蜂,每天要出去采蜜。它们的形态和社会分工非常不一样,就像两个物种似的。但是它们出生的时候是一样的,出生后并不知道未来是要变成工蜂还是蜂后。到底是什么决定了它们的命运呢?蜂王浆(royal jelly)!如果能吃到蜂王浆,就变成蜂后;吃不到就变成工蜂。这个例子中,遗传物质基本上是一致的,后天的环境、食物、营养不同,对它造成了非常显著的表型的差别。对于蜜蜂来说,all bees are born equal, but after that, it depends on how they are fed.

DNA 甲基化作为细菌的防御系统。既往研究已证明,表观遗传信息很多是化学修饰,包括 DNA 甲基化和组蛋白修饰DNA 甲基化最早在细菌里作为防御系统出现。细菌经常受到噬菌体的侵扰,它需要有一套机制来抵御入侵的噬菌体,它就进化出很多限制性内切酶,一旦噬菌体进来,就可以把它基因组切碎了,有点像 CRISPR。但是,这个酶可以切噬菌体的基因组,理论上也可以切自己的基因组。作为防御机制,把自己的 DNA 用甲基化标记出来,来告诉这个酶,这是我自己的 DNA,不能切。

启动子区域 DNA 甲基化的沉默作用。后来伴随着进化的过程,DNA 甲基化有了新功能,包括基因沉默。一般来说,启动子区域被甲基化,这个基因大部分时候是沉默的。为什么被启动子甲基化之后基因就不表达呢?有好几种机制,有的时候是阻断转录因子的结合;有的时候是招募一些甲基化结合蛋白。 

Oct4启动子区域甲基化与其表达间的 correlation。

组蛋白修饰标记不同的染色质状态。相比 DNA 甲基化,组蛋白修饰种类更多。如果这个基因转录,启动子区域通常会有 H3K4me3;genebody 会有 H3K36me3;增强子区域有 H3K4me1 和 H3K27ac。对于抑制性的基因,启动子区域通常会有 H3K9me3 和 H3K27me3。 

我们可以回过头来看看我们最开始提到的几个问题。

图 12. 印记基因的甲基化决定了子代基因组需要一个父源一个母源

图 13. PRE 对于细胞记忆非常关键。在果蝇发育中,有些细胞能够记住 Hox 基因的表达状态。这是什么原因呢?在实验中,lacZ 前面是 Hox 基因的启动子 Ubx,Ubx 前有一些元件,如Polycomb response element (PRE),它是来招募 Polycomb 蛋白复合物的。如果把 PRE 去掉,细胞就没有记忆能力了,不管之前是表达的还是不表达的,最终所有的子代细胞都表达了,变成了一个 constitutive 的基因。

图 14. H3K27me3 参与细胞记忆的维持

图 15. DNA 甲基化可能是蜜蜂命运决定的关键因素

表观遗传信息到底能不能遗传?遗传本身其实分为好几种,很多时候大家 mix 到一块儿,但其实是不一样的。细胞分裂过程中的 inheritance,叫 mitotic inheritance细胞从 1 到 2,2 到 4 ,细胞种类没发生变化,它的 epigenome 是可以遗传到下一代的。

图 16. 表观遗传信息遗传的三种类型

还有从上一代到下一代的,这个叫做 inter-generational inheritance(代际遗传)。还有一种,叫做 trans-generational inheritance(跨代遗传),这是指从 F1 代传到第二代和第三代。

图 17. 可遗传性和可重编程是表观基因组的两大特征。Reprogramming 和 inheritance 在不同的阶段发挥不同功能。 

图 18. Reprogramming 和 inheritance 在不同阶段发挥不同功能

图 19. DNMT1 介导的 DNA 甲基化的 copy-paste。mitotic inheritance 中 DNA 甲基化的遗传。有一个很有意思的实验是这样的,这是 2005 年 Rudolf Jaenisch 课题组的一个工作,在细胞中把 DNMT1 敲除,全基因组大概 70~80% 的 DNA 甲基化丢掉,然后把 DNMT1 重新表达回来。如果 DNMT1 只是简单地进行 copy-paste,我们可以预测一下,应该会发生什么:由于原来就没有甲基化,当 DNMT1 进来后,细胞分裂后甲基化仍然没有。但结果不是这样的,整个基因组又重新被甲基化了,而且 pattern 也恢复了。Epigenome can be almost fully restored after eraser。 

图 20. DNA 甲基化的重新建立 

图 21. non-CG 甲基化 pattern 的维持。从以上这些结果来看,不光是 DNMT1 介导的 DNA 甲基化模式的 copy-paste。回到刚才的实验,DNMT1 敲低后 DNA 甲基化下降;DNMT1 回复后,DNA 甲基化水平又能回到原来的水平。这到底是为什么呢?首先,DNA 甲基化又重新回来了,说明有其他的方式,加了新的 DNA 甲基化,这就要提到DNA甲基化的从头甲基化转移酶(De novo DNMTs)。在哺乳动物中,DNMT3A 和 DNMT3B 是两个最重要的从头甲基化酶,它不需要像 DNMT1 那样 copy-paste,在没有甲基化的地方就可以把甲基化加上来。那么在上述实验中,DNMT3A 和 DNMT3B 肯定是发挥作用的。

在哺乳动物细胞中,去甲基化酶也是在表达的,比如像 TET 家族蛋白——过去几年在 DNA 甲基化领域最大的发现之一。TET1/2/3 是 DNA 甲基化的氧化酶,可以把甲基化的 5mC 变成 5hmC、5fC、5caC,这些氧化产物又可以通过其他途径去掉,最终变成 C。在细胞中甲基转移酶和去甲基化酶都是在表达的,这又是一种平衡。

图 22. H3K4me3 和 H3K36me3 介导的DNA 甲基化 pattern 形成。组蛋白修饰介导的 DNA 甲基化恢复机制。哺乳动物细胞的基因大部分地方都是甲基化的,包括转录的和没有转录的地方,没有甲基化的地方一般是在启动子区域和增强子区域。

相比于 DNA 甲基化,组蛋白修饰的遗传了解的相对没有那么清楚,取决于是哪一种组蛋白修饰,组蛋白修饰之间还不太一样。中科院生物物理所朱冰老师在这方面做了很多非常出色的工作,这是 2012 年他们实验室发表的工作,他们研究 DNA 复制后组蛋白修饰是怎么加上去的。在这个实验中,把新加上来的做了标记,在复制之后能区分新的组蛋白和旧的组蛋白。

图 23. DNA 复制过程中新旧组蛋白中 H3K9me0/1/2/3 的动态变化。从图中可以看到,在 DNA 复制过程中,新的组蛋白 H3K9me0 逐渐上来,H3K9me0 上升的是比较快的;但是 H3K9me1/2/3 上升得很慢。这个实验在某种程度上已经证明了它不是 copy-paste 的机制。如果是 copy-paste,那么在 DNA 复制后很短的时间,H3K9me1/2/3 水平就会上来。从这个实验我们可以看到,组蛋白修饰跟 DNA 甲基化不太一样。

图 24. 细胞分裂中 H3K9me1 的遗传机制。这个实验在某种程度上,能够提供一种解释,组蛋白修饰的选择性,通过看原来组蛋白修饰有多少:当它水平比较高,就继续加;如果原来很低,就不加了,这其实就是一种记忆。当组蛋白修饰在 DNA 复制后,被稀释后还有些残留,利用这些残留的组蛋白修饰,再把整个表观基因组重现出来。

图 25. 细胞分裂中 H3K27me3 的遗传机制。如果把这个过程总结到一个 model 里面,在一定程度上可以解释组蛋白修饰的遗传问题:在 DNA 复制前,有老的组蛋白,上面存在各种各样的修饰;DNA 复制后,变成两个 copy,不可避免地很多组蛋白修饰被稀释掉,稀释的过程并不一定非常精确,稀释后有的地方的组蛋白稍微多一点,有的地方稍微少一点,但总体是下降的,新的组蛋白进来,上面的修饰相对较少;因为有了老的修饰,就可以在它们附近加修饰,新的组蛋白上面的修饰越来越多;细胞周期继续,修饰水平更高。这是组蛋白修饰遗传中比较普遍的机制——正反馈机制。 

图 26. 细胞周期中组蛋白修饰遗传的正反馈机制 

图 27. 染色质的三种结构。随着 3C 技术的发展,发现了染色体的高级结构的基本单元,包括 TAD(Topologically associating domain)以及 A/B compartments(数个 TAD 聚集组成),比 TAD 更小的结构是 promoter-enhancer loops,增强子和启动子可以在空间上结合进而启动基因。其中 TAD 是通过染色质的相互作用 define 出来的大的 domain,尺寸一般在兆 bp,而且 TAD 在不同物种中比较保守,是染色体的基本框架,不容易被破坏。像这种高级结构在细胞分裂中是否还在?

图 28. 细胞周期中 TAD 的动态变化。2013 年美国马萨诸塞大学医学院 Job Dekker 组的一篇 Science 回答了这个问题,把细胞阻滞到不同的周期,对 G1、S、M 期和非同步化的细胞做 Hi-C,研究不同时期的染色质的结构。 

图 29. 细胞周期中染色质高级结构的动态变化。细胞中具有 A/B-compartments、TAD、promoter-enhancer loops,经历 S 期,这些结构大体都还在;到 G2 期,染色体开始压缩折叠。在 M 期,非常 condense;出了 M 期,就 decondense,重新形成 promoter-enhancer loops、TADs、compartments。

图 30. Yamanaka 因子提供细胞重编程的驱动力

图 31. H3K9me3 是体细胞重编程的关键障碍。H3K9me3 是唯一重要的因子嘛?虽然有 90% 的细胞可以发育到囊胚,但是再往下,小鼠出生的概率依然比正常生理情况要低,其实这个 reprogramming 没有完成。但是这个案例很清楚地显示,表观遗传是一个障碍;如果在提供转录因子的同时,如果能把障碍去掉,reprogramming 的效率会显著提高

图 32. 精子和卵子是两种高度特化的细胞。精子的染色体高度浓缩。为了保证轻装上阵,连组蛋白都不要,用的是鱼精蛋白,可以帮助染色质更好地折叠。组蛋白还剩一点,保留不到 5%;基本上不转录卵子,尤其是准备受精的,其染色体是被阻滞到 M 期,它也是基本上不转录的,但是在达到成熟之前做了大量的准备,储备了大量的 RNA 和蛋白。哺乳动物中,把亲代的表观遗传信息去掉很重要。在哺乳动物发育过程中,DNA 甲基化经历了两次去除,一次可能还不够,最彻底的一次是在形成 PGC 的过程。

图 33. 小鼠早期胚胎发育过程中 DNA 甲基化的重编程。体细胞的DNA 甲基化比较高。在小鼠里面,胚胎期 13.5 天的时候,DNA 甲基化非常低了。你要去看基因组里面的,基本上是没有了,除了一些重复序列区域。重复序列的抑制很多跟 DNA 甲基化相关,所以在这个时候,会保留一些 DNA 甲基化,主要在重复序列区域。有一些研究发现,不光 DNA 甲基化,组蛋白修饰也挪到那个地方,确保这些重复序列是不表达的。 

图 34. 早期胚胎发育过程中开放染色质的 landscape 研究。为什么研究开放染色质呢?一个很简单的原因,一个基因要表达,其启动子区域首先需要打开,转录机器和转录因子才可以进来。不光是启动子,增强子区域也有很多转录因子需要进来,来启动基因表达。如果我们能够看到染色质开放状态,就可以推测基因组的状态、基因转录的活性。

图 35. 开放染色质可以反映转录活性。在这个过程中,研究是比较困难的,主要是因为材料比较稀少。主要是使用ATAC-seq(Assay for Transposase-Accessible Chromatin using sequencing),原理是用 Tn5 转座酶去攻击(attack)染色质,转座酶可以切割 DNA,如果这个地方是打开的,那么就可以进去把它切断。这个酶做过一些工程化,不光可以切,还可以连接用于测序的 adaptor,把测序的 adaptor 在一步反应里加上去。这样的话,这个实验只需要两步:第一步,拿 Tn5 去切;第二步,PCR 就结束了。

图 36. 用 ATAC-seq 研究染色质开放状态。这个技术是 2013 年的时候斯坦福大学的 William Greenleaf 和 Howard Chang 实验室开发出来的。好处是实验简单,大概半天时间就做完了,而且它需要的材料就比 FIARE-seq 和 DNase-seq 少好几个数量级,大概 500 个细胞就可以做这个实验了。

图 37. 早期胚胎发育过程中开放染色质图谱

我们想回答的一个问题是,精子和卵子的染色体的差别很大,这种差别在什么时候就变得类似了呢?我们发现到二细胞的时候,图 38 中这个绿色的就是 biallelic 开放染色质,两套染色体的开放染色质很快就变得非常类似了,这个重编程的效率非常高。

图 38. 在二细胞期雌雄原核的开放染色质就很类似

图 39. 转录起始位点和转录终止位点都出现开放染色质 

在重编程过程中,很重要的一点是转录因子。在早期胚胎发育过程中,哪些因子比较重要呢?我们可以做遗传学,猜某个基因,然后敲除或敲低;但要是我不知道呢?这个时候,开放染色质有它独特的优势。 

图 40. 鉴定开放染色质中潜在的转录因子结合位点。增强子区呈现出开放染色质,有很多转录因子结合,现在不知道是哪个转录因子进来,但是可以看序列,因为序列里面通常会含有转录因子结合位点。如 Oct4,它开始转录了,我们发现在启动子上游有开放染色质;去看这一段序列有什么 motif,就知道转录因子在不在这个地方。这样我们把所有的开放染色质中的 motif 都看一遍,看在哪一个时期哪一个转录因子的 motif 富集得最多。 

图 41. 鉴定发育过程中关键的调控因子

图 42. Nr5a2 是 ICM/TE 转录程序的早期调控因子 

总体而言,我们如何做表观重编程呢?首先,我们要有合适的转录因子来驱动它,来 drive 细胞 jump out。在这个过程中,我们如果能够找到哪些表观因子在阻断细胞命运的转换,如果可以把这些 roadblock 去掉,就可以进一步提高它的效率。这个就是表观重编程。

图 43. 部分印记基因 DNA 甲基化保留。

图 44. 基因组印记一旦丢失就难以恢复

图 45. 非印记基因 DNA 甲基化的保留。2016 年英国的 Wolf Reik 实验室在 Dev Cell 报道,在卵子里面 Scml2 基因是有甲基化的,在着床前仍然保留了甲基化,Scml2 基因被沉默;如果在卵子中把 DNMT3a 敲掉,DNA 甲基化就没有了,这个时候再让去受精,再去看 trophoblast 的发育,它的发育就有问题,就开始出现缺陷,细胞比较散,不能聚集到一起。这个现象只有在卵子里面敲掉 DNMT3a 才可以看到,如果是在着床前做合子的敲除,是没有这个现象的。所以它是在卵子里面形成的 DNA 甲基化遗传到 trophoblast 后发挥这个功能,这是一个很有意思的证据,证明剩下的 20~30% 的 DNA 甲基化可能也是有功能的。 

图 46. 小鼠大脑中存在大量可遗传的CA甲基化 

图 47. 等位基因特异性 CA 甲基化在成年大脑中从头形成

图 48. 亲源依赖性和序列依赖性的 DNA 甲基化遗传。我们后来去研究了,为什么这些等位基因特异性的DNA甲基化与 DNA 序列相关?发现甲基化高的那条等位基因的 mCG 位点两边是 G、C,甲基化比较低的那条等位基因的两边是 A、T,最终我们看到了类似 DNA 甲基化的 motif,即 DNA 甲基化其实是有一定的序列偏好性,不是很强但也是有的。在植物里面也是这样的,也就是说当序列为 ACGT 时,不太容易甲基化;当序列为 GCGC 时,容易甲基化。在某种程度上,这是一种遗传学依赖的表观遗传(genetic dependent epigenetics inheritance)。所以到最后,表观遗传和遗传在某种程度上又联系到一块儿去了。 

图 49. 精子中的组蛋白修饰

图 50. 发育中的卵子中的组蛋白修饰。2015 年英国的 Gavin Kelsey 实验室做了正在发育中的卵子里面的组蛋白修饰,包括 H3K36me3、H3K4me2、H3K4me3。有些实验室研究更多的组蛋白修饰,他们发现这个好像是一个规律:很多(但不是全部的)父源的标签倾向于去除,比如 DNA 甲基化、H3K4me3、H3K27me3、H3K9me2/3 都是父源的低、母源的高。那么问题来了:为什么这两个基因组是不一样的?

图 51. 雄原核和雌原核中表观遗传修饰的差异 

最后送大家一句话:Get a good genome. Make a better epigenome. Genome 是很难选择的,当然我们希望从父母遗传得到好的 genome;而 epigenome 方面,我们是可以发挥一些作用的,多跑跑步呀,做一些健康的运动,看看书,看看 paper。

芒果师兄聊生信
1.生信技能和基因编辑。2.论文发表和基金写作。3. 健康管理和医学科研资讯。4.幸福之路,读书,音乐和娱乐。
 最新文章