写在前面的话:
参考使用的文件资料是由哈佛生物信息学核心 (HBC) 教学团队成员开发的。另外也看了多个公众号文章和书籍。参考来源:
Website: https://hbctraining.github.io/Intro-to-ChIPseq/
Github: https://github.com/hbctraining/Intro-to-ChIPseq
复杂的转录调控
在整个基因调控网络中,基因调控无疑是一个十分复杂的过程。对于单个基因来说,归根到底,其转录表达促进或抑制是受到了一个或多个元件(elements)的调节。
那染色体结构就会影响到这些调控元件,影响基因表达。
什么是 ChIP-Seq ?
染色质免疫沉淀-测序(英语:ChIP-sequencing,简称为ChIP-seq)被用于分析蛋白质与DNA的交互作用。该技术将染色质免疫沉淀(ChIP)与大规模并行DNA测序结合起来以鉴定与DNA相关蛋白的结合部位。其可被用于精确绘制任意目的蛋白在全基因组上的结合位点。
检测蛋白质与 DNA 在基因组范围内的结合情况 结合使用染色质免疫沉淀和测序技术 确定转录因子和组蛋白修饰因子如何在体内与 DNA 相互作用 补充 DNA 可及性研究和基因表达谱分析 了解基因调控
目前我们利用 ChIP-Seq 主要研究三个方向:组蛋白、TF 及 Cofactor 结合的 DNA。这三者都是蛋白质,但与 DNA 结合的性质有所不同,在实验过程和分析方法中也有所不同。
什么是表观遗传?
生物学表型存在显著差异但DNA序列又无变化的这种现象。 在同一个基因组上,建立并调控基因激活(转录)或沉默信号的染色质模式的总和。
提起 ChIP-Seq 就免不了提起表观遗传,写在这里就是想说明 ChIP-Seq 是研究表观遗传的一种有力的方法,比如组蛋白修饰的研究,但并不是说 ChIP-Seq 就是只是做表观遗传研究的,实质上ChIP-Seq 只是研究蛋白与DNA结合的方法。
表观遗传机制都有哪些?
表观遗传的机制有很多。
DNA 甲基化 组蛋白修饰 基因组印记(genomic imprinting) RNA 干扰(RNA interference) 基因沉默 副突变(paramutation)
ChIP-Seq 流程
文库准备
“文库“(library),其实我觉得这是一个令人困惑的词,其实就是含有基因片段的体系。大概是因为基因序列是一本 “天书” 吧,所以叫文库。
图中可以看到整个基因组(横线)上有很多位点与各种各样的蛋白(各种形状的小块)结合。
蛋白和 DNA 交联
交联固定:用甲醛等手段让蛋白质和 DNA 的结合由⾮共价结合变成共价结合,结合的更加紧密。
片段化
超声法或核酸酶法处理使 DNA 片段化,形成片段化 DNA-蛋白质 结构。
蛋白特异性抗体结合
在染色体中,有很多蛋白与 DNA 结合的事件存在,无论是组蛋白还是转录因子或者其他未鉴定的蛋白类别。但我们的目的是研究某一种蛋白的结合事件。因此这一步使⽤特异性抗体结合目的蛋白,形成 DNA-蛋白质-抗体 结构。
免疫沉淀反应
抗体富集:通过抗体拉下⽬的蛋白所结合的 DNA 片段,去除未被蛋白结合的 DNA 片段。
解交联
解交联及DNA纯化:解开 DNA-蛋白质-抗体 结构,纯化拉下来的DNA⽚段。
高通路测序分析
实验设计
DNA 用量要求
在进行染色质免疫沉淀(ChIP)实验时,有几个关键因素会影响最终的DNA产量。
起始材料:起始材料通常是细胞或组织中的染色质。确保有足够的起始材料是获得高产量DNA的基础。
细胞类型:不同类型的细胞可能会影响ChIP的效率和产量。例如,一些细胞类型可能含有更多的目标蛋白质或修饰标记。
标记或蛋白质的丰度:组蛋白在染色质中覆盖广泛,而转录因子(TFs)的结合位点可能较少,因此组蛋白 ChIP 通常会产生更高的DNA产量。
抗体质量:高质量的抗体能够提高特异性和效率,从而提高ChIP DNA的产量。
以下是Subhash Tripathi在ResearchGate上分享的他的实验数据,供参考:
组蛋白IP:使用20微克来自T细胞的染色质 DNA 作为起始材料,总共可以获得 15-50 纳克的 DNA。 转录因子IP:使用2500万细胞(约200微克染色质)作为起始材料,通常可以获得5-25纳克的 DNA。
测序要求
read 长度(Read Length)
范围:50到150个碱基对(bp)。 影响:较长的read 长度和双端读(paired-end reads)可以显著提高序列的可比对性(mappability),特别是在复杂基因组区域。 应用:对于等位基因特异性染色质事件和转座子(transposable elements)的研究,较长的read 长度和双端读是必要的。
成本与信息量的平衡
在选择read 长度和双端读时,需要平衡成本和获取更多信息的价值。较长的read 长度和双端读虽然更贵,但可以提供更详细的信息。
批次效应
避免批次效应:尽量避免在不同批次中进行测序。如果不可避免,应将样本均匀分布在不同批次中,以减少批次效应对数据的影响。
测序深度(Sequencing Depth)
最低测序深度:5-10百万(M)read s。 标准测序深度:对于转录因子(TFs),标准测序深度为 20-40 百万reads。 广泛分布的蛋白质:对于覆盖较广的蛋白质(如组蛋白修饰),需要更高的测序深度。
Input 对照(Input Controls)
重要性:input 对照样本的测序深度应与免疫沉淀(IP)样本相等或更高。 目的:input 对照用于校正背景噪音和非特异性结合,从而提高数据的准确性。
对照样本
理想状态下,我们根本不需要设置对照,但是 ChIP-seq 实验容易受到多种系统误差的影响,这些误差比最初预想的要多。因此,需要对照样本来识别这些误差并进行校正。对照样本提供了一个基线,用于区分特异性信号和非特异性背景噪音。
在 ChIP-seq 实验中,通常使用两种类型的对照样本:IgG 对照和 input 对照(Input Control)。每种对照都可以看作是不完整的 ChIP-seq 协议,其中故意跳过了某个步骤。这些对照尝试识别由其他过程引起的富集区域,而不仅仅是蛋白质与 DNA 的结合。
IgG 对照
定义:IgG 对照是通过使用免疫球蛋白 G(IgG)抗体进行“模拟”ChIP 产生的 DNA。IgG 抗体与非核抗原结合。 作用:IgG 对照用于识别由于非特异性抗体结合或非核抗原引起的背景信号。 局限性:如果在免疫沉淀(IP)后回收的 DNA 量太少,测序文库的复杂性(多样性)会很低,使用这种对照识别的结合位点可能会有偏差。
在进行抗体富集这一步时,我们的抗体可能会非特异性富集蛋白,即这些蛋白无论是什么抗体都能结合。所以我们可以用 igG 抗体再做一次富集,理想状态下,这一步是空白的,我们不会富集到任何 “蛋白-DNA ”复合物,但是如果我们结合到了,那这些蛋白-DNA 复合物中的蛋白就是非特异性蛋白。我们在进行 peak calling 的时候就要去除这个误差。
Input 对照
定义:input 对照是从交联并碎片化的细胞中纯化的 DNA,但没有添加任何抗体进行富集。 作用:input 对照代表了所有可用于免疫沉淀的染色质,提供了一个全面的背景信号基线。 优势:input 对照被认为是理想的对照类型,因为它代表了所有可用于 IP 的染色质,能够更准确地反映非特异性背景信号。
Input 对照是我们不使用特异性抗体去富集 “蛋白-DNA” 结构复合物,而是把所有的 “蛋白-DNA”都收集起来。这样当最后当 “input control 样本” 和 “IP 样本” 在reads数目归一化后,整个基因组序列上,input是reads 均匀分布的,而 IP 则在某些位点集中分布。
在 ChIP-seq 实验中使用对照样本是确保数据质量的关键步骤。IgG 对照和input对照各有优缺点,但在大多数情况下,input control 被认为是更理想的选择。通过仔细选择和使用对照样本,可以有效识别和校正系统误差,从而获得高质量的 ChIP-seq 数据。
control 选择可以参考:
What Control For Chip-Seq: Input, Igg Or Untagged Strain?https://www.biostars.org/p/15817/
ChIP-Seq: technical considerations for obtaining high-quality data
http://www.nature.com/ni/journal/v12/n10/abs/ni.2117.html
Peak 信号
似乎谈到 ChIP-Seq 这个词,就会出现 peak,那什么是 peak 呢?peak 通俗来讲就是蛋白在基因上富集的一段位点。因为测序中可能在这一段序列中有 reads 富集,比对后会形成类似山峰状的覆盖度图,因此我们称其为 peak。
不同类型的 ChIP-Seq 数据有不同的信号特征。转录因子和一些组蛋白如 H3K27ac 的 Peak 的峰形是窄的,一些组蛋白如 H3K36me3、H3K9me3 等的 Peak 是宽的。
表观基因图谱
研究发现,一些蛋白与 DNA 结合,能够代表一定的生物学意义,能够激活或者抑制调控元件。
那就有个问题出现了,我们能不能通过这些结合信号,去更加细化定义全基因组上的各种调控元件。详细可以查看这篇综述《Mapping Human Epigenomes》
最近发了一个很有意思的网站https://egg2.wustl.edu/roadmap/web_portal/index.html,网站简介是这样的:
NIH路线图表观基因组学绘图联盟成立的目的是提供人类表观基因组学数据的公共资源,以促进基础生物学和疾病导向研究。该项目已生成了数百种人类细胞类型和组织的几种关键组蛋白修饰、染色质可及性、DNA 甲基化和 mRNA 表达的高质量全基因组图谱。该网络门户是旗舰联盟论文《111 个参考人类表观基因组的综合分析》(《自然》杂志,2015 年 2 月)的补充数据存储库。我们提供统一处理的数据集、综合分析产品和交互式基因组浏览器会话,这些结果是对路线图表观基因组学项目的 111 个合并表观基因组和DNA 元素百科全书 (ENCODE) 项目的 16 个表观基因组的联合分析的结果 。
其中根据标记marker构建模型去推断功能元件,使用了25种类别做区分。
STATE NO. | MNEMONIC | DESCRIPTION | COLOR NAME | COLOR CODE |
---|---|---|---|---|
1 | TssA | Active TSS | Red | 255,0,0 |
2 | PromU | Promoter Upstream TSS | Orange Red | 255,69,0 |
3 | PromD1 | Promoter Downstream TSS 1 | Orange Red | 255,69,0 |
4 | PromD2 | Promoter Downstream TSS 2 | Orange Red | 255,69,0 |
5 | Tx5 | Transcribed - 5' preferential | Green | 0,128,0 |
6 | Tx | Strong transcription | Green | 0,128,0 |
7 | Tx3 | Transcribed - 3' preferential | Green | 0,128,0 |
8 | TxWk | Weak transcription | Lighter Green | 0,150,0 |
9 | TxReg | Transcribed & regulatory (Prom/Enh) | Electric Lime | 194,225,5 |
10 | TxEnh5 | Transcribed 5' preferential and Enh | Electric Lime | 194,225,5 |
11 | TxEnh3 | Transcribed 3' preferential and Enh | Electric Lime | 194,225,5 |
12 | TxEnhW | Transcribed and Weak Enhancer | Electric Lime | 194,225,5 |
13 | EnhA1 | Active Enhancer 1 | Orange | 255,195,77 |
14 | EnhA2 | Active Enhancer 2 | Orange | 255,195,77 |
15 | EnhAF | Active Enhancer Flank | Orange | 255,195,77 |
16 | EnhW1 | Weak Enhancer 1 | Yellow | 255,255,0 |
17 | EnhW2 | Weak Enhancer 2 | Yellow | 255,255,0 |
18 | EnhAc | Primary H3K27ac possible Enhancer | Yellow | 255,255,0 |
19 | DNase | Primary DNase | Lemon | 255,255,102 |
20 | ZNF/Rpts | ZNF genes & repeats | Aquamarine | 102,205,170 |
21 | Het | Heterochromatin | Light Purple | 138,145,208 |
22 | PromP | Poised Promoter | Pink | 230,184,183 |
23 | PromBiv | Bivalent Promoter | Dark Purple | 112,48,160 |
24 | ReprPC | Repressed Polycomb | Gray | 128,128,128 |
25 | Quies | Quiescent/Low | White | 255,255,255 |
网站不仅给出了原始数据,也给出了可视化页面。
从这张图可以看到,每个基因组中大部分位点上功能元件注释相对还是比较一致的,有了这些信息,我们可以更详细的去定义我们的参考基因组,揭示表观遗传机制。