ChIP-Seq 简介

文摘 2025-02-03 21:22 河南

写在前面的话：
参考使用的文件资料是由哈佛生物信息学核心 (HBC) 教学团队成员开发的。另外也看了多个公众号文章和书籍。参考来源：
Website: https://hbctraining.github.io/Intro-to-ChIPseq/
Github: https://github.com/hbctraining/Intro-to-ChIPseq

复杂的转录调控

在整个基因调控网络中，基因调控无疑是一个十分复杂的过程。对于单个基因来说，归根到底，其转录表达促进或抑制是受到了一个或多个元件（elements）的调节。

那染色体结构就会影响到这些调控元件，影响基因表达。

什么是 ChIP-Seq ？

染色质免疫沉淀-测序（英语：ChIP-sequencing，简称为ChIP-seq）被用于分析蛋白质与DNA的交互作用。该技术将染色质免疫沉淀（ChIP）与大规模并行DNA测序结合起来以鉴定与DNA相关蛋白的结合部位。其可被用于精确绘制任意目的蛋白在全基因组上的结合位点。

检测蛋白质与 DNA 在基因组范围内的结合情况
结合使用染色质免疫沉淀和测序技术
确定转录因子和组蛋白修饰因子如何在体内与 DNA 相互作用
补充 DNA 可及性研究和基因表达谱分析
了解基因调控

目前我们利用 ChIP-Seq 主要研究三个方向：组蛋白、TF 及 Cofactor 结合的 DNA。这三者都是蛋白质，但与 DNA 结合的性质有所不同，在实验过程和分析方法中也有所不同。

什么是表观遗传？

生物学表型存在显著差异但DNA序列又无变化的这种现象。
在同一个基因组上，建立并调控基因激活（转录）或沉默信号的染色质模式的总和。

提起 ChIP-Seq 就免不了提起表观遗传，写在这里就是想说明 ChIP-Seq 是研究表观遗传的一种有力的方法，比如组蛋白修饰的研究，但并不是说 ChIP-Seq 就是只是做表观遗传研究的，实质上ChIP-Seq 只是研究蛋白与DNA结合的方法。

表观遗传机制都有哪些？

表观遗传的机制有很多。

DNA 甲基化
组蛋白修饰
基因组印记（genomic imprinting）
RNA 干扰（RNA interference）
基因沉默
副突变（paramutation）

ChIP-Seq 流程

文库准备

“文库“（library），其实我觉得这是一个令人困惑的词，其实就是含有基因片段的体系。大概是因为基因序列是一本 “天书” 吧，所以叫文库。

图中可以看到整个基因组（横线）上有很多位点与各种各样的蛋白（各种形状的小块）结合。

蛋白和 DNA 交联

交联固定：用甲醛等手段让蛋白质和 DNA 的结合由⾮共价结合变成共价结合，结合的更加紧密。

片段化

超声法或核酸酶法处理使 DNA 片段化，形成片段化 DNA-蛋白质 结构。

蛋白特异性抗体结合

在染色体中，有很多蛋白与 DNA 结合的事件存在，无论是组蛋白还是转录因子或者其他未鉴定的蛋白类别。但我们的目的是研究某一种蛋白的结合事件。因此这一步使⽤特异性抗体结合目的蛋白，形成 DNA-蛋白质-抗体 结构。

免疫沉淀反应

抗体富集：通过抗体拉下⽬的蛋白所结合的 DNA 片段，去除未被蛋白结合的 DNA 片段。

解交联

解交联及DNA纯化：解开 DNA-蛋白质-抗体 结构，纯化拉下来的DNA⽚段。

高通路测序分析

实验设计

DNA 用量要求

在进行染色质免疫沉淀（ChIP）实验时，有几个关键因素会影响最终的DNA产量。

起始材料：起始材料通常是细胞或组织中的染色质。确保有足够的起始材料是获得高产量DNA的基础。
细胞类型：不同类型的细胞可能会影响ChIP的效率和产量。例如，一些细胞类型可能含有更多的目标蛋白质或修饰标记。
标记或蛋白质的丰度：组蛋白在染色质中覆盖广泛，而转录因子（TFs）的结合位点可能较少，因此组蛋白 ChIP 通常会产生更高的DNA产量。
抗体质量：高质量的抗体能够提高特异性和效率，从而提高ChIP DNA的产量。

以下是Subhash Tripathi在ResearchGate上分享的他的实验数据，供参考：

组蛋白IP：使用20微克来自T细胞的染色质 DNA 作为起始材料，总共可以获得 15-50 纳克的 DNA。
转录因子IP：使用2500万细胞（约200微克染色质）作为起始材料，通常可以获得5-25纳克的 DNA。

测序要求

read 长度（Read Length）

范围：50到150个碱基对（bp）。
影响：较长的read 长度和双端读（paired-end reads）可以显著提高序列的可比对性（mappability），特别是在复杂基因组区域。
应用：对于等位基因特异性染色质事件和转座子（transposable elements）的研究，较长的read 长度和双端读是必要的。

成本与信息量的平衡

在选择read 长度和双端读时，需要平衡成本和获取更多信息的价值。较长的read 长度和双端读虽然更贵，但可以提供更详细的信息。

批次效应

避免批次效应：尽量避免在不同批次中进行测序。如果不可避免，应将样本均匀分布在不同批次中，以减少批次效应对数据的影响。

测序深度（Sequencing Depth）

最低测序深度：5-10百万（M）read s。
标准测序深度：对于转录因子（TFs），标准测序深度为 20-40 百万reads。
广泛分布的蛋白质：对于覆盖较广的蛋白质（如组蛋白修饰），需要更高的测序深度。

Input 对照（Input Controls）

重要性：input 对照样本的测序深度应与免疫沉淀（IP）样本相等或更高。
目的：input 对照用于校正背景噪音和非特异性结合，从而提高数据的准确性。

对照样本

理想状态下，我们根本不需要设置对照，但是 ChIP-seq 实验容易受到多种系统误差的影响，这些误差比最初预想的要多。因此，需要对照样本来识别这些误差并进行校正。对照样本提供了一个基线，用于区分特异性信号和非特异性背景噪音。

在 ChIP-seq 实验中，通常使用两种类型的对照样本：IgG 对照和 input 对照（Input Control）。每种对照都可以看作是不完整的 ChIP-seq 协议，其中故意跳过了某个步骤。这些对照尝试识别由其他过程引起的富集区域，而不仅仅是蛋白质与 DNA 的结合。

IgG 对照

定义：IgG 对照是通过使用免疫球蛋白 G（IgG）抗体进行“模拟”ChIP 产生的 DNA。IgG 抗体与非核抗原结合。
作用：IgG 对照用于识别由于非特异性抗体结合或非核抗原引起的背景信号。
局限性：如果在免疫沉淀（IP）后回收的 DNA 量太少，测序文库的复杂性（多样性）会很低，使用这种对照识别的结合位点可能会有偏差。

在进行抗体富集这一步时，我们的抗体可能会非特异性富集蛋白，即这些蛋白无论是什么抗体都能结合。所以我们可以用 igG 抗体再做一次富集，理想状态下，这一步是空白的，我们不会富集到任何 “蛋白-DNA ”复合物，但是如果我们结合到了，那这些蛋白-DNA 复合物中的蛋白就是非特异性蛋白。我们在进行 peak calling 的时候就要去除这个误差。

Input 对照

定义：input 对照是从交联并碎片化的细胞中纯化的 DNA，但没有添加任何抗体进行富集。
作用：input 对照代表了所有可用于免疫沉淀的染色质，提供了一个全面的背景信号基线。
优势：input 对照被认为是理想的对照类型，因为它代表了所有可用于 IP 的染色质，能够更准确地反映非特异性背景信号。

Input 对照是我们不使用特异性抗体去富集 “蛋白-DNA” 结构复合物，而是把所有的 “蛋白-DNA”都收集起来。这样当最后当 “input control 样本” 和 “IP 样本” 在reads数目归一化后，整个基因组序列上，input是reads 均匀分布的，而 IP 则在某些位点集中分布。

在 ChIP-seq 实验中使用对照样本是确保数据质量的关键步骤。IgG 对照和input对照各有优缺点，但在大多数情况下，input control 被认为是更理想的选择。通过仔细选择和使用对照样本，可以有效识别和校正系统误差，从而获得高质量的 ChIP-seq 数据。

control 选择可以参考：

What Control For Chip-Seq: Input, Igg Or Untagged Strain?https://www.biostars.org/p/15817/

ChIP-Seq: technical considerations for obtaining high-quality data

http://www.nature.com/ni/journal/v12/n10/abs/ni.2117.html

Peak 信号

似乎谈到 ChIP-Seq 这个词，就会出现 peak，那什么是 peak 呢？peak 通俗来讲就是蛋白在基因上富集的一段位点。因为测序中可能在这一段序列中有 reads 富集，比对后会形成类似山峰状的覆盖度图，因此我们称其为 peak。

不同类型的 ChIP-Seq 数据有不同的信号特征。转录因子和一些组蛋白如 H3K27ac 的 Peak 的峰形是窄的，一些组蛋白如 H3K36me3、H3K9me3 等的 Peak 是宽的。

表观基因图谱

研究发现，一些蛋白与 DNA 结合，能够代表一定的生物学意义，能够激活或者抑制调控元件。

那就有个问题出现了，我们能不能通过这些结合信号，去更加细化定义全基因组上的各种调控元件。详细可以查看这篇综述《Mapping Human Epigenomes》

最近发了一个很有意思的网站https://egg2.wustl.edu/roadmap/web_portal/index.html，网站简介是这样的：

NIH路线图表观基因组学绘图联盟成立的目的是提供人类表观基因组学数据的公共资源，以促进基础生物学和疾病导向研究。该项目已生成了数百种人类细胞类型和组织的几种关键组蛋白修饰、染色质可及性、DNA 甲基化和 mRNA 表达的高质量全基因组图谱。该网络门户是旗舰联盟论文《111 个参考人类表观基因组的综合分析》（《自然》杂志，2015 年 2 月）的补充数据存储库。我们提供统一处理的数据集、综合分析产品和交互式基因组浏览器会话，这些结果是对路线图表观基因组学项目的 111 个合并表观基因组和DNA 元素百科全书 (ENCODE) 项目的 16 个表观基因组的联合分析的结果。

其中根据标记marker构建模型去推断功能元件，使用了25种类别做区分。

STATE NO.	MNEMONIC	DESCRIPTION	COLOR NAME	COLOR CODE
1	TssA	Active TSS	Red	255,0,0
2	PromU	Promoter Upstream TSS	Orange Red	255,69,0
3	PromD1	Promoter Downstream TSS 1	Orange Red	255,69,0
4	PromD2	Promoter Downstream TSS 2	Orange Red	255,69,0
5	Tx5	Transcribed - 5' preferential	Green	0,128,0
6	Tx	Strong transcription	Green	0,128,0
7	Tx3	Transcribed - 3' preferential	Green	0,128,0
8	TxWk	Weak transcription	Lighter Green	0,150,0
9	TxReg	Transcribed & regulatory (Prom/Enh)	Electric Lime	194,225,5
10	TxEnh5	Transcribed 5' preferential and Enh	Electric Lime	194,225,5
11	TxEnh3	Transcribed 3' preferential and Enh	Electric Lime	194,225,5
12	TxEnhW	Transcribed and Weak Enhancer	Electric Lime	194,225,5
13	EnhA1	Active Enhancer 1	Orange	255,195,77
14	EnhA2	Active Enhancer 2	Orange	255,195,77
15	EnhAF	Active Enhancer Flank	Orange	255,195,77
16	EnhW1	Weak Enhancer 1	Yellow	255,255,0
17	EnhW2	Weak Enhancer 2	Yellow	255,255,0
18	EnhAc	Primary H3K27ac possible Enhancer	Yellow	255,255,0
19	DNase	Primary DNase	Lemon	255,255,102
20	ZNF/Rpts	ZNF genes & repeats	Aquamarine	102,205,170
21	Het	Heterochromatin	Light Purple	138,145,208
22	PromP	Poised Promoter	Pink	230,184,183
23	PromBiv	Bivalent Promoter	Dark Purple	112,48,160
24	ReprPC	Repressed Polycomb	Gray	128,128,128
25	Quies	Quiescent/Low	White	255,255,255

网站不仅给出了原始数据，也给出了可视化页面。

从这张图可以看到，每个基因组中大部分位点上功能元件注释相对还是比较一致的，有了这些信息，我们可以更详细的去定义我们的参考基因组，揭示表观遗传机制。

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

推荐账号，扫码关注

最新文章

基因组数据在精准医学中扮演什么角色

计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型

前瞻 | Nature | 人类细胞图谱：从细胞普查到统一的基础模型

精准医学 | Nat.Med | 使用常规血液检测和临床数据预测癌症检查点抑制剂免疫治疗的疗效

Nat.Genet | 从 DNA 序列预测 RNA-seq 覆盖度作为基因调控的统一模型

生信程序 | Nat.Genet | 在疾病关联位点精细定位因果组织和基因

期刊泛读 | Cell 出版社 | 优质期刊

数据库合集 | 更新至 67 个

数据挖掘之中性粒细胞胞外陷阱相关预后模型

玩转服务器—你的数据是否完整？

ChIP-Seq 简介

基因的功能推断之单细胞亚群的特异性高表达

能根据差异基因来反推样品的分组情况吗

基因的功能推断之敲减过表达的干扰它

基因的功能推断之大队列的共表达分析（比如：WGCNA）

基因的功能推断之大队列表达量相关性排序后gsea分析

基因的功能推断之大队列高低分组后差异分析然后功能富集

单细胞揭示了结直肠癌微环境中肥大细胞的激活

共享服务器助力学习与分析！

你选择哪种三代测序

如何用血常规发 Nature，临床常见指标的深度挖掘

综述 | Nature | 更新一下关于 2 型免疫的认知

生信算法 | 矩阵分解除了NMF，也可以试试这个 NatGenet 新发的 GBCD 算法

机器学习模型都值得用Nature新算法尝试一下，作者似乎想要干掉传统机器学习

数据库介绍 | NAR | LncSEA 2.0：用于长非编码 RNA 相关的集合和富集分析

空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架

期刊泛读 | Cancer_Cell | 第 1 期 | If 48.8

髓外中性粒细胞生成：狡兔三窟？

玩转服务器—Jupyterhub一键开启Python学习之旅

学生信，谁还不是一个菜鸟啊？（至少曾经是吧）

肿瘤病人和正常人有差异表达但并不是说他们的血液层面就很显著

第一眼差点就被这个变化倍数唬住了

还有必要背诵和掌握正则表达式语法规则吗

硕博赶紧用起来！Cell53,026人蛋白质-表型资源库

如何用大语言模型做富集分析，这篇NatMethods文章教你

scRNA分析之后，如何看待结果和进行实验验证？这篇文章告诉你

人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型

生信程序 | NatGenet | 使用潜在嵌入多变量回归分析多条件单细胞数据

数据库介绍 | NAR | SPDB：一个全面的资源和知识库，用于单细胞分辨率下的蛋白质组数据

细胞图谱 | NatMed | 人类血管细胞的器官型图谱

Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码

玩转服务器—从卡顿到秒装，Conda焕新极速体验

10X单细胞转录组全方位吊打BD平台吗

转录组测序的表达量的两个归一化方向会影响差异分析吗

读《人类线粒体基因组》|系统回答：线粒体基因表达阈值到底卡多少合适

基于Python的Xenium空转分析流程

跟着Seurat官网学Xenium空转分析

肿瘤新抗原该怎么分析

强烈推荐！好看免费全面的在线绘图平台，点点即可快速组合成好看的示意图！

泛读合集 | 2024 全年 | Nature 系列优质期刊

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉