背景与技术基础
染色质与基因调控
异染色质(Heterochromatin):结构紧密,基因活性低。 常染色质(Euchromatin):结构松散,转录活性高。
染色质状态:染色质以两种主要形式存在: 核小体(Nucleosome):染色质的基本单位,DNA缠绕在组蛋白(Histone)复合物上形成。 染色质开放性:开放状态允许转录因子(Transcription Factors, TFs)结合调控序列,启动基因表达。
ATAC-seq于2013年首次提出,其目标是通过高效、快速的方法检测染色质的开放状态,替代传统的DNase-seq和FAIRE-seq。
整合转座酶切割和接头连接。 利用高通量测序技术精确定位开放染色质区域。
ATAC-seq的实验原理
原理核心
使用 Tn5 转座酶在开放染色质区域切割 DNA,同时将接头(Adapters)插入切割位点。 测序后,分析接头所在的位置,映射染色质的可及性。
天然偏好结合和切割无核小体区域。 切割后直接插入测序所需的接头。
短片段(<150bp):来自开放染色质。 中片段(~200bp):单核小体DNA。 长片段(>400bp):多核小体DNA。
1. 样本制备
样本类型:细胞系、组织样本、原代细胞。 关键点:确保细胞核完整,防止染色质被非特异性降解。
2. 核提取与转座反应
核提取: 提取细胞核以去除细胞质背景。 转座酶反应: 核小体结合的DNA因其封闭结构而较难被切割。 开放染色质被优先切割和标记。
3. PCR扩增
使用特定引物对转座酶标记的DNA片段进行扩增。 生成足够量的文库用于高通量测序。
4. 高通量测序
通常使用Illumina测序平台。 短读长(~50bp)即可满足染色质开放性测序需求。
1. 数据预处理
质量控制:通过FASTQC检查测序数据质量。 序列比对:使用 Bowtie2 等工具将序列比对到参考基因组。 去除重复序列:滤除PCR扩增导致的冗余数据。
2. 峰值检测
使用MACS2检测染色质开放的峰(Peaks)。 峰通常代表: 启动子区域(Promoters)。 增强子区域(Enhancers)。 其他调控元件。
3. 数据可视化
使用 IGV 等工具观察染色质开放的峰分布。
4. 功能注释
将开放区域与基因组注释进行比对: 识别调控基因的潜在区域。 预测转录因子结合位点。
1. 优势
高效快速:
实验时间短(~3小时内完成)。
适用于极少量细胞(甚至单细胞)。
精确定位开放染色质区域。
2. 局限性
背景噪声:
样本处理不当可能导致非特异性信号。
数据分析复杂,需要高水平的生物信息学支持。
对异染色质状态的信息有限。
基因调控研究:
确定基因表达调控的重要元件(如启动子、增强子)。 鉴定转录因子结合位点。
比较正常与病理状态下的染色质开放差异。 如癌症中与肿瘤发生相关的调控区域。
研究细胞在分化过程中染色质结构如何变化。 比如干细胞分化为特定细胞类型。
发现潜在的表观遗传药物靶点。
单细胞ATAC-seq揭示异质性细胞群体中的染色质变化。
参考文献