一文了解单细胞染色质及常见分析

文摘 2024-11-23 09:03 江苏

一、写在前面

scRNA-seq能够帮助我们解析细胞特异性表达模型，但基因调控的过程(SCENIC可以通过表达量来反推，但无法直接观察到)与染色质活动情况则是这项技术的盲区。我们都知道，细胞内的调控往往存在级联放大效应，对于染色质景观的研究更利于我们理解生物学现象，而染色质可及性便是其中的一种重要手段。在基因的表达过程中，染色质可及性会发生一系列的改变，通过暴露不同的启动子、增强子和其它顺式调控元件(这个过程中就涉及染色质可及性的改变)，可以使转录因子能够结合在染色质上调节相应基因的表达。染色质可及性（chromatin accessibility）是指染色质中DNA序列的可接触性和可转录性的程度。它涉及DNA如何被包裹在组蛋白和其他染色质蛋白质中，从而影响基因的表达和转录。染色质可及性越高，DNA区域越容易被转录因子和其他调控因子访问，从而更容易进行转录和表达。染色质可及性的变化对基因调控、细胞分化以及许多生物过程有重要影响。因此，染色质可及性的研究通常被用于基因表达调控或表观遗传学的研究之中。常用的染色质可及性测定技术包括染色质免疫沉淀测序（ChIP-seq）、ATAC-seq（Assay for Transposase-Accessible Chromatin with high-throughput sequencing）等。

我们已经制作了scATAC的学习手册：scATAC分析学习手册

在制作每个教程时，我们都建议大家了解分析背后的背景知识，学习这部分数据分析之前，我们先和大家一起看一篇综述：
Sinha S, Satpathy AT, Zhou W, Ji H, Stratton JA, Jaffer A, Bahlis N, Morrissy S, Biernaskie JA. Profiling Chromatin Accessibility at Single-cell Resolution. Genomics Proteomics Bioinformatics. 2021 Apr;19(2):172-190.

二、主要内容

1、染色质可及性

见写在前面部分

2、`scATAC-seq`文库构建

细胞内的Tn5转座酶能够通过“剪切和粘贴”机制催化转座子向基因组不同部分的运动。改造后的高活性版Tn5转座酶可用于ATAC-seq 中用于检测基因组中无核小体区域(正常处于非表达状态的异染色质以核小体为基本单位紧密堆积，从而形成很高的空间位阻，Tn5转座酶无法作用于这些部位。而转录前通常伴随着核小体的解聚，这种部位的染色质可及性更高，为Tn5转座酶的作用提供了可能)的关键元件。改造后的Tn5转座酶包含连接序列(测序的接头、样本标识符)(Figure 1A)，实验中导入细胞核后便能切割暴露的DNA并切割的序列，连接上Tn5转座酶所带上的标记序列(Figure 1C)。经过NGS测序后(Figure 1D)，我们通过对reads向基因组的比对，理论上来说获得reads数越多的区域，染色质可及性就越高(Figure 1E)。DNase-seq、ChIP-seq通常要几十个小时，而ATAC-seq的建库通常能够在几个小时内完成。

图1 ATAC-seq建库流程

对scRNA-Seq熟悉的同学可能已经想到了，把ATAC-Seq改造成scATAC-Seq，那在Tn5连接的核酸序列上加上细胞条形码(cell barcode)不就搞定了？事实也是如此，早期Shendure课题组使用组合的细胞标签在96孔板中标记Tn5转座酶，然后将15~25个细胞核分配到另外一个孔板进行Tn5转座酶的处理，新的孔板在PCR过程中也会加上新的标签，这样通过Tn5转座酶所带的标签、PCR引入的标签这两套”组合条形码”来区分reads的细胞来源(Figure 2A)，，最多一次性可以分析15000个细胞，每个细胞读数约2500。Chang/Greenleaf实验室则是用微流体芯片完成了类似的建库，这种建库方法通常能够捕获~1600个细胞，但每个细胞的读数平均可达73000个(Figure 2B)。目前应用最广泛的还是10X Genomics提供的方案，其利用微流控技术，可以将10000个细胞核分割在纳米级液滴中，体系中共包含750000个UMI，最多可以对6000个细胞进行标记(Figure2 B)。当然，scATAC现在有许多”升级版”，例如通过”向导条形码”可以完成靶向基因组特定区域的ATAC，即Perturb-ATAC。更多变种不再介绍，感兴趣的同学可以看一下原文。

Figure 2

3、`scATAC-seq`的多组学联合

现如今，单一的组学越来越难以满足大家的科研需求，多组学的联合分析以及交叉验证成为了趋势。例如将scATAC与scRNA联用可揭示新的顺式调控元件，并揭示其对基因表达的影响。目前已有方法同时分析来自单个细胞的染色质和转录组，例如single-cell Chromatin Accessibility and Transcriptome Sequencing(scCAT-seq, Figure 4A)，能够将单细胞分选到96孔板中，使用物理方法使细胞膜破裂，这样细胞核与胞质就能够解离，这时可以分别对核进行scATAC-seq的建库与Smart-seq2的建库(获得单细胞全长转录组)。

Figure 4

4、scATAC-seq分析

scATAC-seq面临着与scRNA-seq一样的难点——稀疏性。相对于Bulk级别的技术而言，scATAC中每个细胞能够获得的reads数大大减少。相比于转录组而言，scATAC-seq的位点更多、矩阵更大，稀疏性也更高。这就造成了，一个位点的0读数可能存在两种可能：1是这个染色质位点区域真的不开放，可及性很低；2是由于转座酶作用效率或测序深度的原因未能检出。当然，这些问题主要交给开发者来头疼，大家无需担心。scATAC的基础分析通常包括：
(1)原始数据→矩阵(测序接头去除、低质量序列过滤、双端reads匹配、基因组定量)
(2)Feature定义(将信号划分为预定义的TF基序/基因注释列表，可以降低数据集的方差)
(3)异质性计算(这里大家可以类比scRNA-seq中的高变基因选择，通过Feature的选择可以让下游的降维、分群等操作信噪比更高，例如SCRAT 可以聚集共激活位点以获得通路水平的可及性)
(4)降维、聚类分群(scATAC通常是一个很大的矩阵，约几千细胞X几万个位点，降维对后续的分析非常重要，单细胞常用的tSNE、UMAP在这里也同样可以使用。降维后的数据可用于分群，常用的方法为k-medoid)

当然，scATAC也包含很多进阶分析的内容，常见的有：
(1)通过染色质协同可及性预测DNA相互作用
顺式调控序列能够参与长距离相互作用以募集转录机制和控制基因表达的机制，并且高度特定于细胞类型、状态和环境。Shendure/Trapnell实验室(没错就是上面那个开发scATAC建库流程的实验室)开发的Cicero，能够在通过映射启动子与其他监管位点的共同可及性来推断这些相互作用。结合monocle(B站教程点击跳转)中的轨迹推断算法，能够探究基因程序的顺式调控过程随着拟时序的变化。

(2)TF预测
相比于单细胞中使用SCENIC(B站教程可点击跳转)通过对转录组的表达反推TF活性，显然在scATAC数据中通过染色质可及性判断TF活动更加的直接。例如cisTopic可以将Tn5转座酶的访问区域分配给不同的调控过程，然后基于这些调控过程而不是信号位点进行细胞分组，能够更敏感的区分细胞类型与状态。

(3)通过转录组推测染色质可及性
这部分分析其实属于scRNA-seq的内容，有课题组通过联合scRNA-seq数据和的Dnase-seq与RNA-seq数据来训练模型，利用模型及Big Data Regression for Predicting DNase I hypersensitivity (RIRD)算法预测scRNA-seq数据的全基因组染色质可及性。使用包含30~100个细胞的scRNA-seq的染色质可及性预测结果甚至比来源于500个细胞的ATAC-seq数据重建细胞类型的能力更强。(Figure 5B)。不过这种预测需要依赖大量的预训练与训练数据，这就导致目前更适合应用在人类、小鼠这类发布数据量大的物种(SRA中94%的 scRNA-seq样本来源于小鼠与人类)。对这部分内容感兴趣的同学可以参考如下两瓶文章：
Zhou W, Ji Z, Fang W, Ji H. Global prediction of chromatin accessibility using small-cell-number and single-cell RNA-seq. Nucleic Acids Res 2019;47:e121.
Zhou W., Sherwood B., Ji Z., Xue Y., Du F., Bai J., et al. Genome-wide prediction of dnase i hypersensitivity using gene expression. Nat Commun. 2017;8:1038.

Figure 5

如何联系我们

公众号后台消息回复不便，这里给大家留一下领取资料及免费服务器(足够支持你完成硕博生涯的生信环境)的微信号，方便各位随时交流、提建议（别问在么，添加时直接说来意）。此外呼声一直很高的交流群也建好了，欢迎大家入群讨论：

大家可以阅读完这几篇之后添加

您点的每个赞和在看，我都认真当成了喜欢

本人为在读博士研究生，此公众号旨在分享生信知识及科研经验与体会，欢迎各位同学、老师与专家的批评指正，也欢迎各界人士的合作与交流。

最新文章

斥资7.76w，就为教大家学会生信

1.5天，你学会单细胞分析了吗？

博士后招聘| 深圳市龙岗区妇幼保健院

今日宜学习

一个月学会CNS文章数据分析

2024年了, 都哪些组织有空转数据(小鼠篇)

在VSode中调用Jupyterlab和R

2025年国自然还能写肿瘤免疫微环境吗？

博士盲审挂了，十年苦读换来一个“本科生”身份

生信基地第二课| 线下三天集训+一个月形成性训练

相亲板块| LZU男博士

一文了解单细胞染色质及常见分析

生命科学数据分析技能普及（第一批）

复旦大学慢性代谢性疾病研究所诚招CRC

年末绝地求生，4周拿下单细胞+空转，挑战节前SCI见刊！

生信基地第一课| 1.5天学会单细胞分析

实验培训新增一个名额（细胞培养+RT-QPCR实操）

国自然利器| 单细胞转录组&空间转录组学探秘

广医附一医院俞春萍教授团队博士后招聘

大厂直招丨日均370，非全职，自由办公！

编程小白打开单细胞的正确方式

实验基地第二次培训依旧免费（细胞培养+RT-QPCR实操）

实验基地第一次培训视频回顾

单细胞拷贝数变异学习手册

开一个相亲板块~

双11活动最后3h

想了很久的生信基地

国自然十大热点| 单细胞&空转系列专题

周边任选&全场九折啦~

今天09:00| 如何优化影像组学模型参数

生信发不出去？试试多组学+干湿结合（含案例框架）

实验基地的序章

1: 1复现纯生信文章图表

第一次线下实验交流会完美收官！

Nature Genetics |基因组所周永锋团队建立葡萄全基因组选择育种体系

不知不觉，已分享了近两百篇单细胞知识帖

博士后与科研助理招聘|中山大学-广州医科大学联合招聘神经生物学与生物信息学方向

10X Visium上游定量过程

求学| 寻找博士名额

snATAC联合scRNA揭示小鼠肾脏细胞分化程序和疾病靶点

Biomamba生信基地招聘启事

scRNA-seq揭示脓毒症预后水平预测的关键靶点！

首个！写作大模型MediPen重磅上线！彻底颠覆写作模式，一键扩写，真实参考文献全自动插入！

一文学会pheatmap热图绘制

终于有出版社出手了！确定送审再投稿！

1024程序员节，送超大Biomamba鼠标垫

真·独享服务器

《Advanced Science》新型Arf1抑制剂促进癌症干细胞衰老并增强抗肿瘤免疫

我学制才三年，审稿要我一年？

诚招生信高手| 上交医松江实验室黄鑫组（肿瘤微环境、干细胞）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

一文了解单细胞染色质及常见分析

1、染色质可及性

2、scATAC-seq文库构建

3、scATAC-seq的多组学联合

4、scATAC-seq分析

2、`scATAC-seq`文库构建

3、`scATAC-seq`的多组学联合