🔗scRNA-seq 、🔗scRNA-seq高级分析、🔗scATAC-seq、 🔗R包开发、🔗源码拆解、 🔗测试、🔗RNA-seq 、🔗其它生信分析、 🔗R语言 、🔗Python 、🔗环境配置 、🔗文献分享 、 🔗一只羊的碎碎念
在上篇文章中我们绘制了染色质开放和基因表达的关系,今天我们将学习使用Liger包来整合单细胞转录组和单细胞染色质可及性数据。对不同的数据集进行整合,数据集之间需要有一些共有的对象来作为feature,并且这些feature在不同的数据集之间应当存在着某种整体上的相关性(例如某一个基因越开放,则通常它的表达量就越高;某一个基因body上非CpG甲基化程度越高,则该基因通常就越处于沉默状态)。对于ATAC-seq等表观组的数据,我们通常使用peak来表征其在某一个位点上的强弱。尽管我们也可以统计各个基因上的peak数量来作为ATAC-seq的表达矩阵,但Liger的作者认为这么做的效果可能并不理想,原因有以下三点:
(1) peak calling is performed using all cells, which biases against rare cell populations;
(2) gene body accessibility is often more diffuse than that of specific regulatory elements, and thus may be missed by peak calling algorithms;
and (3) information from reads outside of peaks is discarded, further reducing the amount of data in the already sparse measurements.
Liger作者发现,使用scATAC-seq在基因body和promoter上的reads数就能很容易地表征某个基因的整体开放性水平:计算每个细胞中每个基因的基因body和启动子区域(通常为上游几kb)内的scATAC-seq reads的总数。
近期,Liger也升级到了v2,运行速度大大提升。同时也对算法和使用的函数进行了升级,简单了,但和seuratv5的升级一样,很多函数也进行了升级——一些教程可能就落伍了。中文环境下似乎还没看到v2的介绍,好吧,人家也是今年刚进行升级。
本文主要为scATAC-seq和scRNA-seq整合这部分的教程。完整流程需要文件:研究对象的gtf、cellranger atac获得的fragments.tsv.gz、barcodes.tsv,以及对应的scRNA-seq数据就可以了。
官方教程:https://welch-lab.github.io/liger/articles/Integrating_scRNA_and_scATAC_data.html
本篇教程同样是适用于任何物种的通用流程,变量名和官网稍有不同,对照着看就好。包含以下内容:
bed格式文件准备 scATAC-seq 数据准备 构建Liger对象 预处理 Liger整合scRNA和scATAC对象及可视化
让我们从cellranger atac输出结果开始吧。
cd ~/sample/outs/sort#cellranger atac输出路径下新建了一个sort路径,打开
gunzip ../fragments.tsv.gz