scATAC | 使用Liger v2整合单细胞转录组和染色质开放数据

文摘   2024-07-06 16:31   江苏  

🔗scRNA-seq🔗scRNA-seq高级分析🔗scATAC-seq🔗R包开发🔗源码拆解🔗测试🔗RNA-seq🔗其它生信分析🔗R语言🔗Python🔗环境配置🔗文献分享🔗一只羊的碎碎念

上篇文章中我们绘制了染色质开放和基因表达的关系,今天我们将学习使用Liger包来整合单细胞转录组和单细胞染色质可及性数据。对不同的数据集进行整合,数据集之间需要有一些共有的对象来作为feature,并且这些feature在不同的数据集之间应当存在着某种整体上的相关性(例如某一个基因越开放,则通常它的表达量就越高;某一个基因body上非CpG甲基化程度越高,则该基因通常就越处于沉默状态)。对于ATAC-seq等表观组的数据,我们通常使用peak来表征其在某一个位点上的强弱。尽管我们也可以统计各个基因上的peak数量来作为ATAC-seq的表达矩阵,但Liger的作者认为这么做的效果可能并不理想,原因有以下三点:

(1) peak calling is performed using all cells, which biases against rare cell populations; 
(2) gene body accessibility is often more diffuse than that of specific regulatory elements, and thus may be missed by peak calling algorithms; 
and (3) information from reads outside of peaks is discarded, further reducing the amount of data in the already sparse measurements. 

Liger作者发现,使用scATAC-seq在基因body和promoter上的reads数就能很容易地表征某个基因的整体开放性水平:计算每个细胞中每个基因的基因body和启动子区域(通常为上游几kb)内的scATAC-seq reads的总数。

近期,Liger也升级到了v2,运行速度大大提升。同时也对算法和使用的函数进行了升级,简单了,但和seuratv5的升级一样,很多函数也进行了升级——一些教程可能就落伍了。中文环境下似乎还没看到v2的介绍,好吧,人家也是今年刚进行升级。

本文主要为scATAC-seq和scRNA-seq整合这部分的教程。完整流程需要文件:研究对象的gtf、cellranger atac获得的fragments.tsv.gz、barcodes.tsv,以及对应的scRNA-seq数据就可以了。

官方教程:https://welch-lab.github.io/liger/articles/Integrating_scRNA_and_scATAC_data.html

本篇教程同样是适用于任何物种的通用流程,变量名和官网稍有不同,对照着看就好。包含以下内容:

  • bed格式文件准备
  • scATAC-seq 数据准备
  • 构建Liger对象
  • 预处理
  • Liger整合scRNA和scATAC对象及可视化

让我们从cellranger atac输出结果开始吧。

cd ~/sample/outs/sort#cellranger atac输出路径下新建了一个sort路径,打开
gunzip ../fragments.tsv.gz

你好我是一只羊
个人号,内容主要涉及种质资源、分子标记开发及遗传多样性分析,表观遗传、编程语言在生物信息学中的应用、转录组、基因组、单细胞测序多组学数据分析等;其它更新平台:B站&小红书-一只羊做生信/捡羊毛的咩/生信小羊🐑
 最新文章