没有服务器,单细胞数据搞不定?我们目前做好了这些pipeline,可以帮你做

文摘   2024-12-01 09:16   北京  

后台老是有小伙伴诉说,没有服务器,没办法处理单细胞数据,其实他们也在学习单细胞数据分析,但是单细胞的上游分析太吃服务器了,特别是现在单细胞也便宜了,很多时候一做都是10几个20个样本,再加上目前公共单细胞数据资源非常丰富,咱们自己研究的疾病或动物模型,很大概率已经被做了,也有现成的公共数据,其实也不需要花钱再测了,直接分析就行,但是很多公共数据集只上传了原始数据或者上传的数据咱们无法用。对于没有服务器和linux系统操作基础的同学确实又是一项挑战。


我们这篇帖子的初衷就是帮大家完成像Cellranger和RNA velocity速率分析等这种需要高性能计算的分析,其实任何需要高性能计算的我们也都能做,有什么建议,欢迎大家留言。目前我们的计算资源充足,能够完成超大样本量服务。同时我们也可完成后续的双细胞去除、RNA污染去除(这些衔接上游结果会更好)、细胞注释等内容,一步到位交付所有上有和下游指控结果。


像后续的降纬、聚类和细胞注释分析也帮大家都顺带做了,我们才有规范化,标准分析流程,确保数据分析的准确性。

  • 单细胞和Bulk RNA-seq分析内容:

1、Cellranger定量:最新版v8.0.1,所用的人的参考基因组refdata-gex-GRCh38-2024-A,小鼠refdata-gex-GRCm39-2024-A。

2、双细胞去除、RNA污染去除(这两个一般测序公司不会做这两项内容,但其实对结果影响挺大的,我是都会做这两步,可以看看很多大文章,其实这两个基本上都会看,UMAP图和结果会好看很多):

Scrublet双细胞去除:

3、Decontx RNA背景污染去除(上次也发过一些代码,这个基于上游cellranger的raw_feature_bc_matrix做效果会好很多

全代码干货奉上——多样本多方案去除单细胞环境RNA污染——这次把这个聊清楚


4、RNA velocity分析:提供loom文件,包含Spliced和Unspliced矩阵

5、CellTypist细胞注释,这是一个22年发在了Science上的方法,我自己用起来是非常准确。


6.公共数据下载服务:为了解决大家下载数据的困扰,我们也可帮大家下载指定数据集数据


7.Bulk RNA-seq定量分析:交付count、FPKM和TPM矩阵


8.其他分析内容待定


结果交付:

数据给交给我们,会返回一个合并所有样本的adata文件和rds文件,分别用于scanpy和seurat分析流程,文件中包含原始矩阵、污染矫正后的矩阵、Spliced和Unspliced矩阵(这个是进行RNA velocity分析的)、降纬和细胞注释此外还包括双细胞预测、线粒体和核糖体基因计数等质控结果,基础信息一步到位,已全部封装在adata和rds文件里面,读进你的电脑就能直接用。当然其它基础的bam文件、loom文件、html质控报告、raw matrix等信息也都会一并返还,方便上游数据的从头复现和再分析。


为什么我不做后续的下游分析?

我个人认为单细胞测序分析有很多需要个人性的操作,基于不同的研究背景,甚至需要个人不断的进行生物学解释——调整优化,才能拿到一个好的结果。我们帮大家跑了降维和细胞注释,对于基本的结果查看是可以满足需求的。我非常鼓励大家去学一些单细胞处理的方法。

只要你会一些简单的单细胞测序数据分析(像seurat和scanpy这些已经封装的相当完善了),在我们替你解决了上面那些麻烦问题基础上,你其实能够很容易完成后续的操作,下游学一学也不难,边学边做,边进行结果的解释,也是比较有意思的,省去了上述的那些吃服务器分析之后,个人的笔记本有时候就能完成后续的分析(当然这个要看自己的样本量大小哈)。

需要数据分析的,可以添加我的vx:sx_qtx02

生信钱同学
北京大学在读博士生,记录自己的学习日常🌞分享生信知识:如单细胞和空间测序、多组学分析、宏基因组、病理组学、影像组学等生物信息学、机器学习和深度学习内容🌬
 最新文章