后台老是有小伙伴诉说,没有服务器,没办法处理单细胞数据,其实他们也在学习单细胞数据分析,但是单细胞的上游分析太吃服务器了,特别是现在单细胞也便宜了,很多时候一做都是10几个20个样本,再加上目前公共单细胞数据资源非常丰富,咱们自己研究的疾病或动物模型,很大概率已经被做了,也有现成的公共数据,其实也不需要花钱再测了,直接分析就行,但是很多公共数据集只上传了原始数据或者上传的数据咱们无法用。对于没有服务器和linux系统操作基础的同学确实又是一项挑战。
我们这篇帖子的初衷就是帮大家完成像Cellranger和RNA velocity速率分析等这种需要高性能计算的分析,其实任何需要高性能计算的我们也都能做,有什么建议,欢迎大家留言。目前我们的计算资源充足,能够完成超大样本量服务。同时我们也可完成后续的双细胞去除、RNA污染去除(这些衔接上游结果会更好)、细胞注释等内容,一步到位交付所有上有和下游指控结果。
像后续的降纬、聚类和细胞注释分析也帮大家都顺带做了,我们才有规范化,标准分析流程,确保数据分析的准确性。
单细胞和Bulk RNA-seq分析内容:
1、Cellranger定量:最新版v8.0.1,所用的人的参考基因组refdata-gex-GRCh38-2024-A,小鼠refdata-gex-GRCm39-2024-A。
2、双细胞去除、RNA污染去除(这两个一般测序公司不会做这两项内容,但其实对结果影响挺大的,我是都会做这两步,可以看看很多大文章,其实这两个基本上都会看,UMAP图和结果会好看很多):
Scrublet双细胞去除:
3、Decontx RNA背景污染去除(上次也发过一些代码,这个基于上游cellranger的raw_feature_bc_matrix做效果会好很多)
全代码干货奉上——多样本多方案去除单细胞环境RNA污染——这次把这个聊清楚
4、RNA velocity分析:提供loom文件,包含Spliced和Unspliced矩阵
5、CellTypist细胞注释,这是一个22年发在了Science上的方法,我自己用起来是非常准确。
6.公共数据下载服务:为了解决大家下载数据的困扰,我们也可帮大家下载指定数据集数据
7.Bulk RNA-seq定量分析:交付count、FPKM和TPM矩阵
8.其他分析内容待定
结果交付:
数据给交给我们,会返回一个合并所有样本的adata文件和rds文件,分别用于scanpy和seurat分析流程,文件中包含原始矩阵、污染矫正后的矩阵、Spliced和Unspliced矩阵(这个是进行RNA velocity分析的)、降纬和细胞注释,此外还包括双细胞预测、线粒体和核糖体基因计数等质控结果,基础信息一步到位,已全部封装在adata和rds文件里面,读进你的电脑就能直接用。当然其它基础的bam文件、loom文件、html质控报告、raw matrix等信息也都会一并返还,方便上游数据的从头复现和再分析。
为什么我不做后续的下游分析?
我个人认为单细胞测序分析有很多需要个人性的操作,基于不同的研究背景,甚至需要个人不断的进行生物学解释——调整优化,才能拿到一个好的结果。我们帮大家跑了降维和细胞注释,对于基本的结果查看是可以满足需求的。我非常鼓励大家去学一些单细胞处理的方法。
只要你会一些简单的单细胞测序数据分析(像seurat和scanpy这些已经封装的相当完善了),在我们替你解决了上面那些麻烦问题基础上,你其实能够很容易完成后续的操作,下游学一学也不难,边学边做,边进行结果的解释,也是比较有意思的,省去了上述的那些吃服务器分析之后,个人的笔记本有时候就能完成后续的分析(当然这个要看自己的样本量大小哈)。
需要数据分析的,可以添加我的vx:sx_qtx02