最近重新回溯了一下曾老师版本的单细胞教学视频课—肝癌单细胞数据集里面的NK多吗(视频号:2023年8月9日) ,降维聚类分群环节细节满满非常值得新手们学习~
一、这个肝癌单细胞数据集居然真的有这么多NK细胞亚群啊!!(生信技能树推文:2023年8月9日)
单细胞+bulk分析常规思路(最最基本的):
找到数据集,降维聚类分群后,拿到基因列表后,去TCGA建模 TCGA建模然后拿到模型基因去单细胞转录组数据集中看是否会有特殊的表现
代码分析流程
1. 下载数据导入R之后先整理数据:把数据整理成能够分析的格式。
1.1 重命名:10X数据一般会把能够代表样本信息的名称提取出来作为样本文件夹的名称。比如曾老师代码中就会提取HCC名称而非GSM号。
1.2 备份数据/重设数据位置:使用的核心代码就是lapply+自定义的函数+file.copy ,把不同样本下的feature,matrix,barcodes文件归类放置到每一个样本文件夹下面。当然不同数据的读取也存在不同方法可以看看一下推文: 常见不同单细胞数据类型的读取及Seurat对象创建方法整理(单多样本/10X/h5/txt/csv/tsv)最终会在样本文件夹下边有三个文件
2. 正式开始分析
2.1 可以考虑整理一个R包的文件,这样就不要在每次分析的时候逐步加载,只需要在刚开始时候source一下R包文件就可以。
2.2 建议在分析的时候设定输出运行信息,比如很多步骤曾老师都会增加print()函数,便于分析者直观的看到分析的样本信息。2.3 过滤步骤,目前关于线粒体,核糖体,红细胞的比例参数说法很多,但是曾老师认为只要后面降维聚类分群没有出现问题,那么过滤步骤只要不那么离谱就都可以,也就是这一步其实没有那么严格!注:附上曾老师的过滤标准。当然笔者认为在这里需要思考一下分析的组织是什么 ,如果是特殊组织的那可能就需要谨慎的设定过滤比例。
3.联合生物标志物的点图和UMAP图去思考生物学命名
命名的时候应该是先粗后细,一开始可以选择较小的分辨率,先按照粗略的细胞群进行分组后再进行细分。
3.1 选择的分辨率是0.1,从marker看0/1/3最可能是NK,2是T细胞(主要可能是CD8T细胞),5是浆细胞,6是B细胞,7是增殖的NK,8是髓系细胞,9是干细胞。
3.2 细胞亚群的认定流程:第一:是否是细胞群所特有的,比如T细胞的CD3, B细胞的MS4A1(CD20),NK细胞的KLRB1,髓系细胞的C1QA/C1QB,肝细胞的APOC3。第二:需要考虑marker的平均表达量高低,一般会倾向关注表达量很高的marker。第三:若两种分属不同细胞亚群的marker在同一个细胞簇中出现时,需要考虑是否是特殊的细胞群。
3.3 如果细胞群出现特殊情况,比如在这个图中有那么多个簇都属于NK细胞的时候,需要考虑是否是存在问题,这个时候需要回溯多个图表进行综合考量。比如需要回溯nFeature,nCount图看看这个簇的值是否异常(包括线粒体,核糖体和血红蛋白的值),也需要看看FindAllmaker/COSG差异分析结果判断一下是否符合NK细胞的特征,同时一定要查阅一下文献看看是否有高分文献进行过类型细胞的报道。如果确认了上述情况都没有问题,那咱们也不要犹豫,这就是真实的结果~ 后续就可以继续研究为什么这批样本中NK细胞的比例如此之高。不同细胞簇的高表达marker差异分析结果:FindAllmaker/COSG差异分析3.4 一旦初步分群结束之后,同时也需要仔细观察一下UMAP图,图中有一些细节可以帮助我们发现错误。比如推文:仅使用SingleR做单细胞亚群的生物学注释都拒稿吧!。图中T和B细胞这个区域,似乎没有分的那么开,这个时候就需要考虑是否存在问题!
同一批数据,上图使用的是患者作为orig.ident进行降维聚类分群,之后曾老师让我尝试使用细分的样本(这个数据集中同一个患者取了多个部位的样本)进行降维聚类分群,从下图的结果可以看出T/B细胞之间的界限就比较清晰了!这也提示我们在降维聚类分群环节时候需要考虑按什么参数进行分析,是患者?是细分样本?等,从该结果来看,笔者认为在初始分析的时候如果有细分样本这个标签那就应该设定细分的样本为orig.ident进行降维聚类分群。3.5 命名环节:结合marker+umap结果,比如再回到上面的“这个肝癌单细胞数据集居然真的有这么多NK细胞亚群啊!!”推文,里面存在多个分的比较开的NK,那么此时就可以选择这些不同的NK细胞进行分别命名,比如这里的0群可以命名为经典NK,。如果后续还需要进一步分析NK细胞,那么就可以聚焦到NK细胞进行进一步的细分。当然如果细胞在粗分的时候分不开的话也不用强求,先粗略的归类即可,后面再单独细分。同时在命名这个环节之前,还建议使用分组气泡图看一看不同样本中每个簇的细胞数目情况。
二、单个癌症的成纤维细胞亚群跟泛癌差异很大吗(生信技能树推文:2023年8月8日)
1.提取子集
在提取子集之前应当先了解一下分群的结果是否符合常规生物学情况 ,其中就包括了每种细胞亚群的数量和比例。除了气泡图还可以使用如下的代码,table(sce.all.intcelltype)/length(sce.all.int$celltype)。拿到了这个比例数据就可以去网上找一找各大测序公司给出的数据或者高分文章中的情况,为后续分析之前先做一个了解。
其他细节:
建议在每一个项目文件夹下面都放置一个Rproj文件,方便切换分析。 样本多的时候建议用代码处理,如果样本少的时候直接手动改名处理一些附加文件会更快。
参考资料:
生信技能树:https://mp.weixin.qq.com/s/HPkhAo1r7PT4zJW1AOjPvA https://mp.weixin.qq.com/s/e5QIGKrQhtRjRLzKT56V4A
致谢:感谢曾老师以及生信技能树团队全体成员。
注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟
- END -