数据分析能力确实是跟能发表的期刊质量有关

学术 2024-10-21 17:53 广东

学员在交流群问到了如何比较不同单细胞数据挖掘文章，其中一个新鲜出炉的单细胞层面的泛癌文章，是英国的Kevin Litchfield课题组，发表在期刊《cancer cell 》，另外一个是张泽民老师发表在CELL杂志的同样的泛癌b细胞单细胞转录组数据探索性课题。

文献标题是：《A pan-cancer single-cell RNA-seq atlas of intratumoral B cells》，文献里面纳入了15 studies spanning 7 cancer types ，最后是 126,101 TIL-Bs across 10 clusters ，但是图可以说是丑爆了：

丑爆了的UMAP

虽然说确实是很丑，但是还是蛮符合规则的，因为里面的plasma和其它b细胞确实是还算是泾渭分明，而且增殖的细胞会成为两个完全不同的b细胞大亚群的桥梁，另外就是gc的b细胞也是可以跟增殖的区分开。但是跟张泽民老师发表在CELL杂志的数据分析比起来就有“云泥之别”，如下所示：

CELL杂志的数据分析

值得注意是，张泽民老师其实分析的公共数据集更多一点：

Our newly generated pan-cancer scRNA-seq dataset was assembled with 54 additional published studies to elucidate the pan-cancer characteristics of TIBs
containing 511,847 B cells derived from 948 samples of 649 patients across 19 major can- cer types, primarily covering tumor tissues, adjacent non-tumor tissues (ANTs), and peripheral blood

使用singleR对两个单细胞转录组数据集进行细胞亚群注释信息的迁移

首先读取张泽民老师的数据挖掘里面的b细胞部分信息进行降维聚类分群（略）后，取子集：

sce.all = readRDS('../2-harmony/sce.all_int.rds')
sp='human' 
load('../phe.Rdata') 
identical(rownames(phe) , colnames(sce.all))
sce.all@meta.data = phe
sel.clust = "celltype"
sce.all <- SetIdent(sce.all, value = sel.clust)
table(sce.all@active.ident) 
DimPlot(sce.all) 
colnames(sce.all@meta.data) 
sel.clust = "celltype"
sce.all <- SetIdent(sce.all, value = sel.clust)  
sce.all
table(Idents(sce.all))
sce.main.100 = subset(sce.all,downsample=100)
sce.main.100
save(sce.main.100,file = 'GSE233236-zzm-sub.sce.Rdata')

然后读取英国的Kevin Litchfield课题组的数据挖掘里面的b细胞部分信息进行降维聚类分群后（略），使用singleR对两个单细胞转录组数据集进行细胞亚群注释信息的迁移：

ource('scRNA_scripts/lib.R')
sce.all = readRDS('2-harmony/sce.all_int.rds')
sce.all  
sce.all.int= sce.all
 
library(Seurat)
library(ggplot2)
library(clustree)
library(cowplot)
library(dplyr)
library(stringr)
library(ggsci)  
library(patchwork)
load('./GSE233236-zzm-sub.sce.Rdata')  
table(Idents(sce.main.100) )
##NOTE：以前是AverageExpression
av <-AggregateExpression(sce.main.100 ,      # group.by = "celltype",
                         assays = "RNA") 
Ref = av[[1]]
head(Ref)
ref_sce=SingleCellExperiment::SingleCellExperiment(assays=list(counts=Ref))
library(scater)
ref_sce=scater::logNormCounts(ref_sce)
library(SingleCellExperiment)
logcounts(ref_sce)[1:4,1:4]
colData(ref_sce)$Type=colnames(Ref)
table(colnames(Ref))
ref_sce

testdata <- GetAssayData(sce.all, slot="data")
testdata[1:4,1:4]
dim(testdata)
testdata <-sce.all@assays$RNA$counts 
library(SingleR)
pred <- SingleR(test=testdata, ref=ref_sce, 
                labels=ref_sce$Type
)
as.data.frame(table(pred$labels))
head(pred) 
labels=pred$labels
table(labels)  
save(labels,file = 'SingleR_celltype.Rdata')

这样的话，b细胞的细分亚群的生物学注释信息勉强看得过去，起码比文章里面的UMAP要好一点：

生物学注释信息勉强看得过去

不过，这样的话，就很难复现出来文献里面的分群啦， 比如文章里面的 MT1X-high Plasma/Plasmablasts ，就是金属离子酶亚群！

其实不同单细胞转录组数据集的降维聚类分群其实都会有热激蛋白的亚群，细胞增殖亚群，干扰素亚群，金属离子酶亚群，线粒体或者核糖体亚群，或者低质量亚群... 我们之前就分享过：【巨噬细胞新分类体系（放弃传统M1和M2）】，一切都是数据结果合理的挑选和解释而已。大家在自己的单细转录组数据降维聚类分群的时候也可以看到CXCL9 and SPP1的排他性，跟前面提到的TREM2联合SPP1去和FOLR2基因的排他性类似的。另外，我们通常是并不会选择提高分辨率这个手段来获取精细的单细胞亚群，而是取巨噬细胞子集后，继续进行降维聚类分群后再命名的策略。参考: 取单细胞亚群子集细分的时候一定会出现干扰亚群（所以不要惊慌），这样的话你就可以看到细胞亚群里面的混杂因素，而且可以手动删除到干扰因素。

                               cycle    GC memory naive plasma
  Naive B cells                    11   167   4846 10969      7
  Activated B cells                48   141  15443  6037    562
  Resting Memory B cells          138   392  20651  3901   1781
  IGKC-high Plasma/Plasmablasts   113    16    334   129   6593
  Conventional Plasma cells       438    38    346    69  19588
  Stressed Plasma cells            88    27   3733   447   6103
  Atypical Memory B cells         109    65   6707   876    278
  Proliferative B cells          5463   132    363   131     34
  GC B cells                      316  2975    522   132      1
  MT1X-high Plasma/Plasmablasts    41     7    692   179   1587

写在文末

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。而且下周六日我们在长沙线下授课哦：千呼万唤，让我们长沙线下约起

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247534553&idx=1&sn=00f0bc22ee1ab4ae90757b31934325a2

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

学习笔记：slurm作业调度系统

大佬带你回顾人类肿瘤 scRNA-seq 的第一个十年

每个生信小白都应该避坑的小细节！

基因影像组学方向的教职/研究岗/博后都可以聊聊看

卷赢科研服务市场的金钥匙-云平台

生信数据分析的底层确实是统计学

单细胞注释记不住marker怎么办--让AI帮你解释差异基因

做生物信息学就应该去国家生物信息中心（中国科学院北京基因组研究所）

千呼万唤，让我们长沙线下约起

ReactomePA安装及报错解决

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉