仅使用SingleR做单细胞亚群的生物学注释都拒稿吧！

学术 2024-11-29 10:16 广东

通常我们拿到了肿瘤相关的单细胞转录组的表达量矩阵后的第一层次降维聚类分群通常是：

immune (CD45+,PTPRC),
epithelial/cancer (EpCAM+,EPCAM),
stromal (CD10+,MME,fibro or CD31+,PECAM1,endo)

参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则，这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分，包括淋巴系（T,B,NK细胞）和髓系（单核，树突，巨噬，粒细胞）的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的 fibro 和endo进行细分，并且编造生物学故事的。

前面我们已经介绍了心肝脾肺肾等多个器官的上皮细胞的细分亚群，以及免疫细胞里面的髓系和B细胞细分亚群：

虽然说到第二层次的降维聚类分群的时候，大家会有很多疑惑。但是肿瘤领域的单细胞转录组的第一层次降维聚类分群应该是很清晰的了，太多的文章给出来了大家汇总好的各个单细胞亚群的特异性基因列表，如下所示：

# 创建一个包含不同细胞类型及其对应标记基因的列表
Bcells <- c("PTPRC", "MS4A1", "CD79A", "CD19" )
Dendritic <- c("PTPRC", "IL3RA", "IRF7", "IRF8", "GZMB", "CD4", "CLEC4C", "PTGDS", "JCHAIN", "PLAC8", "PLD4", "TCF4", "BCL11A", "GPR183", "CCDC50", "LILRA4", "TSPAN13", "CLIC3", "MPEG1")
Endothelial <- c("CLEC14A", "PECAM1", "VWF", "CAV1", "EMCN", "CDH5", "MCAM", "IL3RA", "IGFBP7", "COL4A1", "COL4A2", "COL15A1", "SPARCL1", "A2M", "HSPG2", "PLVAP", "AQP1", "ENG", "RAMP2", "GNG11", "EGFL7", "CLDN5", "INSR")
Fibroblast <- c("COL1A1", "COL3A1", "WT1", "ACTA2", "CAV1", "COL1A2", "DCN", "SPARC", "COL6A1", "CCDC80", "LUM", "COL6A2", "COL6A3", "CALD1", "RARRES2", "MGP", "CTHRC1", "AEBP1", "POSTN", "COL5A2", "FBLN1", "TAGLN", "C1S", "C1R", "NNMT", "MMP2", "IGFBP5", "TIMP1", "FN1", "IGFBP7", "C3", "COL5A1", "LGALS1")
Myeloid <- c("PTPRC", "CD14", "FCER1G", "FCGR3A", "LYZ", "CTSS", "CD33", "CD68", "CD163", "ITGAX", "ITGAM", "CD4", "MRC1", "VSIG4", "SPP1", "APOE", "C1QA", "C1QB", "C1QC", "APOC1", "FTL", "S100A9", "TYROBP", "AIF1", "CD74", "PSAP", "CTSB")
Epi <- c("WFDC2", "CD24", "CLDN3", "KRT7", "KRT8", "KRT17", "KRT18", "KRT19", "EPCAM", "WT1", "CLDN4", "MSLN", "FOLR1", "MUC1")
Plasma <- c("PTPRC", "IGKC", "IGHG1", "CD79A", "IGHG2", "IGLC2", "IGLC3", "IGHG3", "IGHG4", "JCHAIN", "MZB1", "XBP1")
Tcells <- c("PTPRC", "CD2", "CD3D", "TRAC", "GZMA", "NKG7", "CD3E", "CD3G", "CD4", "TCF7", "CD8A", "PRF1", "GZMB", "CCL5", "CCL4", "IL32", "CD52")
Mast <- c("PTPRC", "KIT", "CPA3", "CTSG", "MS4A2", "TPSAB1", "TPSB2", "HPGD", "HPGDS", "GATA2")
SMC=c('NOTCH3','RGS5','NDUFA4L2','MYH11','COX4I2','PLN')
cycle=c('RRM2','MKI67','BIRC5','UBE2C','TOP2A','AURKB')

只需要把上面的基因列表拿去大家自己的肿瘤相关单细胞转录组降维聚类分群结果里面可视化，就可以很清晰的分辨出来不同生物学名字。比如这个2024的单细胞数据挖掘文章里面的卵巢癌单细胞《Single-cell sequencing reveals PTX3 involvement in ovarian cancer metastasis》，如下所示20万个细胞很容易给出来第一层次降维聚类分群的生物学名字：

20万个细胞很容易给出来第一层次降维聚类分群的生物学名字

但是仍然是有很多人不去学习这些亚群背后的生物学意义

学习这些单细胞亚群的层次结构确实是需要一点时间，比如我做肿瘤的就不太想去看视网膜相关的分群，也不想看脑区域神经元相关的，再比如心血管细胞类型包括心肌细胞、成纤维细胞、内皮细胞、平滑肌细胞（SMC）、周细胞、免疫细胞、神经元和神经胶质细胞以及脂肪细胞。

但是，如果大家都要发肿瘤相关单细胞数据挖掘文章，还不用心学习就有点说不过去了，比如这个新鲜出炉的口腔癌的单细胞数据挖掘文章：《Identification and analysis of a cell communication prognostic signature for oral squamous cell carcinoma at bulk and single-cell levels》，第一层次降维聚类分群就是简单的跑了一下SingleR做单细胞亚群的生物学注释，然后就没有然后了。。。。

简单的跑了一下SingleR做单细胞亚群的生物学注释

图丑爆了就先不说，感觉是最后定下来了单细胞亚群的生物学注释很明显就不符合逻辑的啊，口腔癌的肿瘤样品里面为什么有皮肤角质细胞呢，完全可以一起命名为上皮细胞，然后取上皮细胞子集去走inferCNV看拷贝数变异，走NMF看肿瘤个体异质性啊。还有就是里面的CMP是什么鬼呢？里面的tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞啊。

tissue stem cells其实在癌症里面应该是平滑肌细胞或者周细胞

工具本身是好的

奈何使用工具的人自身知识储备太少了，很容易滥用或者误用。

如果第一层次降维聚类分群就给出来了错误的生物学名字，后面的细致分析都是无根之水，基本上看都不用看了。关于这个分析细节，其实我写了一个专辑来解释，可惜啊看的人仍然是不多：

这个时候如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。

如果你已经熟悉了我们的课程，就联系我们报名吧~
（添加好友务必备注高校或者工作单位+姓名+马拉松，方便后续认识）

生信入门班：
学习以转录组数据为代表的组学数据分析，包括上游分析（从下机数据到表达矩阵）和下游分析（差异分析、富集分析等），无专业偏向性，顺带学习基因表达芯片。
R语言是为下游分析打基础，linux是为上游分析打基础。

数据挖掘班：
学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图，专业偏向医学（部分涉及肿瘤，但医学非肿瘤专业也适配），包含机器学习算法构建分类模型与生存模型，多篇文献讲解和文章复现。全程使用R语言，不学习linux（因为不学上游分析）

详细比较如下：

报名时间

每个月滚动开课，随时可报名，如果错过了当月课程开始时间，可以选择插班或者报名下个月课程。

授课时间和方式

生信入门班：
12月2日起，连续4个星期，每个星期5天，前三周上课时间为每天晚上7:30-10:30，第四周上课时间为每天晚上8:00-11:00（北京时间）。

数据挖掘班：
12月2日起，连续3个星期，每个星期5天，上课时间为每天晚上7:30-10:30（北京时间），具体日期见下图日历。

钉钉群线上直播互动授课（当天错过了可以看回放，一年内无限制回看），直播期间穿插练习，讲练结合，充分互动，强调在实战中进步。讲师分章节在线授课及答疑，突发情况可在线求助我们的助教团队，课堂进度也会根据学员们的理解程度灵活作调整。

新增每个月一次的讲师直播答疑，让没有时间听直播、后来补课的学生也可以得到直播指导；课程有重大更新时，会喊毕业学员回来补课，所以其实课程远远不止45小时/60小时，我们的诚意十足！

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247535399&idx=1&sn=b2047b66c4d348a02d58ed03bcca325a

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

仅使用SingleR做单细胞亚群的生物学注释都拒稿吧！

应届生快过来啊，一口气招20个生信工程师（浙江大学医学院附属第一医院生物医学大数据中心）

铁死亡这个国自然热点到底有哪些基因都没有搞清楚

Cell作者、同济大学等专家齐聚云端，时空组学技术前沿应用线上研讨会邀您参与

工具不好用你完全可以自己写一个

四句话代码GSEA

与生信技能树团队“久处不厌，日久生情”

首都医学科学创新中心的创新中心多组学平台招聘多名初中高级别生信工程师（协助，独立，主导）

德克萨斯大学西南医学中心王涛实验室生物信息学与计算生物学博士后研究员

使用aspera加速从中国的GSA数据库下载测序文件

生信入门&数据挖掘线上直播课12月班

与生信技能树团队“久处不厌，日久生情”

坚持了近20年的生物信息学培训你确定不了解一下吗？

四句话代码GSEA

不想用代码做单细胞转录组降维聚类分群，试试看网页工具呢？

花620万美元买个香蕉捐给马斯克，希望“把它粘在SpaceX火箭上，送往火星和月球”？？？

NAR | 强大的泛癌单细胞多组学在线分析工具——scCancerExplorer

河北医科大学,第一医院,医学人工智能实验室,招聘生信分析人员（有编制！）

生信不好找工作可能是因为你点错了技能树

单细胞转录组实验设计如何定位到目标基因（两分组，仅4个单细胞样品）

读悉达多·穆克吉新作《细胞传》

生信入门&数据挖掘线上直播课12月班

2天线下加上5天线上的单细胞及表观调控多组学大课通通免费！

应用类脑组织和CRISPR 基因编辑和筛选技术，探索神经发育性疾病（贝勒医学院的孟祥玲课题组诚聘博士后和研究助理）

做60个10x技术的单细胞转录组样品就为了证明测序仪不重要？

无论怎么做都是错误的单细胞水平相关性分析

西北工业大学生态环境学院第十三届翱翔青年学者论坛诚邀全球英才参会

不要简单的相信作者提供的表达量矩阵

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉