为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

学术 2024-10-21 21:28 广东

广州站的学员跟完了我们的2天线下单细胞数据挖掘授课加上线上3周直播互动练习和答疑后，开始了做自己领域的单细胞转录组数据挖掘，是GSE141445，一个前列腺癌的公共数据集，对应的文章是2021发表的：《Single-cell analysis reveals transcriptomic remodellings in distinct cell types that contribute to human prostate cancer progression》

但是学员发现没办法根据线粒体基因表达量百分比去进行质量控制，但是看到了同样的数据集的数据挖掘文章：《Comprehensive analysis of macrophage-related genes in prostate cancer by integrated analysis of single-cell and bulk RNA sequencing》，做出来的qc图里面确实是有线粒体含量的。如下所示：

确实是有线粒体含量的

这样就很尴尬，如果2021的GSE141445数据集作者提供的表达量矩阵里面有线粒体，我们给出来的代码没办法识别，那我认打认罚！如果确实没有，那么原作者，以及一系列基于GSE141445的数据挖掘文章都有瑕疵了。

我们复现的代码是：

library(data.table)
Sys.time()
raw.data <- fread( 'GSE141445_RAW/GSM4203181_data.raw.matrix.txt.gz', 
                   data.table = F)
Sys.time()
dim(raw.data) # 
raw.data[1:4,1:4]
rownames(raw.data)=raw.data[,1]
raw.data=raw.data[,-1]

head(colnames(raw.data))  
g=rownames(raw.data)
g[grepl('^MT',g)]
library(AnnoProbe) 
ids=annoGene(g,'SYMBOL','human')
head(ids)
sort(table(ids$chr))
ids=ids[ids$biotypes=='protein_coding',]


library(stringr)
metadata <- as.data.frame(str_split(colnames(raw.data),'[-]',
                                    simplify = T))
head(metadata) 
table(metadata[,2])
metadata=metadata[,c(2,1)]
colnames(metadata)=c('orig.ident' ,'barcode')
metadata$orig.ident=paste0('p',metadata$orig.ident) 
table(metadata$orig.ident)
rownames(metadata) = colnames(raw.data)
identical(rownames(metadata),colnames(raw.data))

sce.all <- CreateSeuratObject(counts = raw.data) 
sce.all <- AddMetaData(object = sce.all, metadata = metadata) 
head(sce.all@meta.data, 10)
table(sce.all@meta.data$orig.ident)

然后，很明显的可以看到确实是没有线粒体基因：

没有线粒体基因

如果是有线粒体基因，它的规则应该是首字母是MT然后加上一个短横线作为分隔符，比如下面的这样的基因信息：

> g[grepl('^MT',g)]
  [1] "MT-ATP6"   "MT-ATP8"   "MT-CO1"    "MT-CO2"    "MT-CO3"   
  [6] "MT-CYB"    "MT-ND1"    "MT-ND2"    "MT-ND3"    "MT-ND4"   
 [11] "MT-ND4L"   "MT-ND5"    "MT-ND6"    "MT1A"      "MT1B"     
 [16] "MT1E"      "MT1F"      "MT1G"      "MT1H"      "MT1HL1"   
 [21] "MT1M"      "MT1X"      "MT2A"      "MT3"       "MTA1"

首字母是MT然后加上一个短横线作为分隔符

但是作者给出来的表达量矩阵里面确实是没有这样的基因。

假如作者在表达量矩阵里面有线粒体基因，但是被我们的正则匹配错过了，理论上我们可以在top50基因看到线粒体基因：

top50基因

在单细胞转录组数据中，线粒体基因和核糖体基因的表达量往往相对较高，这可能由以下几个原因导致：

高表达水平：

线粒体基因和核糖体基因的表达水平本身就很高，因为它们参与了细胞的基本功能。线粒体是细胞的能量工厂，而核糖体负责蛋白质合成，这两个过程对细胞的生存和功能至关重要。

细胞活性：

活跃的细胞通常会有更高的线粒体活动和蛋白质合成需求，因此这些基因的表达量会相应增加。

细胞类型特异性：

某些细胞类型可能因为其特定的功能和代谢状态而表达更多的线粒体和核糖体基因。

细胞状态：

细胞的生理状态，如增殖状态或应激反应，也会影响线粒体和核糖体基因的表达。

技术偏差：

测序技术本身可能存在偏差，导致某些类型的基因（如线粒体基因和核糖体基因）更容易被检测到。

基因拷贝数：

线粒体DNA在细胞中的拷贝数通常远高于核DNA，这可能导致线粒体基因的表达量在单细胞数据中显得更高。

细胞制备过程：

在单细胞制备过程中，细胞的损伤或死亡可能导致线粒体释放其内容物，包括线粒体DNA，这可能会增加线粒体基因的测序读段。

至于是否需要根据线粒体和核糖体基因的表达量对单细胞表达量矩阵进行过滤，取决于研究目的和数据分析的具体需求。以下是一些考虑因素：

研究目的：

如果研究的重点是线粒体功能或核糖体生物学，那么保留这些基因可能是必要的。
如果研究目的是探索其他生物学过程，如细胞分化、信号传导或疾病机制，过滤掉这些高表达的基因可能有助于减少噪音，专注于感兴趣的生物学变化。

数据质量：

高表达的线粒体和核糖体基因可能导致数据的分布偏差，影响后续分析的准确性。在这种情况下，过滤可能是必要的。

细胞状态：

线粒体基因的表达量可以反映细胞的代谢状态和能量需求。如果这些信息对研究很重要，可能不需要过滤。

细胞类型：

不同类型的细胞可能有不同的线粒体和核糖体基因表达模式。在某些情况下，这些模式可能提供有关细胞身份和功能的有用信息。

统计分析：

在进行差异表达分析时，线粒体和核糖体基因的高表达量可能会影响统计测试的结果。过滤这些基因可以减少这种影响。

写在文末

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。而且下周六日我们在长沙线下授课哦：千呼万唤，让我们长沙线下约起

http://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247534563&idx=1&sn=fd57ae3cc8a0545a079fc863dce8e9a5

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

居然是协和的硕博士最喜欢使用单细胞技术？

数据分析思维之分而治之

每天学生信超过10小时的大佬整理的转录组流程

在R编程环节有所限制未必不是好事

从选对电脑开启你的生信之旅（这个双十一换个趁手武器吧）

生信基本功：起码安装和熟练使用100款工具软件

中国农业科学院兰州兽医研究所公开招聘生物信息专业人才（硕士，有编制）

扎克伯格背刺基于R语言的Seurat单细胞生态

miRNA测序数据的上游定量流程实战演练

生物信息学在肿瘤精准治疗中的研究进展线上学术研讨会（11月8日晚8点举办珠江肿瘤转化研究论坛（第一期））

关门聊天 | 生信茶话会，有趣的人生经历

免费的单细胞及表观调控多组学线下授课你还不来？

人工智能大模型会以为是错误的PCA图

同一个样品会做多次单细胞转录组测序？

你希望遇到这样的讲师吗？

安装不上github的包不一定是网络问题

听说有人在b站刷弹幕骂我

2024年09月_生信入门班_微信群答疑笔记

Biomamba生信基地招聘启事

抽丝剥茧解决共享服务器的R包依赖问题（以xCell为例）

国际认知障碍学术会议，线上线下同步参会邀请函（2024年11月9日-10日）

“用户视角”的生物软件开发与社区维护 | 10月31日19:00线上互动分享

小提琴图有点无图是何缘由？

浙江大学良渚实验室熊旭深课题组诚聘生信/AI方向副研/博后/科助/管理员

基于VlnPlot参数及ggplot2美化小提琴图

VlnPlot结果及常用参数浅析

玩转服务器—共享服务器登录指北

Cell、Science等作者齐聚，华大时空组学邀您共享学术盛宴

生物信息学的12大期刊的2024中科院分区更新版

ggalign-瀑布图

重要的并不是整合与否，而应该是质量控制

当然是一模一样啊

2024年08月_生信入门班_微信群答疑笔记

中国医学科学院（北京协和医学院）血液学研究所/饶书权课题组招聘

探索一下go数据库的层次分级情况

生信入门&数据挖掘线上直播课11月班

为什么我敢肯定这个单细胞转录组公共数据集肯定是没有提供线粒体基因信息

数据分析能力确实是跟能发表的期刊质量有关

千呼万唤，让我们长沙线下约起（这周六日见）

再不学生信就来不及了

学习笔记：slurm作业调度系统

大佬带你回顾人类肿瘤 scRNA-seq 的第一个十年

每个生信小白都应该避坑的小细节！

基因影像组学方向的教职/研究岗/博后都可以聊聊看

卷赢科研服务市场的金钥匙-云平台

生信数据分析的底层确实是统计学

单细胞注释记不住marker怎么办--让AI帮你解释差异基因

做生物信息学就应该去国家生物信息中心（中国科学院北京基因组研究所）

千呼万唤，让我们长沙线下约起

ReactomePA安装及报错解决

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉