线粒体基因缺失之谜

学术 2025-01-13 18:33 广东

我们生信技能树的一个学徒在分析一个GEO数据集：GSE141445 的时候，发现并没有线粒体基因表达，但是他看的那篇挖掘此数据的文献《Comprehensive analysis of macrophage-related genes in prostate cancer by integrated analysis of single-cell and bulk RNA sequencing》中却诡异的出现了线粒体质控小提琴图。这是为什么呢？来一起看一看~

数据集编号为 GSE141445：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE141445

首先看看 GSE141445 数据背景

这个数据相关的文章于 2021 年发表在 Nat Cell Biol 上：

Chen S, Zhu G, Yang Y, Wang F et al. Single-cell analysis reveals transcriptomic remodellings in distinct cell types that contribute to human prostate cancer progression. Nat Cell Biol 2021 Jan;23(1):87-98. PMID: 33420488

数据的描述如下：

为了在单细胞水平上理解前列腺癌的异质性，作者从 12 位患者身上收集了 13 份组织样本（12 份原发性样本和 1 份淋巴结转移样本），并进行了单细胞 RNA 测序（scRNA-seq）。经过标准的数据处理和质量过滤，总共获得了 36,424 个细胞：

tSNE view of 36,424 single cells, color coded by sample (a), cluster (b) and broad lineage (c).

挖掘此数据的文章

但是到了另一篇挖掘此数据的文章，也就是学徒看的那篇文献，2024年4月份发表在 Aging 上，标题为《Comprehensive analysis of macrophage-related genes in prostate cancer by integrated analysis of single-cell and bulk RNA sequencing》中，我们看到了完全不一样的诡异描述，并且这个图 A 中还出现了跟学徒分析此数据得不到的线粒体基因表达信息：

此文献详细解读版本：《单细胞+bulkRNA分析前列腺癌中巨噬细胞相关基因》

为什么两个分析一样数据集的文章，前后出现了如此大的描述差异呢？你是选择相信原数据文章还是挖掘它的文献？

上手分析这个数据看看

先去GEO 下载这个数据：https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE141445。这个页面提供了两个矩阵，大小还差别巨大：

1、先看看 GSM4203181_data.raw.matrix.txt.gz

先读取数据：

library(data.table)
Sys.time()
raw.data <- fread( 'GSE141445_RAW/GSM4203181_data.raw.matrix.txt.gz', data.table = F)
Sys.time()
dim(raw.data) # 
raw.data[1:4,1:4]

这个数据的信息跟它的原文中经过过滤后的细胞数是可以对应上的，总共为36424个细胞：

简单处理并查看是否有线粒体基因，绘制小提琴图

rownames(raw.data)=raw.data[,1]
raw.data=raw.data[,-1]

head(colnames(raw.data))  
g=rownames(raw.data)
g[grepl('^MT',g)]
library(AnnoProbe) 
ids=annoGene(g,'SYMBOL','human')
head(ids)
sort(table(ids$chr))
ids=ids[ids$biotypes=='protein_coding',]

library(stringr)
metadata <- as.data.frame(str_split(colnames(raw.data),'[-]', simplify = T))
head(metadata) 
table(metadata[,2])
metadata=metadata[,c(2,1)]
colnames(metadata)=c('orig.ident' ,'barcode')
metadata$orig.ident=paste0('p',metadata$orig.ident) 
table(metadata$orig.ident)
rownames(metadata) = colnames(raw.data)
identical(rownames(metadata),colnames(raw.data))

sce.all <- CreateSeuratObject(counts = raw.data) 
sce.all <- AddMetaData(object = sce.all, metadata = metadata) 
head(sce.all@meta.data, 10)
table(sce.all@meta.data$orig.ident) 
sce.all

# 计算线粒体基因比例
mito_genes <- rownames(sce.all)[grep("^MT-", rownames(sce.all),ignore.case = T)] 
print(mito_genes) #可能是13个线粒体基因
sce.all <- PercentageFeatureSet(sce.all, features = mito_genes, col.name = "percent_mito")
fivenum(sce.all@meta.data$percent_mito)

# 可视化
p1 <- VlnPlot(sce.all, group.by = "orig.ident", features = c("nFeature_RNA", "nCount_RNA", "percent_mito"), 
              pt.size = 0, ncol = 3) + NoLegend()
p1

很明显是没有线粒体基因的：

小提琴图：

2、看看 GSM4203181_data.matrix.txt.gz

这个文件要比上面那个很明显是经过质控后的数据大了很多，重新走一遍上面的流程代码即可，发现这两个数据没啥区别，细胞数和基因数是一样的：

那挖掘这个数据的文章做了什么呢？心里邪魅一笑...

写在文末

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的时隔5年，我们的生信技能树VIP学徒继续招生啦。

生信技能树

生物信息学学习资料分析，常见数据格式及公共数据库资料分享。常见分析软件及流程，基因检测及癌症相关动态。

最新文章

miRNA体外诊断试剂盒可靠吗？

转录噪声对RNA-Seq实验中基因和转录本表达量估计的影响

物种Beta多样性PCoA分析

Benchmarking：新鲜出炉的单细胞自动化癌细胞注释

nature communications 杂志同款三元图：Ternary plots

ggplot2（r包）绘制基因棒棒糖图

画出像烟花一样的单细胞umap图，原因竟然是？

G3viz（r包）绘制基因棒棒糖图

Omni-ATAC：更新和优化的ATAC-seq协议（NatProtoc）

GenVisR（r包）介绍：基因组可视化工具

生信技能树2025年展望

春节期间单细胞转录组数据分析全免费

再牛叉的技术也无法解决你网络问题（但是政策可以啊）

Python应该要会一点吧

绘制NC杂志同款高颜值小提琴图

maftools（r包）绘制棒棒图等

IF10+杂志文章只用统计学显著的差异基因做GSEA就合理吗？

trackview（r包）包绘制基因棒棒图

公众号已经接入人工智能大模型啦！

如何使用 uniprot ID 进行 KEGG 和 GO 富集？

如何对应两个不同单细胞数据集的分群结果？

python单细胞学习笔记-day6

综述：ATAC-Seq 数据分析工具大全

北京大学—统计基因组与遗传流行病学、功能与单细胞多组/AI方向诚聘博士后

python版本的功能富集分析：GSEApy

在这里看有哪些配色，2500+种！一键复制超方便

给你的单细胞umap图加个cell杂志同款的圈

python单细胞学习笔记-day5

喜大普奔，从此就没有了四青人才！

掌握Python，解锁单细胞数据的无限可能

python单细胞学习笔记-day4（续）

这种作者只提供了每组多个重复样本合并后数据的怎么办

年度总结 | 2024年Nature Communications计算生物学方法论文精选

高颜值复杂热图绘制小技巧

housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗？

65款单细胞亚群注释工具你用过几款？

一种很新的功能富集结果展示方法

100篇！华大时空组学Stereo-seq助力生命科学成果大爆发

单个基因在单细胞里面如何分析呢？

三种方式下载GEO芯片注释文件GPL

单基因绘制组间差异箱线图及ROC曲线

线粒体基因缺失之谜

python单细胞学习笔记-day4

顶刊 Science 文献两分组差异结果比较图复现

KEGG富集结果7大分类展示

5种方式美化你的单细胞umap散点图

python单细胞学习笔记-day3

顶刊Cell中这幅mRNA和蛋白质表达相关性图的生物学意义是什么？

python单细胞学习笔记-day1

python单细胞学习笔记-day2

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

线粒体基因缺失之谜

首先看看 GSE141445 数据背景

挖掘此数据的文章

为什么两个分析一样数据集的文章，前后出现了如此大的描述差异呢？你是选择相信原数据文章还是 挖掘它的文献？

上手分析这个数据看看

1、先看看 GSM4203181_data.raw.matrix.txt.gz

2、看看 GSM4203181_data.matrix.txt.gz

那挖掘这个数据的文章做了什么呢？心里邪魅一笑...

更多演示，可观看生信技能树的视频号：

写在文末

为什么两个分析一样数据集的文章，前后出现了如此大的描述差异呢？你是选择相信原数据文章还是挖掘它的文献？