读《人类线粒体基因组》|系统回答:线粒体基因表达阈值到底卡多少合适

文摘   2025-01-12 21:14   江苏  


跟着运来兄搭建自己的生物信息小书房。趁年轻,读几本硬书,到老了慢慢反刍。

《人类线粒体基因组》是咱们生信书房推荐的第59本书,点击题图👆查看列表。之所以会关注到这本书,是因为单细胞数据分析中的一个经常需要考虑的问题:

单细胞转录组数据质控中,线粒体基因阈值卡多少合适?

何出此问?有几方面的原因:

  • 线粒体基因表达量高,说明样本质量可能不好
  • 数据分析中,垃圾进垃圾出(garbage in,garbage out,GIGO)
  • 在Seurat/scanpy标准教程中,有一个适用于PBMC的阈值,但是其他组织不知道。
# The [[ operator can add columns to object metadata. This is a great place to stash QC stats
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
...
pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mt < 5)

我们总是对未知有着某种恐惧,万一数据不好,那不是瞎子点灯--白费啦了吗?所以一定要去除干净才好往下分析。

以上相当于前情回顾,也是出现频率比较高的问题。下面提几个出现频率虽然不高,但是依然也很经典的问题:

  • 周老师,我做的是单细胞核测序(snRNA)为啥也能检测出线粒体基因呢?细胞核测序,提核操作已经把线粒体过滤倒掉了吧?(认为MT-开头的基因只在线粒体中表达)
  • 周老师,做精子单细胞测序,应该没有线粒体吧?我们知道,线粒体基因组(mtDNA)是通过母系遗传的,也就是我们人类来说,线粒体基因组只来自母亲的卵子吧?(不知道父系来源线粒体基因怎么清除的)

以上问题的答案往往被以下以下答案含混地应付过去:

  • 老师好,线粒体基因的表达其实和组织类型,疾病进展有关,其实没有一个统一的阈值,不是非常离谱就没问题,可以接着往下分析。
  • 老师,毕竟我们不是专门研究线粒体的,这部分在文章也不会深入讨论,我们接着往下分析就行。
  • 老师,人家已经发表的文章里的阈值,不一定适合我们,毕竟已经发表的文章,一般也是经过质控了的,所以数据质量看起来会很好。

那么,您对以上回答满意吗?接受吗?

小小的线粒体真的值得我们花这么多精力吗?答案是,值得。并且值得我们买本书来了解线粒体基因的方方面面,这本书我推荐的就是:《人类线粒体基因组 : 从基础生物学到临床》。

在粗略地翻完本书之后,特别是结合我们已经遇到关于单细胞转录组数据质控线粒体这么多疑问之后,回过头来再看以上问题。

首先,线粒体表达量高,确实是样本质量不好的指征之一。但是这句话,应该这样看:

  • 第一,这里的高是与谁比较的,那得是同一个样本的正常水平。我们不能拿PBMC的线粒体基因表达量去衡量心脏组织的。
  • 第二,这里说的分辨率是样本,而不是单细胞,也就是这个质控是在样本这个维度上的,也就是说bulk的数据也许是一个很好的参考。
  • 第三,教程计算线粒体基因表达用的是^MT-,也就是默认为基因名称中以大写字母MT和横杠开头的都是线粒体基因,而不论这个基因是在细胞核里表达还是在线粒体(mitochondrion)里面表达。

所以,这本《人类线粒体基因组 : 从基础生物学到临床》告诉了我们什么呢?首先告诉我们,线粒体基因也是有异质性的。这个异质性体现在几个方面:

  • 不同组织的线粒体基因组是不同的,就算是同一个组织,不同细胞的线粒体基因组可能是一套或多套
  • 维持线粒体基因表达,同时需要线粒体中的基因与细胞核里的基因,也就是需要两个物理空间上分离的基因组协调配合
  • 核内线粒体序列的发现与验证
  • 父系来源的线粒体基因的在早期胚胎的清除假说
  • 现阶段线粒体DNA与哪些疾病有关
  • 哺乳动物间线粒体的转移

知其然还要知其所以然。一个小小的线粒体,居然有这么多故事可以讲,这不是一个阈值能解决的了的。在读这本书的间隙,刚好和一个老师聊到单细胞数据质控标准问题。大家都觉得,现在单细胞数据分析的框架都有了,但是对什么是好什么是不好,并没有共识,这里面还有很多细节值得深思。是我们之前的数据分析过于大条了,不管什么基础上来就能按照教程分析单细胞数据,而且看似毫无问题。

我最大的感慨是,随着单细胞数据分析的深入,会有更多的细节被我们发现,标准也许很远,但是每个课题组会更加专注于本课题组的样本类型、疾病类型、实验条件。也意味着,通用标准流程的参数需要与课题组具体条件相结合。

所以,单细胞转录组数据质控中,线粒体基因阈值到底卡多少合适?!


参考:
《人类线粒体基因组 : 从基础生物学到临床》是2024年中国科学技术出版社出版
https://satijalab.org/seurat/articles/pbmc3k_tutorial
Otto G. Berg, C. G. Kurland, Why Mitochondrial Genes are Most Often Found in Nuclei, Molecular Biology and Evolution, Volume 17, Issue 6, June 2000, Pages 951–961, https://doi.org/10.1093/oxfordjournals.molbev.a026376


生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
 推荐账号,扫码关注
推荐账号二维码
 最新文章