10X单细胞转录组全方位吊打BD平台吗

文摘 2025-01-13 21:25 黑龙江

Smart-seq2和10x这两个单细胞技术是现在初学者进入单细胞领域最需要掌握的，它们代表着单细胞的两个全然不同的发展策略。

绝大部分的技术原理介绍会从单细胞悬浮液制备到测序细节面面俱到，其实并不那么的初学者友好。给大家推荐了一个高度精炼的综述，这个综述于2020年9月发表在《Experimental & Molecular Medicine》杂志，标题是：《Single-cell sequencing techniques from individual to multiomics analyses》，链接是：https://www.nature.com/articles/s12276-020-00499-2

首先呢，smart-seq2技术依赖于C1这个仪器，每次都是96个细胞一起测序，每个细胞的测序量这个综述可能是写错了，应该是1M-10M为佳，不太可能是100-1000个M，最重要的是它可以覆盖到整个RNA分子的全长测序，每个细胞都是独立的测序，独立的fastq文件哦。
然后呢，对于10X技术单细胞转录组呢，每次可以测好几千的细胞，每个细胞只需要5-10K的reads，而且仅仅是测RNA分子的一段即可，全部的细胞都混合在一起是一个fastq文件，虽然说有barcode可以区分，可以拆分成为不同细胞的表达量矩阵。正常情况下，大家只需要按需选择10x或者smart-seq2技术平台做单细胞转录组数据即可，但现在smart-seq2这样的细胞通量很低的技术已经式微了，基本上大家都会选择细胞通量高的平台，尤其是10X单细胞转录组技术。不过大家很可能会被BD技术平台的销售也吸引一下，陷入选择困难症，因为都细胞通量很高！最近在群里看到了一个2024的测评文章：《Comparative analysis of 10X Chromium vs. BD Rhapsody whole transcriptome single-cell sequencing technologies in complex human tissues》，基本上的结论是10X单细胞转录组全方位吊打BD平台。

线粒体含量问题

首先是BD平台的线粒体含量过高：

单细胞转录组测序中，如果观察到每个细胞的线粒体含量（即线粒体基因表达水平）过高，可能会有以下几种影响和解释：

细胞代谢活性高：

线粒体是细胞的能量工厂，负责产生大部分的细胞能量（ATP）。线粒体基因表达水平高可能表明细胞的代谢活性增强。

细胞类型特征：

某些细胞类型，如肌肉细胞，具有较高的线粒体含量，这是它们的正常生理特征。

细胞应激反应：

线粒体基因表达的增加可能是细胞对应激条件（如缺氧、营养缺乏等）的响应。

疾病状态指示：

在某些疾病状态下，如某些类型的癌症，肿瘤细胞可能会展示出较高的线粒体活性，以支持它们的快速增殖。

技术偏差：

高线粒体含量可能是由于测序或样本处理过程中的技术偏差。例如，基因组DNA的污染可能导致线粒体DNA被过度测序。

数据解释复杂性增加：

高线粒体基因表达可能会影响对细胞其他基因表达模式的分析和解释，因为线粒体序列在数据分析中可能需要特别处理。

细胞死亡和凋亡：

在某些情况下，线粒体基因表达的增加可能与细胞死亡和凋亡过程有关。

细胞分化状态：

线粒体活性的变化可能与细胞的分化状态有关，不同分化阶段的细胞可能有不同的能量需求和线粒体活性。

数据分析挑战：

高线粒体含量可能需要在数据分析时进行特别的考虑，比如在数据标准化和基因表达量估算时排除线粒体基因的影响。

研究假设检验：

高线粒体含量可能提示研究者检验与线粒体功能相关的生物学假设，如能量代谢、氧化应激等。在分析单细胞转录组数据时，研究者需要考虑线粒体基因表达水平的生物学意义和潜在的技术因素，以确保数据解释的准确性。如果必要，可能需要采取额外的步骤来校正线粒体基因的过度表达，以便更准确地分析细胞核基因的表达模式。

单个细胞检测到的基因数量问题

可以看到，具体到每个单细胞亚群，都是10x平台检测到的基因数量远多于bd平台哦：

在单细胞转录组测序中，每个细胞检测到的基因数量较高可能带来以下好处：

提高细胞类型分辨率：

检测到更多基因有助于更准确地区分不同的细胞类型和状态，因为每个细胞类型的基因表达谱是独特的。

增强异质性识别：

高基因检测数量有助于揭示细胞群体内部的异质性，即使是在看似相同的细胞群体中也可能存在不同的亚群。

改善功能分析：

检测到的基因越多，对细胞功能状态的推断就越准确，有助于理解细胞在生物学过程或疾病中的作用。

促进生物标志物发现：

更多的基因表达信息有助于识别潜在的生物标志物，这些标志物可以用于疾病诊断或治疗反应的预测。

支持复杂生物学过程的研究：

高基因检测数量有助于研究复杂的生物学过程，如细胞分化、发育和疾病进程。

提高数据的可靠性：

检测到的基因数量越多，数据集通常被认为越可靠，减少了由于技术变异或低表达基因遗漏带来的偏差。

增强多变量分析能力：

在进行聚类分析、主成分分析（PCA）等多变量统计分析时，更多的基因可以提供更丰富的数据维度。

改善基因网络和通路分析：

检测到的基因数量多，有助于构建和分析基因之间的相互作用网络和信号通路。

有助于罕见事件的检测：

某些生物学事件可能只涉及少数细胞，高基因检测数量有助于捕捉这些罕见事件。

提供更多的数据整合机会：

高基因覆盖率为不同样本或实验的数据整合提供了更多可能性，有助于跨研究比较和数据集的合并分析。然而，值得注意的是，每个细胞检测到的基因数量过高也可能带来一些挑战，如增加数据分析的复杂性、需要更大的计算资源和存储空间，以及可能需要更精细的数据预处理和标准化方法。因此，研究者需要在实验设计和数据分析时权衡这些因素，以确保结果的准确性和可解释性。

让我们重新分析这个数据（学徒作业）

大家可以打开 https://zenodo.org/records/8063560 就能下载到里面的 Prostate_RAW.h5ad 文件，约677M的文件。很容易读取进去走Seurat流程，代码如下所示：

#BiocManager::install("zellkonverter")
library(zellkonverter)
ad <- readH5AD('Prostate_RAW.h5ad') 
adata_Seurat <- as.Seurat(ad, counts = "X", data = NULL)
sce.all = CreateSeuratObject(
  counts = adata_Seurat@assays$originalexp 
)
as.data.frame(sce.all@assays$RNA$counts[1:10, 1:2])
head(sce.all@meta.data, 10)
table(sce.all$orig.ident) 
library(stringr)
phe=str_split(colnames(sce.all),'[-_]',simplify = T)
table(phe[,2])
phe=adata_Seurat@meta.data
sce.all$orig.ident=phe$sample

大家可以尽可能的复现一下文章里面的测评图表哈！

如下所示，可以看到具体的每个样品在每个平台下面的降维聚类分群的区别：

如果你也想做单细胞转录组数据分析，最好是有自己的计算机资源哦，比如我们的2024的共享服务器交个朋友福利价仍然是800，而且还需要有基本的生物信息学基础，也可以看看我们的生物信息学马拉松授课（买一得五），你的生物信息学入门课。

如果你有了生物信息学基础，仅仅是感兴趣单细胞的细致分析，就看看SBC的 Nature年度技术 | 单细胞及空间多组学实验技术与生信分析培训（暑期班）招生火热进行中

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

推荐账号，扫码关注

最新文章

基因组数据在精准医学中扮演什么角色

计算视觉 | Nat.Methods | 一个用于跨九种模态的生物医学对象联合分割、检测和识别的基础模型

前瞻 | Nature | 人类细胞图谱：从细胞普查到统一的基础模型

精准医学 | Nat.Med | 使用常规血液检测和临床数据预测癌症检查点抑制剂免疫治疗的疗效

Nat.Genet | 从 DNA 序列预测 RNA-seq 覆盖度作为基因调控的统一模型

生信程序 | Nat.Genet | 在疾病关联位点精细定位因果组织和基因

期刊泛读 | Cell 出版社 | 优质期刊

数据库合集 | 更新至 67 个

数据挖掘之中性粒细胞胞外陷阱相关预后模型

玩转服务器—你的数据是否完整？

ChIP-Seq 简介

基因的功能推断之单细胞亚群的特异性高表达

能根据差异基因来反推样品的分组情况吗

基因的功能推断之敲减过表达的干扰它

基因的功能推断之大队列的共表达分析（比如：WGCNA）

基因的功能推断之大队列表达量相关性排序后gsea分析

基因的功能推断之大队列高低分组后差异分析然后功能富集

单细胞揭示了结直肠癌微环境中肥大细胞的激活

共享服务器助力学习与分析！

你选择哪种三代测序

如何用血常规发 Nature，临床常见指标的深度挖掘

综述 | Nature | 更新一下关于 2 型免疫的认知

生信算法 | 矩阵分解除了NMF，也可以试试这个 NatGenet 新发的 GBCD 算法

机器学习模型都值得用Nature新算法尝试一下，作者似乎想要干掉传统机器学习

数据库介绍 | NAR | LncSEA 2.0：用于长非编码 RNA 相关的集合和富集分析

空间组学 | NatMethods | SpatialData: 一个开放和通用的空间组学数据框架

期刊泛读 | Cancer_Cell | 第 1 期 | If 48.8

髓外中性粒细胞生成：狡兔三窟？

玩转服务器—Jupyterhub一键开启Python学习之旅

学生信，谁还不是一个菜鸟啊？（至少曾经是吧）

肿瘤病人和正常人有差异表达但并不是说他们的血液层面就很显著

第一眼差点就被这个变化倍数唬住了

还有必要背诵和掌握正则表达式语法规则吗

硕博赶紧用起来！Cell53,026人蛋白质-表型资源库

如何用大语言模型做富集分析，这篇NatMethods文章教你

scRNA分析之后，如何看待结果和进行实验验证？这篇文章告诉你

人工智能 | NatMed | 用于疾病诊断辅助的通用医学语言模型

生信程序 | NatGenet | 使用潜在嵌入多变量回归分析多条件单细胞数据

数据库介绍 | NAR | SPDB：一个全面的资源和知识库，用于单细胞分辨率下的蛋白质组数据

细胞图谱 | NatMed | 人类血管细胞的器官型图谱

Cell | 健康与疾病中 53,026 名成人的血浆蛋白质组图谱 | 提供结果数据和源代码

玩转服务器—从卡顿到秒装，Conda焕新极速体验

10X单细胞转录组全方位吊打BD平台吗

转录组测序的表达量的两个归一化方向会影响差异分析吗

读《人类线粒体基因组》|系统回答：线粒体基因表达阈值到底卡多少合适

基于Python的Xenium空转分析流程

跟着Seurat官网学Xenium空转分析

肿瘤新抗原该怎么分析

强烈推荐！好看免费全面的在线绘图平台，点点即可快速组合成好看的示意图！

泛读合集 | 2024 全年 | Nature 系列优质期刊

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉