CytoTRACE：细胞分化潜能分析|生信开发实战

企业 2024-12-14 10:04 浙江

传统方法如谱系追踪和功能移植实验在研究细胞分化层次方面（尤其在人类组织中）具有局限性，而单细胞RNA测序（scRNA-seq）虽然是一种用于重建细胞分化轨迹的强大方法，但在推断细胞分化状态和方向上还具有挑战性。在如下这篇文章中，作者提出了一个名为CytoTRACE的方法来预测细胞分化状态。

文献名：Single-cell transcriptional diversity is a hallmark of developmental potential

期刊：Science

IF：44.7

发表日期：2020-01-24

CytoTRACE是一种使用基因计数和表达的细胞（Cyto）轨迹重建分析的计算方法，通过细胞表达基因数量来推断细胞分化状态。CytoTRACE 被开发用于在没有任何先验信息的情况下预测 scRNA-seq 数据中的分化状态。

CytoTRACE的主要特点和优势包括

1.无监督学习：不需要先验知识或中间细胞状态标记即可推断细胞分化轨迹。

2.广泛适用性：在多种组织和物种中表现出色，能够处理不同平台和技术生成的数据。

3.高精度：在多个数据集上验证，CytoTRACE的性能优于其他RNA特征和方法。

4.识别静止干细胞：能够区分具有长期再生潜力的静止（非循环）成人干细胞和更特化的细胞。
5.应用广泛：不仅适用于正常组织，还可用于研究癌症等疾病中的细胞分化层次。

CytoTRACE的潜在应用场景

目前预测细胞分化轨迹的常用软件有monocle和RNA速率分析，但是：

1.monocle需要人为二次判断起点；

2.RNA速率分析分析速度比较慢，需要额外生成loom文件，因此本软件cytotrace可以作为备用软件进行细胞分化分析。

cytotrace相较于这两款软件的优点如下：

1.分析速度快（3k多的细胞大概1分钟就能分析完）

2.可以直接判断起点（0：分化程度更高；1：分化程度较低）

同时，cytotrace需要输入坐标文件进行分析，因此不仅可以实现在tsne/umap聚类图上绘制cytotrace结果值，也可以基于拟时序分化轨迹图绘制该结果，从而实现monocle和cytotrace的联合分析，效果如下：

CytoTRACE 原理

接下来，我们来看下CytoTRACE 的运行原理

1.基因计数：第一步是计算每个细胞中可检测表达的基因数量。这是通过对每个单细胞表达大于零的基因总数求和来完成的。

2.基因计数特征（GCS）：第二步是捕捉表达模式与基因计数相关的基因。这是通过以下步骤完成的：

输入基因表达表被重新调整为每百万转录本 (TPM) 或每百万计数 (CPM)。

将每个单个细胞的转录本总和设置为该细胞中可检测表达的基因总数。这样做是为了将基因表达矩阵转换为相对转录物计数，或细胞裂解物中 mRNA 分子的估计丰度，我们和其他人已经证明这可以改进差异表达基因的检测。

生成的表达式矩阵是 log 2归一化的，伪计数为 1。

为了测量每个基因与基因计数的关系，计算每个基因的标准化表达和基因计数之间的 Pearson 相关性。

与基因计数最正相关的前 200 个基因的几何平均表达是基因计数特征 (GCS)。

3.CytoTRACE：最后一步是通过利用细胞之间的局部相似性并应用两步平滑程序来迭代改进我们对 GCS 向量的估计：

创建我们的最近邻图，我们将归一化的表达矩阵转换为马尔可夫过程，以捕捉单元格之间的局部相似性。

使用这个马尔可夫矩阵，然后我们将非负最小二乘回归 (NNLS) 应用到 GCS。这使我们能够将 GCS 表示为马尔可夫矩阵中捕获的不同转录邻域的函数。

应用扩散过程，根据马尔可夫过程的概率结构迭代调整 GCS。注意：这不是 GCS，而是经过 NNLS 调整的 GCS。

结果值在 0 和 1 之间进行排序和缩放，代表细胞的相对分化状态的预测顺序（0，分化程度更高；1，分化程度较低

CytoTRACE 操作步骤

根据自身的情况，我们可以选择指令化或者界面化的方式来进行CytoTRACE分析：运行 CytoTRACE 所需的只是一个由单细胞 RNA 测序生成的基因表达矩阵，其中列是细胞，行是基因/转录本。CytoTRACE网站（https://cytotrace.stanford.edu/）可以在线分析，要求此文件是大小小于 2.5 GB 且细胞数 < 15,000 个的文本 (txt)、制表符分隔值 (tsv) 或逗号分隔值 (csv) 文件。对于大于 2.5 GB 或细胞数大于 15,000 个的数据集，则需使用 R 包或 Docker 实现。

方式一：运行R代码

撰写一个R脚本，并运行：

library(CytoTRACE)library(Seurat)load("rData路径")# 导入细胞注释文件cell_annot<-read.table("cluster_annot.txt",header=F,sep="\t",quote="",check.names=F,stringsAsFactors =F)colnames(cell_annot)<-c("cluster","cells")if(!("seurat_clusters" %in% colnames(pbmc_filt@meta.data))){  pbmc_filt[["seurat_clusters"]]=pbmc_filt@meta.data$res.0.8}else{  print(head(pbmc_filt@meta.data))}cell.types <- vector("logical",length=ncol(pbmc_filt))for (i in 0:(length(levels(pbmc_filt@active.ident))-1)){  cells<-as.vector(cell_annot$cells[which(cell_annot$cluster==i,arr.ind = TRUE)])  cell.types[pbmc_filt@meta.data$seurat_clusters==i]<-cells}pbmc_filt[["celltype"]] <- cell.types
pbmc_filt_sub <- pbmc_filtIdents(pbmc_filt_sub) <- "celltype"expr <- as.data.frame(pbmc_filt_sub@assays$RNA@counts)pheno <- as.character(Idents(pbmc_filt_sub))names(pheno) <- names(Idents(pbmc_filt_sub))
# 获得tsne/umap坐标文件（可以更换为拟时序坐标）emb <- as.data.frame(pbmc_filt_sub@reductions$tsne@cell.embeddings)
results <- CytoTRACE(expr, ncores = 8)plotCytoTRACE(results, phenotype = pheno,emb=emb)#可视化与 CytoTRACE 相关的基因plotCytoGenes(results, numOfGenes = 10)

方式二：网页运行

进入CytoTRACE网站（https://cytotrace.stanford.edu/）

官方准备了针对三种不同分析需求的教程，在此不赘述：

CytoTRACE 结果说明

得到的结果值在 0 和 1 之间进行排序和缩放，代表细胞的相对分化状态的预测顺序（0：分化程度更高；1：分化程度较低），分化程度较低的细胞类型为起点细胞。同时将每一行基因 (每个基因在不同细胞中的表达量向量) 与 cytotrace结果值进行相关性计算，得到跟cytotrace结果（细胞分化状态）相关性较高的基因。

1）展示CytoTRACE和表型的t-SNE图：

2）如果每个单细胞都有表型标签，可以使用箱线图来总结每个表型的CytoTRACE值的中位数和分布：

3）预测基因与CytoTRACE的相关性：

参

考

文

献

Gulati GS, Sikandar SS, Wesche DJ, Manjunath A, Bharadwaj A, Berger MJ, Ilagan F, Kuo AH, Hsieh RW, Cai S, Zabala M, Scheeren FA, Lobo NA, Qian D, Yu FB, Dirbas FM, Clarke MF, Newman AM. Single-cell transcriptional diversity is a hallmark of developmental potential. Science. 2020 Jan 24;367(6476):405-411. doi: 10.1126/science.aax0249. PMID: 31974247; PMCID: PMC7694873.

本文系联川生物公众号原创文章，未经授权禁止转载，侵权必究！

扫描下方二维码





点分享

点点赞

点在看

联川生物

一个提供科研入门学习资源、经验的平台。分享前沿测序技术资讯、实用生信绘图技巧及工具。发布高质量的科研论文精度、精炼科研思路。我们的目标是持续提供“干货”，滋润您的科研生涯。

如何使用MISA分析基因组SSR序列 |生信实战开发

通过综合代谢组学和宏基因组学研究低盐豆辣椒酱的风味形成特征

单细胞空间联合分析之CellTrek |生信实战开发

Bisque：根据单细胞信息估算bulk数据中细胞组成|生信开发实战

DNA甲基化修饰研究思路——备战国自然2025

值得你关注的“微塑料”热门研究方向（上）

微生物功能基因能做些啥（上篇）

RNA表观：m6A课题设计思路-国自2025专题

Cell：2500个食物宏基因组中未被探索的巨大微生物多样性及其与人类微生物组的联系

探索升级|“动物单细胞前沿研究线上论坛”，联川携手华大智造解读单细胞新热点！

第四季度联川党支部参观党史馆活动圆满结束！

空间代谢多组学研究思路解析--备战国自然2025

CytoTRACE：细胞分化潜能分析|生信开发实战

联川用户文章：单细胞核转录组揭示茶树根尖的细胞类型特异性基因表达和调控网络

Visium HD数据分析之Bin2Cell |生信开发实战

国自然热点：乳酸化修饰蛋白组在神经系统中的研究思路∣修饰蛋白组学专题

2025国自然热点|单细胞+时空多组学在神经科学领域怎么研究？

ROC分析介绍|生信开发实战

空间代谢组在肿瘤代谢中的研究思路-备战国自然2025

国自然2025热点：空间组学有哪些分析内容？

持续性有机污染物与微生物，热点持续，研究思路解析助力国自然申报

国自然2025：单细胞&单细胞核测序有必要一起做吗？

Mol Cancer用户文章：单细胞转录组测序揭示肺腺癌中磨玻璃结节和部分实性结节在侵袭和转移过程中免疫微环境的生态位转换

如果使用find_circ来鉴定circRNA|生信开发实战

单细胞免疫组TCR/BCR多样本使用cellranger aggr整合分析|生信开发实战

NC：GWAS+meQTL揭示DNA甲基化在欧洲和东亚人群中大体相同

为什么大家都在做Astral-DIA？蛋白组学技术平台比较-备战国自然2025

解析细胞功能基因集变异——遇见GSVA|生信开发实战

2025国自然热点|冻存样本snRNA-seq的应用现状

国自然2025：单细胞+bulk转录组如何开展研究？|生信开发实战

用户文章Cell Metab：miRNA+16s联合揭示水苏糖调节消化道营养新机制

国自然2025：空间组学和Xenium原位技术如何实现细胞分割？

单细胞评分分析R包Ucell

中国声音｜浙大邵逸夫医院团队利用Olink蛋白组学加速脓毒症分型及精准化诊疗

好礼不停歇！联川生物2025台历，包邮免费送！

首家拥有自动化产线&DCS Lab的生物企业！联川生物与华大智造达成战略合作

空间代谢多组学研究思路-备战国自然2025

单细胞细胞通讯分析之CellChat v2

空间转录组细胞注释软件之Cell2location |生信开发实战

2025国自然热点| 联川生物华大时空转录组V1.3震撼上线，正式开启项目服务

备战国自然2025：乳酸化修饰蛋白组在植物中的研究思路∣修饰蛋白组学专题

备战国自然2025：为什么做了Visium/CytAssist，还要做单细胞测序？

单细胞代谢分析之-scFEA

单细胞+时空原位分析揭示发育中小鼠大脑的空间结构特征∣时空原位研究范式

单细胞代谢分析之-scMetabolism

干货 | 单细胞专题（20241122更新）

干货 | 空间转录组专题（20241122更新）

项目经验分享|低占比目标细胞的单细胞分选策略

国自然2025热点：做了Visium HD，还需要做单细胞测序吗？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉