测试|cytotrace v1使用不同细胞数对结果的影响

文摘 2024-05-22 20:38 江苏

Part1背景

虽然我们经常使用Monocle来推断不同细胞类群之间的分化轨迹，但是这些轨迹分析软件并没有办法判断起点，即找不出分化程度最低(干性最高)的组细胞亚群。那么我们需要结合生物学背景来对monocle的起点进行修改。那么有没有一款软件，可以不需要先验知识，就能判断起点呢？也是有的。CytoTRACE这个工具发表于2020年，是专门用来评估单细胞数据中各细胞亚群的分化潜力，从而鉴定出组细胞的工具。前不久cytotrace2也已发布，这个工具还是很有潜力的。iCytoTRACE的安装稍稍有一些麻烦，不过如果不需要用的话跳过这个模块也没关系，我们将在更新完monocle系列后推送cytotrace从安装到分析流程的完整代码【点赞对一只羊催更】

最近我在分析数据时因为数据量较大服务器上也跑不动，所以顺手记录了使用所有细胞or软件默认的FAST模式/自行downsample结果的差异，供大家参考。

Part2run_cytotrace函数使用方法

我已经将cytotrace的代码及所需结果打包为run_cytotrace函数，使用方法为

run_cytotrace(out_dir = out_dir,#输出路径
obj           = PRO,#seurat对象
idents        = "seurat_clusters",#分群所在列
prefix        = "enableFast",#输出文件前缀
downsample    = 1000,              #max cell number per cluster [default: 1000]
slot          = "data",            #提取矩阵时的slot，count或data，
topgene       = 10,
enableFast    = FALSE,             #默认TRUE会进行subsample，FALSE为使用所有细胞
subsamplesize = 10000,             #当enableFast = TRUE时生效，默认subsamplesize到1000
ncores        = 5,                 #当enableFast = TRUE时生效
reduction     = c("tsne","umap"),  #降维图展示
barplot.sort.by=median,#按中值排序,可使用max,min,mean等
return        = FALSE)

demo视频：

【【单细胞转录组R包开发】使用cytotrace进行细胞分化分析-哔哩哔哩】 https://b23.tv/LF0hK7w

以下只展示boxplot的结果。要注意的是，cytotrace默认当细胞数量超过3000个时自动采用fast模式，并默认只使用1000个细胞进行分析，如果想使用所有细胞需要手动设置。那么，cytotrace的这个设置是合理的吗？不用所有细胞只用部分细胞也能得到稳健的结果？

Part3单样本结果测试

单样本细胞数一般在一万左右，对于服务器来说使用所有细胞也没有压力。但是要注意了，cytotrace默认并不是使用所有细胞的。这里选用的数据有9936个细胞，6个分群，根据注释判断6为cycling细胞，3为分化早期的细胞。

使用所有细胞

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj           = PRO,
idents        = "seurat_clusters",
prefix        = "single_all_cells",
downsample    = NULL,
enableFast    = FALSE)

输出结果：

The number of cells in your dataset exceeds 3,000. CytoTRACE will now be run in fast mode (see documentation). You can multi-thread this run using the 'ncores' flag. To disable fast mode, please indicate 'enableFast = FALSE'.
CytoTRACE will be run on 1 sub-sample(s) of approximately 9936 cells each using 1 / 5 core(s)
Pre-processing data and generating similarity matrix...
Calculating gene counts signature...
Smoothing values with NNLS regression and diffusion...
Calculating genes associated with CytoTRACE...
Done

可以看到设置enableFast = FALSE时使用了所有细胞。

cytotrace的分析结果和注释结果对应：即cycling和分化早期的细胞cytotrace得分最高。

使用1000个细胞

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj             = PRO,
idents          = "seurat_clusters",
prefix          = "subsamples",
downsample      = NULL,
enableFast      = TRUE,
subsamplesize = 1000)

输出结果：

The number of cells in your dataset exceeds 3,000. CytoTRACE will now be run in fast mode (see documentation). You can multi-thread this run using the 'ncores' flag. To disable fast mode, please indicate 'enableFast = FALSE'.
CytoTRACE will be run on 10 sub-sample(s) of approximately 994 cells each using 5 / 5 core(s)
Pre-processing data and generating similarity matrix...
Calculating gene counts signature...
Smoothing values with NNLS regression and diffusion...
Calculating genes associated with CytoTRACE...
Done

当我们设置enableFast = TRUE，并且subsamplesize = 1000时，使用了994个细胞进行分析。可以发现对于这个样本，无论使用所有细胞还是只用994个细胞，基本是没有差异的。

Part4多样本结果测试

在对多样本进行分析时，使用所有细胞对内存就比较有压力了。当这里共有63953个细胞时就出现了报错，所以只能使用部分细胞。根据注释，判断14/15群为cycling细胞，2群为分化早期的细胞。

The number of cells in your dataset exceeds 3,000. CytoTRACE will now be run in fast mode (see documentation). You can multi-thread this run using the 'ncores' flag. To disable fast mode, please indicate 'enableFast = FALSE'.
CytoTRACE will be run on 1 sub-sample(s) of approximately 63953 cells each using 1 / 1 core(s)
Pre-processing data and generating similarity matrix...
/gss1/home/lwr/.lsbatch/1715911546.644616: 行 8: 26729 已杀死               Rscript test.R

downsample

假如进行downsample，这里相当于每个群最多1000个细胞。

PRO
#33255 features across 63953 samples within 1 assay
table(PRO@meta.data$seurat_clusters)
#     1     2     3     4     5     6     7     8     9    10    11    12    13
# 13073  9792  6842  4288  3926  3668  3548  2999  2998  2370  1791  1675  1659 
#    14    15    16    17    18    19 
#  1472  1282  1110   620   575   265

pro = subset(PRO,downsample=1000)
#33255 features across 17460 samples within 1 assay
table(pro@meta.data$seurat_clusters)
#    1    2    3    4    5    6    7    8    9   10   11   12   13   14   15   16
# 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 1000 
#   17   18   19 
#  620  575  265

我们测试一下会得到怎样的结果。

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj           = PRO,
idents        = "seurat_clusters",
prefix        = "test1",
downsample    = 1000,              
enableFast    = FALSE)

当每个群最多取1000个细胞时，用17460个细胞进行分析，结果如下：

cycling细胞14/15群有较高的cytotrace得分，cytotrace在判断这类细胞还是比较准的。按中位数排序为

15>14>10>1>2>9>3>5>18>19>8>4>17>6>13>11>7>16>12

每个群最多取N个细胞似乎不太合理。接着设置取一万个细胞看一下。

使用10000个细胞

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj           = PRO,
idents        = "seurat_clusters",
prefix        = "test3",
downsample    = NULL,          
enableFast    = TRUE,          
subsamplesize = 10000)

按中位数排序为

15>14>1>9>3>2>10>4>13>17>16>18>5>19>8>11>6>7>12

可以看到除了cytotrace得分最高/低的14/15/12群，其它群的排序出现了变化。

使用20000个细胞

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj           = PRO,
idents        = "seurat_clusters",
prefix        = "test4",
downsample    = NULL,    
enableFast    = TRUE,    
subsamplesize = 20000     
)

在使用21318个细胞进行分析时，按中位数排序为

15>14>1>9>3>2>10>4>17>13>16>18>5>8>19>11>6>7>12

使用1000个细胞

以上是采用10000/20000个细胞进行分析，那么cytotrace默认的只用1000个细胞结果怎样？设置enableFast = TRUE, subsamplesize = 1000后最终采用999个细胞进行分析。

run_cytotrace(out_dir ="~/2024/test/cytotrace/",
obj           = PRO,
idents        = "seurat_clusters",
prefix        = "test2",
downsample    = NULL,          
enableFast    = TRUE,          
subsamplesize = 1000
)

按中位数排序为

15>1>14>9>3>2>10>4>13>17>16>18>5>19>8>11>6>7>12

Part5小结

由此可见，对于单样本的情况，使用所有细胞还是只使用cytotrace默认的FAST模式，使用1000个细胞来分析基本上不会影响结果，如果不放心的话两种方式可以都跑一下。

当细胞数量较大时，使用所有细胞会比较有压力，你可以自己去抽取部分细胞减少细胞数（注意抽取方式是否合理），也可以直接采用cytotrace的FAST模式使用部分细胞进行分析。

#downsample
15>14>10>1>2>9>3>5>18>19>8>4>17>6>13>11>7>16>12
#1000
15>1>14>9>3>2>10>4>13>17>16>18>5>19>8>11>6>7>12
#10000
15>14>1>9>3>2>10>4>13>17>16>18>5>19>8>11>6>7>12
#20000
15>14>1>9>3>2>10>4>17>13>16>18>5>8>19>11>6>7>12

对于cytotrace的抽取细胞方式，结果还是比较稳健的，可以放心使用。

END

付费合集

最新文章

【代码】Ro/e分析量化单细胞亚群分布偏好

文献分享 | 烟草幼苗期单细胞转录组图谱 | 植物单细胞互作分析

【代码】美化 | 单细胞转录组多组差异基因火山图/环形火山图

【视频+代码】CellPhoneDB v5 | CellPhoneDB v5 可视化之网络图和贝壳图

文献分享 | 拟南芥叶片感染假单胞菌的单细胞图谱

【视频+代码】CellPhoneDB v5 | CellPhoneDB v5 可视化之热图改进

【视频+代码】CellPhoneDB v5 | 下载安装、代码实操及结果解读

单细胞转录组高级分析 | CellPhoneDB v5简介

环境配置 | homer安装

环境配置 | MACS2简介

【视频+代码】使用Liger进行综合非负矩阵分解(iNMF) | 不同批次/平台/物种/模态整合方案

【视频】跟着Cell Metabolism学作图 | 使用Plot1Cell包绘制单细胞降维图

【单篇付费】细胞分化分析|monocle1原理

【单篇付费】高级分析之细胞分化 | monocle2原理

【单篇付费】高级分析之细胞分化 | monocle2安装及实战

年中回顾 | 一只羊的2023年总结&2024规划

提供10G+练习数据，零基础做ER，柳叶刀，Nature的技术方案：影像组学人工智能实操培训班＋数据委托实验

Linux | shell脚本封装模板（内含资源分享）

高通量测序 | 高通量测序的发展历程（内含资源分享）

分子标记 | popgene32使用限制

文献分享 | 武汉大学王坤教授和周宇教授团队利用单细胞技术发现棉纤维细胞昼夜节律性生长的调控机制

文献复现4 | 人类肝细胞图谱2

文献复现3 | 人类肝细胞图谱1-数据下载

scATAC | 桑基图可视化liger整合结果（包含NA值的处理）

【单篇付费】细胞分化分析|轨迹分析的基本概念

【单篇付费】细胞分化分析|轨迹分析的基本概念2

【单篇付费】Cellranger单细胞转录组上游分析流程回顾|非人/小鼠特殊物种gtf文件修改添加线粒体、叶绿体标记

高级分析之细胞分化 | monocle2安装及实战

单细胞实战-拟南芥根(3)-使用monocle2构建细胞分化轨迹

scATAC | 使用Liger v2整合单细胞转录组和染色质开放数据

生信不要总是局限在预后模型

scATAC|如何描述基因表达与染色质开放的相关性

哇塞！你敢信？生信领域要“变天”了新技术问世，将打破困扰科研界长久以来的难题！

2019-2024年上半年单细胞多组学在植物研究中的发文情况

文献分享 | 浙江大学樊龙江团队绘制首张水稻种胚单细胞时空图谱

小技巧|使用GenomicFeatures包轻松获得基因长度

表观遗传|ChIP-seq、CUT&Tag和CUT&RUN

高级分析之细胞分化 | monocle2原理

文献分享 | 拟南芥茎尖的单细胞转录组分析

scATAC | 使用Cell Ranger ATAC进行上游分析（适用于非人/小鼠）

Nature重磅 | 颠覆认知：华人学者首次揭示“表观遗传”由细胞质中“无名小卒”精细调控！

文献分享 | 整合单细胞分析揭示肾透明细胞癌的转录和表观遗传调控特征

文献分享|水稻根尖单细胞转录组及染色质可及性图谱

多端同步|Typora+GitHub+jsDelivr+Picgo搭建图床

生信指北|开源第一步，GitHub白嫖学生包认证流程

表观多组学|DNA甲基化相关基础知识

RNA-seq|样本相关性散点图

测试|cytotrace v1使用不同细胞数对结果的影响

代码笔记容易忘？推荐这款Markdown写作神器Typora（附MAC版下载）

文献分享-2023-scPlant：植物单细胞转录组数据分析的框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉