单细胞Augur细胞扰动差异分析学习和整理

文摘 2024-09-30 14:06 日本

细胞受到各种外部刺激之后导致状态/功能/形状等发生变化(暂时/永久)，这种改变现象可以被笼统称为“扰动”。

而我们作为生物医学领域的研究者，恰恰就是要研究这种“扰动”，以此探明生物学表象下的更深层次“逻辑”。

Augur工具可以帮助我们比较不同条件下单细胞RNA的扰动差异，从而初步识别出哪些细胞群体的扰动最为显著。Augur 使用的机器学习框架依赖于分类算法，随机森林（Random Forests）或逻辑回归（Logistic Regression），这些算法非常适合处理具有高维特征空间的单细胞数据。它采用的训练分类器根据细胞测量数据预测扰动状态（比如疾病与否），并根据分类的效果来优先考虑细胞类型，这一效果通过受试者效应曲线下面积(AUC)来表示。

分析流程

1.导入

# 1.导入
```{r}
rm(list = ls())
V5_path = "/Library/Frameworks/R.framework/Versions/4.4-arm64/Resources/seurat5/"
.libPaths(V5_path)
.libPaths()
library(stringr)
library(Seurat)
library(Augur)
library(dplyr)
library(patchwork)
library(viridis)
library(qs)
library(BiocParallel)
register(MulticoreParam(workers = 4, progressbar = TRUE))

load("scRNA.Rdata")

2.数据预处理

创造出了batch/group信息

# check
table(scRNA$orig.ident)
table(scRNA$celltype)

dat <- scRNA@meta.data
# 增加一下批次信息,转换成数字
dat$batch <- ifelse(grepl("sample2|sample4|sample6", dat$orig.ident), "1", "2")
# 增加一下分组信息，这里是随意编造的
dat$group <- ifelse(grepl("sample[1-3]", dat$orig.ident), "con", "treat")
scRNA@meta.data <- dat

3.单一组别不同条件下augur分析(比如治疗前后)

# 此函数的主要目的是评估并计算每种细胞类型在特定条件（如实验组别或时间点）下的表现，通常通过计算区域下曲线（AUC）来量化。它是单一条件下的细胞类型表现的度量，可以帮助识别在特定实验设置下哪些细胞类型表现最为显著或重要。
augur <- calculate_auc(scRNA,
                       cell_type_col = "celltype", # 细胞亚群数据
                       label_col = "group", # 实验分组数据
                       n_threads = 8)
qsave(augur,"augur.qs")

head(augur$AUC, 5)
# # A tibble: 5 × 2
#   cell_type      auc
#   <fct>        <dbl>
# 1 NK cells     0.822
# 2 Fibroblasts  0.745
# 3 Neutrophils  0.66 
# 4 B-cells      0.623
# 5 CD8+ T-cells 0.606

4.可视化

# 明确哪个细胞群体的RNA水平变化最大
# plot_lollipop函数是基于ggplot框架的,所以很容易就可以美化图片
# 还可以提取原始函数进行修改
plot_lollipop(augur) +
  geom_segment(aes(xend = cell_type, yend = 0.5), size = 1) +
  geom_point(size = 3, aes(color = cell_type)) +  # 增加点的大小和颜色映射
  scale_color_manual(values = c(
    "NK cells" = "#1f77b4",       # 蓝色
    "Fibroblasts" = "#ff7f0e",    # 橙色
    "Neutrophils" = "#2ca02c",    # 绿色
    "B-cells" = "#d62728",        # 红色
    "CD8+ T-cells" = "#9467bd",   # 紫色
    "Monocytes" = "#8c564b",      # 棕色
    "Adipocytes" = "#e377c2",     # 粉色
    "CD4+ T-cells" = "#7f7f7f"    # 灰色
  )) 

# 结合umap
# rank模式
plot_umap(augur,scRNA,
          mode = "rank",
          reduction = "umap",
          palette = "cividis",
          augur_mode = "default",
          cell_type_col = "celltype")

# default模式
plot_umap(augur,scRNA,
          mode = "default",
          reduction = "umap",
          palette = "YlGnBu", #  "viridis", "plasma", "magma", "inferno"
          augur_mode = "default",
          cell_type_col = "celltype")

plot_lollipop展示了在不同处理情况下(group)中变化最显著的细胞(根据AUC值)mode中的rank和default模式的区别在于是否用AUC值进行颜色映射。

5.两组别(比如A和B药)不同条件下(比如治疗前后)augur分析

# 这个函数使用来自 calculate_auc 的输出进行更深入的分析，比较两个不同条件下的AUC分数，以识别统计上显著的差异。通过置换测试（permute），该函数评估两个条件下细胞类型优先级的变化是否显著，超过了随机变化的可能性

# 拆分数据-笔者假设batch是不同的药物
scRNA.list <- SplitObject(scRNA, split.by = "batch")

# 初始化结果列表
augur_results <- list()
permuted_results <- list()

# 计算每个批次的AUC
for (i in seq_along(scRNA.list)) {
  # 从列表中获取当前的Seurat对象
  current_scRNA <- scRNA.list[[i]]

  # 正常模式计算AUC
  normal_augur <- calculate_auc(current_scRNA,
                                cell_type_col = "celltype",
                                label_col = "group",
                                augur_mode = "default",  # 使用默认模式
                                n_threads = 8)
  augur_results[[i]] <- normal_augur

  # 置换模式计算AUC
  permuted_augur <- calculate_auc(current_scRNA,
                                  cell_type_col = "celltype",
                                  label_col = "group",
                                  augur_mode = "permute",  # 使用置换模式
                                  n_threads = 8)
  permuted_results[[i]] <- permuted_augur
}

# 保存结果
qsave(augur_results, "augur_normal_list.qs")
qsave(permuted_results, "augur_permuted_list.qs")

# 如果需要比较第一个和第二个批次的差异
res <- calculate_differential_prioritization(augur_results[[1]],
                                             augur_results[[2]],
                                             permuted_results[[1]],
                                             permuted_results[[2]],
                                             n_subsamples = 50,
                                             n_permutations = 1000)
res
# # A tibble: 5 × 9
#   cell_type    auc.x auc.y delta_auc     b     m     z    pval    padj
#   <fct>        <dbl> <dbl>     <dbl> <int> <int> <dbl>   <dbl>   <dbl>
# 1 Adipocytes   0.753 0.671   -0.0824   998  1000 -3.13 0.00599 0.00599
# 2 CD8+ T-cells 0.734 0.639   -0.0954  1000  1000 -4.45 0.00200 0.00500
# 3 Fibroblasts  0.711 0.790    0.0786     0  1000  4.06 0.00200 0.00500
# 4 Monocytes    0.619 0.679    0.0603     1  1000  2.93 0.00400 0.00500
# 5 CD4+ T-cells 0.588 0.645    0.0573     1  1000  3.20 0.00400 0.00500

plot_scatterplot(augur_results[[1]],augur_results[[2]],top_n = 6)+
  geom_point(size = 3, aes(color = cell_type))   # 增加点的大小和颜色映射

X轴 (AUC 1) ：表示第一个实验条件下的AUC值。Y轴 (AUC 2) ：表示第二个实验条件下的AUC值。

对角线 ：虚线表示两个条件下AUC值完全相同的情况。如果某个点位于对角线附近，说明这个细胞类型在两个条件下的AUC几乎没有变化。离线越远的点，表示AUC变化越大。

点的颜色 ：颜色条代表AUC值变化的方向和大小。蓝色表示在第二个条件下AUC值降低，红色表示AUC值上升。颜色的深浅表示变化幅度，深蓝色表示负的变化较大，而深红色表示正的变化较大。

Fibroblasts：这个细胞类型位于对角线的上方，且呈红色，说明在第二个条件下，Fibroblasts的AUC值较高，优先级增加。Adipocytes：这个细胞类型位于对角线下方，且呈蓝色，说明在第二个条件下，Adipocytes的AUC值较低，优先级减少。Monocytes、CD4+ T-cells 和 CD8+ T-cells：这些细胞类型相较于对角线有不同的偏移，说明它们在两个条件下的AUC值也有所不同，但变化幅度相对较小。还有一些细胞类型的AUC值比较小所以没有被显示(不同组别/条件的影响更小)。

参考资料：

Cell type prioritization in single-cell data. Nat Biotechnol. 2021 Jan;39(1):30-34.
Augur：https://github.com/neurorestore/Augur
单细胞天地：https://mp.weixin.qq.com/s/FlO4fN5AlcyZ81llzHE5Ag

注：若对内容有疑惑或者有发现明确错误的朋友，请联系后台(欢迎交流)。更多内容可关注公众号：生信方舟

- END -

http://mp.weixin.qq.com/s?__biz=MzkwMjYyMDA1OA==&mid=2247485881&idx=1&sn=e0b4dda9e92118b18de048d3c99adce8

生信方舟

执着医学，热爱科研。站在巨人的肩膀上，学习和整理各种知识。

最新文章

郑大一附院胃肠外科6.8分力作，旧活新整，来看看你是否能学会~

临床预测模型-静态诺模/列线图(Nomogram)+校准曲线(Calibration)分析学习

单细胞cluster/细胞亚群的标志识别工具—FindAllmarkers/presto/COSG/starTracer算法学习

miRNA测序数据的上游定量流程实战演练

临床预测模型/机器学习-偏最小二乘回归plsRcox算法学习

临床预测模型/机器学习-生存分析支持向量机SVM(survivalsvm)算法学习

临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习

临床预测模型/机器学习-Coxboost算法学习

主动脉瘤形成的新机制：促红细胞生成素（EPO）

CSC申报流程及日本留学感受

同济大学最新多组学爽文，大力才能出奇迹！

miRNA分析流程学习(四)/miRNA芯片数据差异分析再学习以及异常火山图可能原因解释

🧬 下游笔记1：最全pySCENIC报错解决！

miRNA分析流程学习(三)/miRNA靶基因预测-ENCORI数据库数据下载

miRNA分析流程学习(二)/TCGAmiRNA数据三大R包整合差异分析再学习

miRNA分析流程学习(一)/TCGAmiRNA数据下载

转录组上游分析流程(四）

转录组上游分析流程(三）

转录组上游分析流程(二）

转录组上游分析流程(一）

看完还不会来揍/找我 | TCGA 与 GTEx 数据库联合分析 | 附完整代码 + 注释

Linux常见命令回顾/转录组上游分析环境部署(Mac/M1/M2)

空间单细胞转录组Cell2location分析流程学习

单细胞空间转录组RCTD去卷积分析学习和整理

单细胞空间转录组分析流程学习python版(三)

单细胞空间转录组分析流程学习(二)

单细胞空间转录组分析流程学习(一)

单细胞copyKat分析学习和整理

tigeR免疫治疗数据分析工具学习和整理

单细胞Ro/e分析学习和整理

单细胞METAFlux分析学习和整理

Cell & Bioscience | 一篇很好的生信复现文献(提供部分代码/联系热点/工作量扎实/图片美观）

将bulk数据特征整合进单细胞数据中：R包scAB

WGCNA加权基因共表达网络多步法分析学习

原始代码给的这么全，这么基础的生信图谱文章，咱们能不学吗？

单细胞hdWGCNA分析学习和整理

单细胞scDist细胞扰动差异分析学习

单细胞scMetabolism代谢相关通路分析学习和整理

单细胞Augur细胞扰动差异分析学习和整理

单细胞miloR分析(基于 KNN 图的细胞差异丰度分析方法)

单细胞Seruat和h5ad数据格式互换(R与python)方法学习和整理

单细胞Scanpy流程学习和整理(分析簇间差异基因/细胞注释/数据保存)

单细胞Scanpy流程学习和整理(单样本10X数据读取/过滤/降维/聚类)

单细胞SCENIC简单可视化分析学习和整理

单细胞monocle3分析流程再整理

单样本Cellchat(V2)细胞通讯分析学习和整理

单细胞BisqueRNA和BayesPrism(贝叶斯棱镜)去卷积分析工具简单比较

算不上什么大错误的成纤维细胞亚群的细分操作

CytoTRACE2可视化进阶(修改坐标维持umap图前后一致)

CytoTRACE2单细胞分化潜力预测工具学习

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉