【斑马鱼肾脏】多个单细胞数据整合分析（二）

文摘 2024-11-13 13:30 北京

作者用了SCT来整合24个数据集，建议大家换成harmony，否则电脑根本承受不来~

因为斑马鱼的基因格式和我们常用的人或鼠不太一样，所以过滤这一步显得麻烦一些：

list_mitochondrial = c("ENSDARG00000063895", "ENSDARG00000063899", "ENSDARG00000063905", "ENSDARG00000063908", "ENSDARG00000063910", "ENSDARG00000063911", "ENSDARG00000063912", "ENSDARG00000063914", "ENSDARG00000063916", "ENSDARG00000063917", "ENSDARG00000063921", "ENSDARG00000063921", "ENSDARG00000063922", "ENSDARG00000063924")


for (i in 1:length(sc_all_datasets)) {
  try(sc_all_datasets[[i]][["percent.mt"]] <- PercentageFeatureSet(sc_all_datasets[[i]], features = list_mitochondrial))
}

for (i in 1:length(sc_all_datasets)) {
  print(sum(sc_all_datasets[[i]]@meta.data[["percent.mt"]]))
}

ids_list <- list()


for (i in 1:length(sc_all_datasets)) {
    ids <- rownames(sc_all_datasets[[i]])
    ids_list <- append(ids_list, list(ids))
}

length(Reduce(intersect,ids_list))


#common genes - 6904

sum_cells = 0

for (i in 1:length(sc_all_datasets)) {
    cell_num <- length(colnames(sc_all_datasets[[i]]))
    sum_cells = sum_cells + cell_num
}

#251442 cells before filtering



for (i in 1:length(sc_all_datasets)) {
  sc_all_datasets[[i]] <- subset(sc_all_datasets[[i]], subset = nFeature_RNA > 200 )
} 

#250206 cells after filtering

接下来就是harmony整合：

rm(list = ls())

source("step0_lib.R")
library(future)
# options(future.globals.maxSize = 1024 * 1024 * 1024)  # 设置为1GB
# 或者设置为2GB
options(future.globals.maxSize = 16 * 1024^3)  # 将最大内存限制增加到5GB

#harmony
load("./tidydata/backup-before-seurat-integr-11-datasets.RData")

sc_gsm_merge <- merge(sc_all_datasets[[1]], c(sc_all_datasets[2:length(sc_all_datasets)]))

如果为了方便，接下来当然直接可以和Jimmy老师的常规单细胞代码衔接起来：


rm(sc_all_datasets)

# SCTransform 的内存占用过高，尝试其他内存较低的整合方法
# sc_gsm_merge <- SCTransform(sc_gsm_merge, method = "glmGamPoi", verbose = T)
# DefaultAssay(sc_gsm_merge) <- "SCT"
# from jimmy
sc_gsm_merge <- NormalizeData(sc_gsm_merge, 
                           normalization.method = "LogNormalize",
                           scale.factor = 1e4) 
sc_gsm_merge <- FindVariableFeatures(sc_gsm_merge)
sc_gsm_merge <- ScaleData(sc_gsm_merge)
sc_gsm_merge <- RunPCA(sc_gsm_merge, features = VariableFeatures(object = sc_gsm_merge))

p1 <- DimPlot(sc_gsm_merge, reduction = "pca", group.by = "orig.ident", pt.size = 0.1)
p2 <- VlnPlot(sc_gsm_merge, features = "PC_1", group.by = "orig.ident", pt.size = 0.1)
dir.create("./Figures_out")
plot_grid(p1, p2, ncol = 2, rel_widths = c(1, 1.5)) %>% ggsave(filename = paste("./Figures_out/", "2_sc_gsm_merge_check_PCA.png", sep=""), width = 500, height = 150, units = "mm")


sc_gsm_merge <- RunHarmony(sc_gsm_merge, group.by.vars = "orig.ident")

p1 <- DimPlot(sc_gsm_merge, reduction = "harmony", group.by = "orig.ident", pt.size = 0.1)
p2 <- VlnPlot(sc_gsm_merge, features = "harmony_1", group.by = "orig.ident", pt.size = 0.1)
plot_grid(p1, p2, ncol = 2, rel_widths = c(1, 1.5)) %>% ggsave(filename = paste("./Figures_out/", "2_sc_gsm_integrated_check_harmony.png", sep=""), width = 500, height = 150, units = "mm")

figure_dir <- "./Figures_out/"
ElbowPlot(sc_gsm_merge, ndims = 30, reduction = "harmony") %>% ggsave(filename = paste(figure_dir, "2_sc_gsm_integrated_check_harmony_dims_ElbowPlot.png", sep=""), width = 150, height = 150, units = "mm")


sc_gsm_merge <- RunUMAP(sc_gsm_merge, reduction = "harmony", dims = 1:20)

p1 <- DimPlot(sc_gsm_merge, reduction = "umap", group.by = "orig.ident", label = F, pt.size = 0.1)
p1[[1]]$layers[[1]]$aes_params$alpha = 0.2 
p1 %>% ggsave(filename = paste(figure_dir, "2_sc_gsm_integrated_check_UMAP_harmony.png", sep=""), width = 150, height = 130, units = "mm") # display the profile of the integrated dataset
# Save pheno.ident, stage.ident and sex.ident
p1 <- DimPlot(sc_gsm_merge, reduction = "umap", group.by = "orig.ident", label = F, pt.size = 0.1)
p1[[1]]$layers[[1]]$aes_params$alpha = 0.2
p1 %>% ggsave(filename = paste(figure_dir, "2_sc_gsm_integrated_check_harmony_OrigIdent.png", sep=""), width = 150, height = 130, units = "mm")
p1 <- DimPlot(sc_gsm_merge, reduction = "umap", group.by = "batch.ident", label = F, pt.size = 0.1)
p1[[1]]$layers[[1]]$aes_params$alpha = 0.2
p1 %>% ggsave(filename = paste(figure_dir, "2_sc_gsm_integrated_check_harmony_BatchIdent.png", sep=""), width = 150, height = 130, units = "mm")

saveRDS(sc_gsm_merge,file = "./tidydata/harmonied_sc_gsm_merge.rds")

细胞聚类

rm(list = ls())
source("step0_lib.R")

sc_gsm_merge <- readRDS("./tidydata/harmonied_sc_gsm_merge.rds")

sc_gsm_merge <- FindNeighbors(sc_gsm_merge, reduction = "pca", dims = 1:30)
sc_gsm_merge <- FindClusters(sc_gsm_merge, resolution = 1, verbose = T)

p1 <- DimPlot(sc_gsm_merge, reduction = "umap", group.by = "seurat_clusters", label = T, repel = T, pt.size = 0.1, raster=FALSE)
p2 <- DimPlot(sc_gsm_merge, reduction = "umap", group.by = "orig.ident", pt.size = 0.1, raster=FALSE)
plot_grid(p1, p2, ncol = 2, rel_widths = c(1, 1.15)) %>% ggsave(filename = paste("./Figures_out/", "3_gsm_integrated_harmonyClusters.png", sep=""), width = 15, height = 13, dpi = 300)
saveRDS(sc_gsm_merge, paste("./tidydata/", "sc_gse_after_harmony.rds", sep = ""))

# CHECK CLUSTER COMPOSITION
sc_gse_merge <- sc_gsm_merge
# Check how much samples are represented in each of the clusters
cluster_count <- as.data.frame(table(subset(sc_gse_merge, seurat_clusters == as.character(0))@meta.data$orig.ident)) # set the structure

names(cluster_count)[1] <- "GSM_ID"
names(cluster_count)[2] <- "ToRemove"
cluster_count$ToRemove <- 0
for (i in levels(sc_gse_merge$seurat_clusters)) {
  print(paste("cluster ", i, sep = ""))
  tmp_df <- as.data.frame(table(subset(sc_gse_merge, seurat_clusters == as.character(i))@meta.data$orig.ident))
  names(tmp_df)[1] <- "GSM_ID"
  names(tmp_df)[2] <- as.character(paste("Cluster_", i, sep =""))
  cluster_count <- merge(cluster_count, tmp_df, all.x = T, all.y = T)
}

rownames(cluster_count) <- as.character(cluster_count$GSM_ID)
cluster_count <- cluster_count[, 3:length(cluster_count)]

for (i in 1:length(cluster_count)) {
  for (j in 1:length(cluster_count[[i]])) {
    if (is.na(cluster_count[j, i]) == T) {
      cluster_count[j, i] <- 0
    }
  }
}


library(pheatmap)
library(RColorBrewer)
# Create the annotations needed for the heatmap (which needs dataframe structures for annotations)
tmp_df <- data.frame(table(sc_gse_merge$orig.ident, sc_gse_merge$batch.ident))
lines_to_manage <- c()
for (i in 1:length(rownames(tmp_df))) {
  if (tmp_df$Freq[i] == 0) {
    lines_to_manage <- c(lines_to_manage, i)
  }
} 
tmp_df <- tmp_df[-lines_to_manage,]
rownames(tmp_df) <- tmp_df[,2]
tmp_df <- tmp_df[, -1]
colnames(tmp_df) <- c("Batch", "Cell.Count")
# Then draw the pheatmap


# You should save the heatmap from RStudio | 1000 x 535


p1 <- pheatmap(cluster_count,
               cluster_rows = F,
               cluster_cols = F,
               show_rownames = TRUE, 
               color = c("white", "yellow", "green"),
               breaks = c(0, 100, 1000, 10000),  # distances 0 to 3 are red, 3 to 9 black
               main = 'cells distribution')
p1
write.table(cluster_count,file = "./tidydata/cluster_count.csv") # export "cluster_count" as a table

到了这一步，后续的细胞注释也就简单多了，但是鉴于斑马鱼物种的特殊性，还是会在接下来的几周里陆续更完代码，感兴趣的小伙伴可以一起交流~

http://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247528811&idx=1&sn=3d0b74f9ccb5f3b39a10ce08a9dd5cc6

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

最新文章

单细胞联合TCGA你还不会吗

新手学习生信避坑指南1.0

新工具：新抗原分析一步到位

读书笔记 | 癌症计算系统生物学 | 第 03 章实验性高通量癌症研究技术

Nature | 10万基因组项目的14,778名患者的39种肿瘤类型ecDNA的研究

Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义

数据库分享 | NCBI 关于 2023 年资源更新的最新报告

【flowjo】中性粒细胞流式笔记：你的增殖我的增殖大不一样

网络药理学—药学新人的理解与探索（一）

网络药理学—药学新人的理解与探索（二）

网络药理学—药学新人的理解与探索（三）

为什么要在单细胞水平展现那些平平无奇的基因呢

读悉达多·穆克吉新作《细胞传》

miloR单细胞差异丰度分析

肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗

高分综述 | 癌症免疫逃逸的特征

读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理

Cell | 单细胞 RNA 测序数据差异表达分析的方法框架

主题合集 | 期刊泛读 | Cell 出版社

【斑马鱼肾脏】多个单细胞数据整合分析（二）

玩转服务器4—服务器间数据传输

文章复现学习 | ROS（7）模型可视化之森林图&诺模图

文章复现学习 | ROS（8）突变频谱、免疫浸润、gsva

文章复现学习 | ROS（9）药敏预测、免疫治疗

浅识Linux

服务器的购买与保护

提升Linux学习幸福感的二三事

Linux的文件结构与命令格式

管理文件夹与文件的基础命令（1）

单细胞细节笔记汇总

这篇文章的数据处理方法需要再“研究”一下

Cell 最新【细胞图谱】文章，提供网页工具辅助探索

数据库介绍 | PharmGWAS：一个基于GWAS的药物再利用知识库

主题合集 | 期刊泛读 | Nature 出版社

科学界接下来应该会有很多基于 AI Agent 开发出来的科研工具

读书笔记 | 癌症计算系统生物学 Chpter 01

【斑马鱼肾脏】多个单细胞数据整合分析（一）

玩转服务器—共享服务器R包调用与安装

R语言入门09：因子、列表、矩阵、数组

R语言入门10：类型判断和转换

R语言入门11：常见函数介绍：数值和字符串处理

R语言入门12：for循环、if-else分支、自编函数

R语言入门13：apply系列函数（apply、lapply、sapply、tapply）

R语言入门14：实用技巧（R包路径修改、quarto简介、镜像设置等）

R语言入门15：实战：TCGA数据下载和整理

R语言入门16：R绘图入门（base plot + ggplot2）

ChIP分析笔记|| PRJNA1037717 脂肪肝-肿瘤抑制基因Sirt6：文献阅读

R tips：使用shiny和plotly获得umap图的点坐标

堪称完美的实验设计：食管癌前病变基因组研究

对35种癌症的10,478名患者基因组进行候选驱动基因识别，英国10万基因组项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉