【斑马鱼肾脏】多个单细胞数据整合分析（一）

文摘 2024-11-06 12:31 北京

【斑马鱼肾脏的单细胞数据集合】：脊椎动物的中性粒与巨噬细胞的分子特征，根据作者善心提供的代码，我们尝试复现一下文章~

加载包

library(Seurat)
# BiocManager::install(version = "3.19")
# BiocManager::install("org.Dr.eg.db")
library('org.Dr.eg.db')
# BiocManager::install("TxDb.Drerio.UCSC.danRer11.refGene")
library('TxDb.Drerio.UCSC.danRer11.refGene')
# BiocManager::install("BSgenome.Drerio.UCSC.danRer11")
library('BSgenome.Drerio.UCSC.danRer11')
# devtools::install_github("kudusch/ktools@main")
library(ktools)
library('readr')
library('AnnotationHub')
library('genekitr') # for gene name parsing
library("hdf5r")
library(dplyr)
library('glmGamPoi')
library('harmony')
library('cowplot')
library('ggplot2')
library(pheatmap)

Ensemble转换

gse100910 <- read.table("./rawdata/GSE100910_indrop_counts.txt.gz", header = TRUE, row.names = 1)

# 基因ID转换
ens_GSE100910 <- transId(rownames(gse100910), transTo = "ensembl", org = 'drerio', unique = TRUE)

# 筛选转换成功的基因行
GSE100910 <- gse100910[rownames(gse100910) %in% ens_GSE100910$input_id,]

names_GSE100910 <- ens_GSE100910$ensembl[match(rownames(GSE100910),ens_GSE100910$input_id)]

GSE100910_new <- data.frame(EnsId = names_GSE100910, GSE100910)


# dir.create("./tidydata")
write.table(GSE100910_new, "./tidydata/GSE100910-ENSG.txt",row.names = TRUE, sep=",")

数据merge

# GSE112438 ---------------------------------------------------------------
# 列出所有文件
files1 <- list.files("./rawdata/GSE112438/",pattern = "TD")
files2 <- list.files("./rawdata/GSE112438/",pattern = "WKM.*unenriched\\.txt\\.gz$")
files <- c(files1,files2)

# 使用循环读取数据并设置列名
data_list <- lapply(files, function(file) {
  file_path <- paste0("./rawdata/GSE112438/", file)
  sample_id <- strsplit(file, "_")[[1]][1]
  data <- data.frame(read.table(file_path, sep = "\t", row.names = 1, header = TRUE))
  colnames(data) <- paste0(sample_id, "_", trimws(colnames(data)))
  return(data)
})

# 使用multimerge函数合并数据
gse112438_unenriched <- data.frame(multimerge(data_list))

# 解析行名
ids_to_parse_gse112438_unenriched <- unlist(strsplit(rownames(gse112438_unenriched), split='_', fixed = TRUE))
ids_gse112438_unenriched <- ids_to_parse_gse112438_unenriched[seq(1, length(ids_to_parse_gse112438_unenriched), 2)]

# 更新行名并处理缺失值
rownames(gse112438_unenriched) <- ids_gse112438_unenriched
gse112438_unenriched[is.na(gse112438_unenriched)] <- 0

write.table(gse112438_unenriched, "./tidydata/GSE112438_unenriched-ENSG.txt", row.names = TRUE, sep=",")


### hspcs
gsm3070124 <- read.table('./rawdata/GSE112438/GSM3070124_WKM10_hspcs.txt.gz', sep = "\t", row.names = 1, header = T)
colnames(gsm3070124) <- paste0("gsm3070124_", trimws(colnames(gsm3070124)))

gsm3070136 <- read.table('./rawdata/GSE112438/GSM3070136_WKM5_hspcs.txt.gz', sep = "\t", row.names = 1, header = T)
colnames(gsm3070136) <- paste0("gsm3070136_", trimws(colnames(gsm3070136)))


gse112438_hspc <- data.frame(multimerge( list (gsm3070124, gsm3070136 )))
ids_to_parse_gse112438_hspc <- unlist(strsplit(rownames(gse112438_hspc), split='_',fixed = T))
ids_gse112438_hspc <- ids_to_parse_gse112438_hspc[seq(1,length(ids_to_parse_gse112438_hspc),2)]
rownames(gse112438_hspc) <- ids_gse112438_hspc
gse112438_hspc[is.na(gse112438_hspc)] = 0

write.table(gse112438_hspc, "./tidydata/GSE112438_hspc-ENSG.txt", row.names = TRUE, sep=",")


### lymphocytes
gsm3070125 <- read.table('./rawdata/GSE112438/GSM3070125_WKM10_lymphocytes.txt.gz', sep = "\t", row.names = 1, header = T)
colnames(gsm3070125) <- paste0("gsm3070125_", trimws(colnames(gsm3070125)))

gsm3070137 <- read.table('./rawdata/GSE112438/GSM3070137_WKM5_lymphocytes.txt.gz', sep = "\t", row.names = 1, header = T)
colnames(gsm3070137) <- paste0("gsm3070137_", trimws(colnames(gsm3070137)))

gsm3070139 <- read.table('./rawdata/GSE112438/GSM3070139_WKM6_lymphocytes.txt.gz', sep = "\t", row.names = 1, header = T)
colnames(gsm3070139) <- paste0("gsm3070139_", trimws(colnames(gsm3070139)))

gse112438_lymphocytes <- data.frame(multimerge( list (gsm3070125, gsm3070137, gsm3070139 )))
ids_to_parse_gse112438_lymphocytes <- unlist(strsplit(rownames(gse112438_lymphocytes), split='_',fixed = T))
ids_gse112438_lymphocytes <- ids_to_parse_gse112438_lymphocytes[seq(1,length(ids_to_parse_gse112438_lymphocytes),2)]
rownames(gse112438_lymphocytes) <- ids_gse112438_lymphocytes
gse112438_lymphocytes[is.na(gse112438_lymphocytes)] = 0

write.table(gse112438_lymphocytes, "./tidydata/GSE112438_lymphocytes-ENSG.txt", row.names = TRUE, sep=",")



### eosinophils
gsm3070143 <- read.table('./rawdata/GSE112438/GSM3070143_WKM8_eosinophils_and_lymphocytes.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070128 <- read.table('./rawdata/GSE112438/GSM3070128_WKM2_classicalgate-eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070131 <- read.table('./rawdata/GSE112438/GSM3070131_WKM3_classicalgate-eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070129 <- read.table('./rawdata/GSE112438/GSM3070129_WKM2_eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070132 <- read.table('./rawdata/GSE112438/GSM3070132_WKM3_eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070134 <- read.table('./rawdata/GSE112438/GSM3070134_WKM4_eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070146 <- read.table('./rawdata/GSE112438/GSM3070146_WKM9_eosinophils.txt.gz', sep = "\t", row.names = 1, header = T)

colnames(gsm3070143) <- paste0("gsm3070143_", trimws(colnames(gsm3070143)))
colnames(gsm3070128) <- paste0("gsm3070128_", trimws(colnames(gsm3070128)))
colnames(gsm3070131) <- paste0("gsm3070131_", trimws(colnames(gsm3070131)))
colnames(gsm3070129) <- paste0("gsm3070129_", trimws(colnames(gsm3070129)))
colnames(gsm3070132) <- paste0("gsm3070132_", trimws(colnames(gsm3070132)))
colnames(gsm3070134) <- paste0("gsm3070134_", trimws(colnames(gsm3070134)))
colnames(gsm3070146) <- paste0("gsm3070146_", trimws(colnames(gsm3070146)))


gse112438_eosinophils <- data.frame(multimerge( list ( gsm3070143, gsm3070128, gsm3070131, gsm3070129, gsm3070132, gsm3070134, gsm3070146 )))

ids_to_parse_gse112438_eosinophils <- unlist(strsplit(rownames(gse112438_eosinophils), split='_',fixed = T))
ids_gse112438_eosinophils <- ids_to_parse_gse112438_eosinophils[seq(1,length(ids_to_parse_gse112438_eosinophils),2)]
rownames(gse112438_eosinophils) <- ids_gse112438_eosinophils
gse112438_eosinophils[is.na(gse112438_eosinophils)] = 0

write.table(gse112438_eosinophils, "./tidydata/GSE112438_eosinophils-ENSG.txt", row.names = TRUE, sep=",")

### monocytes
gsm3070144 <- read.table('./rawdata/GSE112438/GSM3070144_WKM8_monocytes.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070147 <- read.table('./rawdata/GSE112438/GSM3070147_WKM9_monocytes.txt.gz', sep = "\t", row.names = 1, header = T)
gsm3070141 <- read.table('./rawdata/GSE112438/GSM3070141_WKM7_monocytes.txt.gz', sep = "\t", row.names = 1, header = T)

colnames(gsm3070144) <- paste0("gsm3070144_", trimws(colnames(gsm3070144)))
colnames(gsm3070147) <- paste0("gsm3070147_", trimws(colnames(gsm3070147)))
colnames(gsm3070141) <- paste0("gsm3070141_", trimws(colnames(gsm3070141)))

gse112438_monocytes <- data.frame(multimerge( list ( gsm3070144, gsm3070147, gsm3070141)))

ids_to_parse_gse112438_monocytes <- unlist(strsplit(rownames(gse112438_monocytes), split='_',fixed = T))
ids_gse112438_monocytes <- ids_to_parse_gse112438_monocytes[seq(1,length(ids_to_parse_gse112438_monocytes),2)]
rownames(gse112438_monocytes) <- ids_gse112438_monocytes
gse112438_monocytes[is.na(gse112438_monocytes)] = 0

write.table(gse112438_monocytes, "./tidydata/gse112438_monocytes-ENSG.txt", row.names = TRUE, sep=",")

使用multimerge函数合并数据：

multimerge <- function (mylist) {
  ## mimics a recursive merge or full outer join
 
  unames <- unique(unlist(lapply(mylist, rownames)))
 
  n <- length(unames)
 
  out <- lapply(mylist, function(df) {
 
    tmp <- matrix(nr = n, nc = ncol(df), dimnames = list(unames,colnames(df)))
    tmp[rownames(df), ] <- as.matrix(df)
    rm(df); gc()
 
    return(tmp)
  })
 
  stopifnot( all( sapply(out, function(x) identical(rownames(x), unames)) ) )
 
  bigout <- do.call(cbind, out)
  colnames(bigout) <- paste(rep(names(mylist), sapply(mylist, ncol)), unlist(sapply(mylist, colnames)), sep = "_")
  return(bigout)
}

创建Seurat对象

GSE112438_eosinophils[is.na(GSE112438_eosinophils)] = 0
GSE112438_hspc[is.na(GSE112438_hspc)] = 0
GSE112438_lymphocytes[is.na(GSE112438_lymphocytes)] = 0
GSE112438_unenriched[is.na(GSE112438_unenriched)] = 0

GSE112438_eosinophils <- CreateSeuratObject(GSE112438_eosinophils, project = "GSE112438_eosinophils", min.cells = 10, min.features = 200)
GSE112438_hspc <- CreateSeuratObject(GSE112438_hspc, project = "GSE112438_hspc", min.cells = 10, min.features = 200)
GSE112438_lymphocytes <- CreateSeuratObject(GSE112438_lymphocytes, project = "GSE112438_lymphocytes", min.cells = 10, min.features = 200)
GSE112438_unenriched <- CreateSeuratObject(GSE112438_unenriched, project = "GSE112438_unenriched", min.cells = 10, min.features = 200)

整合

sc_all_datasets <- c(GSE112438_eosinophils, GSE112438_hspc, GSE112438_lymphocytes, GSE112438_unenriched)

integration_features <- SelectIntegrationFeatures(object.list = sc_all_datasets, nfeatures = 2500)
sc_all_datasets <- PrepSCTIntegration(object.list = sc_all_datasets, anchor.features = integration_features)
sc_gsm_anchors <- FindIntegrationAnchors(object.list = sc_all_datasets, normalization.method = "SCT", anchor.features = integration_features, reduction = "rpca")

sc_gsm_integrated <- IntegrateData(anchorset = sc_gsm_anchors, normalization.method = "SCT", new.assay.name = "seurat.integration")
DefaultAssay(sc_gsm_integrated) <- "seurat.integration"

http://mp.weixin.qq.com/s?__biz=MzUzMTEwODk0Ng==&mid=2247528687&idx=1&sn=005d51b084f44cc681fb9d8da2dddc53

生信菜鸟团

生信菜鸟团荣誉归来，让所有想分析生物信息学数据的小伙伴找到归属，你值得拥有！

最新文章

单细胞联合TCGA你还不会吗

新手学习生信避坑指南1.0

新工具：新抗原分析一步到位

读书笔记 | 癌症计算系统生物学 | 第 03 章实验性高通量癌症研究技术

Nature | 10万基因组项目的14,778名患者的39种肿瘤类型ecDNA的研究

Cell | 蛋白质-蛋白质相互作用在健康和疾病中的发现及其意义

数据库分享 | NCBI 关于 2023 年资源更新的最新报告

【flowjo】中性粒细胞流式笔记：你的增殖我的增殖大不一样

网络药理学—药学新人的理解与探索（一）

网络药理学—药学新人的理解与探索（二）

网络药理学—药学新人的理解与探索（三）

为什么要在单细胞水平展现那些平平无奇的基因呢

读悉达多·穆克吉新作《细胞传》

miloR单细胞差异丰度分析

肿瘤外显子测序后的突变与否矩阵也可以模仿转录组的表达量矩阵分析吗

高分综述 | 癌症免疫逃逸的特征

读书笔记 | 癌症计算系统生物学 | Chapter 02 癌症分子生物学的基本原理

Cell | 单细胞 RNA 测序数据差异表达分析的方法框架

主题合集 | 期刊泛读 | Cell 出版社

【斑马鱼肾脏】多个单细胞数据整合分析（二）

玩转服务器4—服务器间数据传输

文章复现学习 | ROS（7）模型可视化之森林图&诺模图

文章复现学习 | ROS（8）突变频谱、免疫浸润、gsva

文章复现学习 | ROS（9）药敏预测、免疫治疗

浅识Linux

服务器的购买与保护

提升Linux学习幸福感的二三事

Linux的文件结构与命令格式

管理文件夹与文件的基础命令（1）

单细胞细节笔记汇总

这篇文章的数据处理方法需要再“研究”一下

Cell 最新【细胞图谱】文章，提供网页工具辅助探索

数据库介绍 | PharmGWAS：一个基于GWAS的药物再利用知识库

主题合集 | 期刊泛读 | Nature 出版社

科学界接下来应该会有很多基于 AI Agent 开发出来的科研工具

读书笔记 | 癌症计算系统生物学 Chpter 01

【斑马鱼肾脏】多个单细胞数据整合分析（一）

玩转服务器—共享服务器R包调用与安装

R语言入门09：因子、列表、矩阵、数组

R语言入门10：类型判断和转换

R语言入门11：常见函数介绍：数值和字符串处理

R语言入门12：for循环、if-else分支、自编函数

R语言入门13：apply系列函数（apply、lapply、sapply、tapply）

R语言入门14：实用技巧（R包路径修改、quarto简介、镜像设置等）

R语言入门15：实战：TCGA数据下载和整理

R语言入门16：R绘图入门（base plot + ggplot2）

ChIP分析笔记|| PRJNA1037717 脂肪肝-肿瘤抑制基因Sirt6：文献阅读

R tips：使用shiny和plotly获得umap图的点坐标

堪称完美的实验设计：食管癌前病变基因组研究

对35种癌症的10,478名患者基因组进行候选驱动基因识别，英国10万基因组项目

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉