不同单细胞群相关性分析：提示亚群之间具有相关性

文摘 2024-09-06 18:09 江苏

文献里常遇到这种相关性热图：

Immunophenotyping of COVID-19 and influenza highlights the role of type I interferons in development of severe COVID-19

Single-Cell Reconstruction of Progression Trajectory Reveals Intervention Principles in Pathological Cardiac Hypertrophy

相关性热图是一种在单细胞数据分析中常用的可视化工具，用于展示不同细胞群之间的相似性或差异性。在单细胞RNA测序(scRNA-seq)数据中，相关性热图可以帮助研究者识别具有相似表达模式的细胞群体，从而揭示细胞亚群的功能和发育轨迹。

在构建相关性热图时，通常会使用皮尔森相关系数(Pearson correlation coefficient)或斯皮尔曼等级相关系数(Spearman's rank correlation coefficient)来量化细胞群之间的相关性。皮尔森相关系数用于测量两个连续变量之间的线性关系，其值介于-1和1之间，值越接近1或-1表示相关性越强，值为0表示没有线性相关性。斯皮尔曼等级相关系数是一种非参数方法，用于评估两个变量的等级顺序之间的相关性，适用于不满足正态分布的数据或有序分类变量。

在实际操作中，可以使用生物信息学工具和编程语言（如R语言）来生成相关性热图。例如，Seurat包中的相关性分析和热图绘制功能可以帮助研究者从单细胞数据中提取有意义的生物学信息。使用Seurat进行相关性分析时，可以选择标准差最大的基因来计算相关性，然后使用pheatmap包来绘制热图。此外，Scanpy也是一个流行的Python库，用于单细胞数据分析，它提供了简单易用的相关性热图绘制方法。

在解释相关性热图时，需要注意颜色的深浅代表了相关性的强度，而聚类树形图可以显示不同样本或细胞群的聚类关系。通过这种方式，研究者可以识别出具有相似基因表达模式的细胞群体，进而推断它们的生物学功能和相互作用。

R语言实现

使用R从Seurat对象中提取标准差最大的top基因计算相关性，用pheatmap画图。

#2在seurat_v5文件夹下安装v5---.libPaths(  c(    # '/home/rootyll/seurat_v5/',    "/usr/local/lib/R/site-library",    "/usr/lib/R/site-library",    "/usr/lib/R/library"  ))library(Seurat)library(dplyr)

path="~/zxxxx/sepsis_celltype_correlation"dir.create(path ,recursive = TRUE)setwd(path)

load('../sepsis_cluster_merge.rds')pbmc=All.mergeDimPlot(pbmc,label = TRUE,split.by = "stim")head(pbmc@meta.data)


#all----library(Seurat)
av <-AverageExpression(pbmc,                       group.by = "cell.type",                       assays = "RNA")av=av[[1]]head(av)
#选出标准差最大的1000个基因cg=names(tail(sort(apply(av, 1, sd)),1000))# #查看这1000个基因在各细胞群中的表达矩阵# View(av[cg,])# #查看细胞群的相关性矩阵# View(cor(av[cg,],method = 'spearman'))#pheatmap绘制热图pheatmap::pheatmap(cor(av[cg,],method = 'spearman')) #默认是Pearson

可以选择想要的组别

#cont----pbmc=All.merge[,grepl("Con",All.merge$stim)]
av <-AverageExpression(pbmc,                       group.by = "cell.type",                       assays = "RNA")av=av[[1]]head(av)
#选出标准差最大的1000个基因cg=names(tail(sort(apply(av, 1, sd)),1000))# #查看这1000个基因在各细胞群中的表达矩阵# View(av[cg,])# #查看细胞群的相关性矩阵# View(cor(av[cg,],method = 'spearman'))# #pheatmap绘制热图pheatmap::pheatmap(cor(av[cg,],method = 'spearman')) #默认是Pearson

使用scanpy更简单

import scanpy as scadata = sc.datasets.pbmc68k_reduced()sc.tl.dendrogram(adata, 'bulk_labels')#sc.pl.dendrogram(adata, 'bulk_labels')sc.pl.correlation_matrix(adata, 'bulk_labels', figsize=(5,3.5))

相关性分析方法

多种相关性分析方法都可以探究变量之间的关系。这些方法各有特点，适用于不同的数据类型和研究场景。

皮尔逊相关系数（Pearson Correlation）

这是一种衡量两个连续变量线性相关程度的参数检验方法。
其值域在-1到1之间，值越接近±1表示变量间的线性关系越强，而接近0则意味着线性关系较弱。
适用于两个变量均为正态分布的情况，可以直观地显示变量之间的正相关或负相关关系。

斯皮尔曼等级相关系数（Spearman's Rank Correlation）

这是一种非参数方法，通过比较变量的等级（或秩次）而不是实际值来评估它们之间的相关性。
适用于不满足正态分布假设的数据，或者当变量是有序分类而非连续数据时。
这种方法对异常值具有较强的鲁棒性，因为它不依赖于数据的具体数值。

肯德尔等级相关系数（Kendall's Tau Correlation）

另一种非参数相关性检验，用于衡量两个变量的等级顺序之间的关联。
它考虑了成对观测值之间的一致性和不一致性，适用于样本量较小或数据含有异质性的情况。

其他相关性分析方法

除了上述方法，还有诸如卡方检验（Chi-squared Test）和费舍尔精确检验（Fisher's Exact Test）等，这些方法主要用于分类变量之间的相关性分析。
卡方检验可以评估两个分类变量是否独立，而费舍尔精确检验则用于小样本数据的相关性分析。

在实际应用中，选择哪种相关性分析方法取决于数据的特性、分布情况以及研究目的。正确选择和应用这些方法，可以帮助研究者更准确地理解和解释变量之间的关系。

参考：https://www.jianshu.com/p/d3786239f60e

生信小博士

【生物信息学】R语言开始，学习生信。Seurat，单细胞测序，空间转录组。 Python，scanpy，cell2location。资料分享

最新文章

MS多发性硬化症|GWAS完整数据下载（孟德尔随机化分析用）

下载完整GWAS Catalog的snp数据（孟德尔随机化分析使用）

世界首例！本科生师弟连发3篇生信国际顶刊一跃成为特级教授！前途无量！

ChatGPT 今天宕机了！

使用R语言进行Elisa标曲制作——四参数拟合（4-pl）

人、小鼠、大鼠外周血免疫细胞比例大全

（蛋白）分子对接简明教程二

ggplot2中修改颜色|调色板

单细胞、转录组通路活性评分PROGENy

PROGENy--单细胞通路活性评分

一文厘清富集分析：GroupGO、enrichGO、gseGO、enrichKEGG、gseKEGG、enrichMKEGG

脂肪肝病的新名字——MAFLD！更科学，还是无奈的妥协？

全基因组关联分析（genome-wide association studies，GWAS）（一）

博士无成果？65万起安家费，你敢去吗？

天气骤冷，如何打赢“秋冬感冒战”？——亲身体验全攻略

R语言必会数据框操作dplyr

5分钟提交，24小时反馈！科研人的投稿噩梦结束了！

排名直接决定30万奖金？！你的学校上榜了吗？

从“论文工厂”到“学历工厂”：高学历人才的出路在哪里？

学术打假新战场：期刊编辑审稿的“公正性”还能相信吗？

硕博生的“打工时代”：是科研人才还是廉价劳动力？

学历贬值？全国硕士博士已被“明码标价”！

学习Abcam的完整实验步骤和流程

全国首发！“超级博后”计划强势来袭

如何使用wos下的clarivate 查询期刊近五年的影响因子IF？

单细胞空间转录组中细胞类型与通路关联分析（单细胞丰度与细胞通路相关性分析)-多组差异分析、相关性分析热图展示

空间转录组细胞通讯cellchat

单细胞、空转数据-细胞之间相关性

单细胞多组差异分析-多组火山图

Scientific Reports VS Heliyon：灌水期刊能否继续称霸？

harmony单细胞整合分析细节真让人纠结：数据集合并后取变异最大的3000个基因（即不取交集的方法）与取交集方法之间的优劣

单细胞整合专题：harmony、CCA、RPCA、LIGER、FastMNN、scvi、stlearn

harmony整合单细胞数据-去除批次效应

所有的样本都可以harmony合并分析吗？加测了TCR/BCR的单细胞数据能和普通的单细胞样本合并分析呢？

Seurat一键完成五种数据整合：harmony，CCA，RPCA,FastMNN,scVI，代码分享

多样本或批次的数据整合分析时，是否需要按样本分别进行ScaleData处理？

Cell发表的单细胞整合方法：LIGER，很好用！

空间转录组多样本整合分析—stlearn

如何在老板面前脱颖而出？选对CNS子刊是关键！

效率神器！最强GEO数据分析工具盘点，让科研不再头疼！

单细胞与空间转录组联合分析最佳教程！

Linux下载zenodo上的文件（conda）

流式细胞仪的空白对照、同型对照、FMO对照怎么做？

本科生获国自然青年学生基础研究项目！

Ly6G耗尽中性粒细胞

不同单细胞群相关性分析：提示亚群之间具有相关性

血泪教训：医生也不一定会区分血浆和血清！

单细胞中的data矩阵逆转为count矩阵

（蛋白）分子对接简明教程

HDOCK分子对接详细教程

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉