🔗单细胞测序 、🔗单细胞转录组高级分析、 🔗R包开发、🔗源码拆解、 🔗测试、🔗RNA-seq 、 🔗R语言 、🔗Python 、🔗环境配置 、🔗文献分享 、🔗其它生信分析、 🔗一只羊的碎碎念
样品间的相关性反应了样品间的相似程度,即不同处理或组织的样品在表达水平方面的相似度。重复实验可以帮助减少实验误差并提高结果的可靠性和稳定性,以此确保不是个体的偶然变异对结果产生影响。
技术重复(Technical Replicates):技术重复是在同一样本上进行多次测序的实验。通过技术重复可以评估测序实验的重复性和准确性,帮助排除实验误差和随机噪声对结果的影响。 生物学重复(Biological Replicates):生物学重复是使用不同的生物样本进行多次测序的实验。通过生物学重复可以评估实验结果的稳健性和一致性,帮助识别真实的生物学变化并排除个体差异对结果的影响。
以转录组数据为例,一般会设置3-5个生物学重复,如何确认生物学重复的效果好坏呢,方法有很多,可以进行相关性分析,绘制热图,可以PCA分析,也可以绘制聚类热图,以上方法在《R语言科研作图实例》均有介绍。今天带来的是一个简单的使用ggpubr绘制RNA-seq样本相关性散点图的实际案例。
读取表达矩阵,这里展示的数据1-3列为样本1的重复,4-6列为样本2的重复。在这里选择100行作为结果展示。
library(ggplot2)
library(ggpubr)
library(dplyr)
#读取数据
exp <- read.csv("~/分析代码/R/散点图/20240523 样本相关性分析/data.csv",row.names=1)
head(exp)
#计算基因均值
exp$sample1 = rowMeans(exp[,1:3])
exp$sample2 = rowMeans(exp[,4:6])
#取log
exp$log_sample1=log2(exp$sample1)
exp$log_sample2=log2(exp$sample2)
head(exp)
data=exp[,9:10]
data <- data %>% sample_n(100)#实际使用去掉这里
nrow(data)
绘制散点图并保存。相关系数的计算方法有三种:A. Pearson correlation; B. Spearman rank correlation; C. Kendall’s τ。使用ggpubr可以轻松绘制一个好看的散点图,再配合ggplot进行美化工作。
p = ggscatter(data,
x = "log_sample1",
y = "log_sample2",
cor.coef = TRUE,
cor.method = "pearson",
cor.coef.size = 3,
cor.coeff.args = list( method = "pearson",label.sep = "\n"),
size = 1)+
theme_bw()+
theme(
axis.title = element_text(size = 12,face='bold'),
axis.text = element_text(size = 9),
axis.ticks.length = unit(0.3, 'cm'),
panel.grid = element_blank(),
aspect.ratio = 1,
panel.border = element_rect(linewidth = 1,fill = NA),
plot.margin = margin(1,1,1,1,'cm'),)+
labs(x=expression(log[2] ~"sample1"),
y=expression(log[2] ~"sample2"))+
geom_vline(xintercept = 0, linetype = "dashed", color = "black")+
geom_hline(yintercept = 0, linetype = "dashed", color = "black")
#保存结果
svg("~/分析代码/R/散点图/20240523 样本相关性分析/test.svg",width = 6)
print(p)
dev.off()
可以总结的是:
在对表达矩阵可视化/计算时经常会取log2 在ggpubr绘制散点图时,cor.coeff.args可以对相关系数进行设置 expression的用法:下标为[],上标为^,空格为~,连接符为*。
标准分析|分群注释全流程(实验原理、seurat标准分析流程、多样本整合、doublet分析、自动注释、批量差异分析、批量富集分析、添加注释样本分组信息、可视化)
标准分析|Read10X源码拆解
标准分析|自动获得QC阈值
标准分析|污染处理工具SoupX
注释|植物细胞marker的数据库
注释|自动注释小工具——SCSA
细胞分化|轨迹分析的基本概念1
细胞分化|轨迹分析的基本概念2
细胞分化|monocle1原理
细胞分化|解决monocle2报错
细胞分化|Cytotrace分析
细胞分化|使用VECTOR进行无监督发育方向推断
细胞分化|单细胞可变剪切分析全流程(基于velocyto.R)
细胞分化|不同scVelo模型
细胞分化|使用GeneTrajectory进行基因轨迹分析
富集分析|基于TBtools&R语言进行富集分析及可视化
富集分析|更新clusterprofiler包
富集分析|基因ID格式转换
富集分析|水稻富集分析
富集分析|植物组织特异性干细胞通路获取
分享内容:分子标记开发及种质资源鉴定、单细胞多组学数据分析、生信编程、算法原理、文献分享与复现等...
点个赞再走!