RNA-seq|样本相关性散点图

文摘   2024-05-23 15:43   江苏  

🔗单细胞测序🔗单细胞转录组高级分析🔗R包开发🔗源码拆解🔗测试🔗RNA-seq🔗R语言🔗Python🔗环境配置🔗文献分享🔗其它生信分析🔗一只羊的碎碎念

样品间的相关性反应了样品间的相似程度,即不同处理或组织的样品在表达水平方面的相似度。重复实验可以帮助减少实验误差并提高结果的可靠性和稳定性,以此确保不是个体的偶然变异对结果产生影响。

  1. 技术重复(Technical Replicates):技术重复是在同一样本上进行多次测序的实验。通过技术重复可以评估测序实验的重复性和准确性,帮助排除实验误差和随机噪声对结果的影响。
  2. 生物学重复(Biological Replicates):生物学重复是使用不同的生物样本进行多次测序的实验。通过生物学重复可以评估实验结果的稳健性和一致性,帮助识别真实的生物学变化并排除个体差异对结果的影响。

以转录组数据为例,一般会设置3-5个生物学重复,如何确认生物学重复的效果好坏呢,方法有很多,可以进行相关性分析,绘制热图,可以PCA分析,也可以绘制聚类热图,以上方法在《R语言科研作图实例》均有介绍。今天带来的是一个简单的使用ggpubr绘制RNA-seq样本相关性散点图的实际案例。

读取表达矩阵,这里展示的数据1-3列为样本1的重复,4-6列为样本2的重复。在这里选择100行作为结果展示

library(ggplot2)
library(ggpubr)
library(dplyr)
#读取数据
exp <- read.csv("~/分析代码/R/散点图/20240523 样本相关性分析/data.csv",row.names=1)
head(exp)

#计算基因均值
exp$sample1 = rowMeans(exp[,1:3])
exp$sample2    = rowMeans(exp[,4:6])
#取log
exp$log_sample1=log2(exp$sample1)
exp$log_sample2=log2(exp$sample2)
head(exp)

data=exp[,9:10]

data <- data %>% sample_n(100)#实际使用去掉这里
nrow(data)

绘制散点图并保存。相关系数的计算方法有三种:A. Pearson correlation; B. Spearman rank correlation; C. Kendall’s τ。使用ggpubr可以轻松绘制一个好看的散点图,再配合ggplot进行美化工作。

p = ggscatter(data, 
  x  = "log_sample1",
  y  = "log_sample2",
cor.coef         = TRUE,
cor.method       = "pearson",
cor.coef.size    = 3,
cor.coeff.args   = list( method  = "pearson",label.sep   = "\n"),
size = 1)+
  theme_bw()+
  theme(
    axis.title        = element_text(size = 12,face='bold'),
    axis.text         = element_text(size = 9),
    axis.ticks.length = unit(0.3, 'cm'),
    panel.grid        = element_blank(),
    aspect.ratio      = 1, 
    panel.border      = element_rect(linewidth = 1,fill = NA),
    plot.margin       = margin(1,1,1,1,'cm'),)+
      labs(x=expression(log[2] ~"sample1"),
       y=expression(log[2] ~"sample2"))+
geom_vline(xintercept = 0, linetype = "dashed", color = "black")+
geom_hline(yintercept = 0, linetype = "dashed", color = "black")

#保存结果
svg("~/分析代码/R/散点图/20240523 样本相关性分析/test.svg",width = 6)
print(p)
dev.off()
示例结果,注意这里只采用了部分数据

可以总结的是:

  • 在对表达矩阵可视化/计算时经常会取log2
  • 在ggpubr绘制散点图时,cor.coeff.args可以对相关系数进行设置
  • expression的用法:下标为[],上标为^,空格为~,连接符为*。

END


#

付费合集

#

推荐阅读

生信分析环境搭建

上游分析|植物gtf文件修改后进行上游分析

标准分析|分群注释全流程(实验原理、seurat标准分析流程、多样本整合、doublet分析、自动注释、批量差异分析、批量富集分析、添加注释样本分组信息、可视化)
标准分析|Read10X源码拆解
标准分析|自动获得QC阈值
标准分析|污染处理工具SoupX

注释|植物细胞marker的数据库
注释|自动注释小工具——SCSA

细胞分化|轨迹分析的基本概念1
细胞分化|轨迹分析的基本概念2
细胞分化|monocle1原理
细胞分化|解决monocle2报错
细胞分化|Cytotrace分析
细胞分化|使用VECTOR进行无监督发育方向推断
细胞分化|单细胞可变剪切分析全流程(基于velocyto.R)
细胞分化|不同scVelo模型
细胞分化|使用GeneTrajectory进行基因轨迹分析

富集分析|基于TBtools&R语言进行富集分析及可视化
富集分析|更新clusterprofiler包
富集分析|基因ID格式转换
富集分析|水稻富集分析
富集分析|植物组织特异性干细胞通路获取

可视化|Featureplot函数进阶
可视化|DotPlot函数进阶
可视化|给你的Dotplot添加聚类及其它统计信息

单细胞联合bulk|一文搞定R包Scissor

公共数据|EgdeTurbo下载CNCB数据
公共数据|不使用Read10x如何读取数据

#

关于我

分享内容:分子标记开发及种质资源鉴定、单细胞多组学数据分析、生信编程、算法原理、文献分享与复现等...

点个赞再走!


你好我是一只羊
个人号,内容主要涉及种质资源、分子标记开发及遗传多样性分析,表观遗传、编程语言在生物信息学中的应用、转录组、基因组、单细胞测序多组学数据分析等;其它更新平台:B站&小红书-一只羊做生信/捡羊毛的咩/生信小羊🐑
 最新文章