在模仿中精进数据可视化_使用ggplot2手搓一个曼哈顿图

文摘   2024-12-11 22:40   新加坡  

在模仿中精进数据可视化_使用ggplot2手搓一个曼哈顿图


在模仿中精进数据可视化该系列推文中,我们将从各大顶级学术期刊Figure入手,
解读文章的绘图思路,
模仿文章的作图风格,
构建适宜的绘图数据,
并且将代码应用到自己的实际论文中。


绘图缘由:小伙伴们总会展示出一些非常好看且精美的图片。我大概率会去学习和复现一下。其实每个人的时间和精力都非常有限和异常宝贵的。之所以我会去,主要有以下原因:

  1. 图片非常好看,我自己看着也手痒痒
  2. 图片我自己在Paper也用的上,储备着留着用
  3. 保持了持续学习的状态

今天使用ggplot2手搓一个曼哈顿图,我在硕士期间辅助师兄们做了一些群体遗传的工作,读博士之后也帮我的好师兄们画过一些群体遗传的图。
当时特意去基因课学的群体遗传的知识。
在基因课学习过程中认识了最近刚刚发了Nature Communications的龙师兄。
等有机会一一复现龙师兄的这篇Nature Communications

文章

原图

复现

其实绘制曼哈顿图的包有很多,比如鼎鼎大名的CMplot。今天的手搓,也是对这个神包的一个致敬。
其实,还有一个细节,曼哈顿图最重要的是点要绘制的小,越小越精致,越大越臃肿。这个度,还是要自己好好把握。


直接上代码:

加载R

rm(list = ls())

####----load R Package----####
library(tidyverse)
library(ggrepel)
library(CMplot)
library(readxl)
source("R/gwas_analysis.R")

加载数据

####----load Data----####
GWAS_out <- read_xlsx(path = "Input/GWAS_out.xlsx", col_names = T)

CMplot版本的

####----CMplot version----####
CMplot(GWAS_out, plot.type = "m"type = "p", LOG10 = TRUE,
       threshold=c(1e-6, 1e-4),
       threshold.lty=c(1,2), 
       threshold.lwd=c(1,1), 
       threshold.col=c("black","grey"),
       file = "pdf",
       file.name = "CMplot_version",
       file.output = TRUE )
  

ggplot2手搓版本的

####----ggplot2 version----####
# 首先需要对数据进行预处理
out <- gwas_analysis(GWAS_out)

data <- out[[1]]
axis_location <- out[[2]]

p <- data %>%
  ggplot() + 
  geom_point(aes(x = Positioncum, y = -log10(Pvalue), size = -log10(Pvalue), color = Chromosome)) + 
  geom_hline(yintercept = c(4, 6),
             linetype = c(3,2)) + 
  geom_point(data = data %>% dplyr::filter(-log10(Pvalue) >= 6),
             mapping = aes(x = Positioncum, y = -log10(Pvalue), size = -log10(Pvalue)),
             color = "#dd1c77") + 
  geom_label_repel(data = data %>% dplyr::filter(-log10(Pvalue) >=6),
                   mapping = aes(x = Positioncum, y = -log10(Pvalue), label = SNP),
                   nudge_x = .15,
                   box.padding = 0.5,
                   nudge_y = 0.15,
                   segment.curvature = -0.1,
                   segment.ncp = 3,
                   segment.angle = 20) + 
  scale_x_continuous(breaks = axis_location$center,
                     labels = axis_location$Chromosome,
                     expand = c(0, 0)) + 
  scale_y_continuous(expand = expansion(mult = c(0, 0.1)),
                     breaks = c(0,2,4,6,8,10),
                     labels = c(0,2,4,6,8,10)) + 
  scale_color_manual(values = rep(c("#7fcdbb""#feb24c"), times = 10)) + 
  labs(x = "") + 
  scale_size(range = c(0.25,2)) +
  theme_bw() +
  theme( 
    legend.position="none",
    panel.border = element_rect(linewidth = 1),
    panel.grid.major.x = element_blank(),
    panel.grid.minor.x = element_blank(),
    axis.text = element_text(color = "#000000", size = 12),
    axis.title = element_text(color = "#000000", size = 15),
    plot.margin = margin(1,1,1,1,"cm")
  )
  
p

ggsave(filename = "Output/ggplot2_gwas.pdf",
       plot = p,
       height = 4,
       width = 12)

版本信息

####----sessionInfo----####
R version 4.3.0 (2023-04-21)
Platform: x86_64-apple-darwin20 (64-bit)
Running under: macOS 15.1.1

Matrix products: default
BLAS:   /System/Library/Frameworks/Accelerate.framework/Versions/A/Frameworks/vecLib.framework/Versions/A/libBLAS.dylib 
LAPACK: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0

locale:
[1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8

time zone: Asia/Shanghai
tzcode source: internal

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
 [1] latex2exp_0.9.6 readxl_1.4.3    CMplot_4.5.0    ggrepel_0.9.6   lubridate_1.9.3 forcats_1.0.0  
 [7] stringr_1.5.1   dplyr_1.1.4     purrr_1.0.2     readr_2.1.5     tidyr_1.3.1     tibble_3.2.1   
[13] ggplot2_3.5.1   tidyverse_2.0.0

loaded via a namespace (and not attached):
 [1] gtable_0.3.5      compiler_4.3.0    tidyselect_1.2.1  Rcpp_1.0.13       textshaping_0.3.7
 [6] systemfonts_1.1.0 scales_1.3.0      R6_2.5.1          labeling_0.4.3    generics_0.1.3   
[11] munsell_0.5.1     pillar_1.9.0      tzdb_0.4.0        rlang_1.1.4       utf8_1.2.4       
[16] stringi_1.8.3     viridisLite_0.4.2 timechange_0.2.0  cli_3.6.3         withr_3.0.1      
[21] magrittr_2.0.3    grid_4.3.0        rstudioapi_0.15.0 hms_1.1.3         lifecycle_1.0.4  
[26] vctrs_0.6.5       writexl_1.4.2     glue_1.8.0        farver_2.1.2      cellranger_1.1.0 
[31] ragg_1.2.6        fansi_1.0.6       colorspace_2.1-1  tools_4.3.0       pkgconfig_2.0.3      

历史绘图合集

公众号推文一览


进化树合集


环状图


散点图


基因家族合集

换一个排布方式:

首先查看基础版热图:

然后再看进阶版热图:


基因组共线性


WGCNA ggplot2版本


其他科研绘图


合作、联系和交流

有很多小伙伴在后台私信作者,非常抱歉,我经常看不到导致错过,请添加下面的微信联系作者,一起交流数据分析和可视化。


RPython
人生苦短,R和Python。
 最新文章