使用tidverse 数据处理，以及热图可视化（数据工程）

学术 2024-10-16 08:23 江苏

本节内容属于思农数据工程产物，欢迎大家批评指正。

本次学习笔记主要涉及内容为本周工作过程中所遇到的一些数据处理和可视化的函数，主要内容如下:

p_load函数

install.packages("pacman")library(pacman)p_load(package1，package2，....)

pacman是一个管理R包的工具，其可以简化r包的安装和加载，这一功能可通过p_load函数实现。其主要特点有以下两点：

1、对于已安装r包，其等同于library(package1)，对于需载入但并未安装的r包，其会自动进行下载所需包并且在下载完成后载入，一键式实现install.packages("package1");library(package1)

2、不论是加载已安装还是未安装r包时，其均不需加""，简化了包的安装和提高了工作效率。

聚类热图pheatmap

pheatmap包是热图可视化的工具之一，其为封装好的函数，可实现一键出图，具有众多可设置的参数，对于一些重要参数进行了学习，进而实现个性可视化的需求。

#该包可视化时行和列取决于输入数据框的行和列，两者会保持一致，即列名为横轴，可视化时标签显示在图片下方，行名为纵轴，可视化时标签显示在图片右方

#标签设置参数show_rownames = T/F, show_colnames = T/F#是否展示行列标签fontsize = 10, fontsize_row = fontsize, fontsize_col = fontsize#字体大小设置angle_col = c("270", "0", "45", "90", "315")#列名即x轴标签旋转角度，常在标签过多或过长时使用

#是否标准化对于可视化具有重大影响，对于一般数据为了更好的展示差异，一般需要对其标准化。若想要更好地展示同一物种在不同样品间的差异，对于行名为物种列名为样品的数据来说，设置scale=row，此时样品内部不同物种之间的丰度比较无意义；

参数：scale=c("row", "column" and "none")

#基于样品组成数据和丰度组成数据，分别对其进行聚类，样品间的聚类远近表示样品间物种组成的差异包括丰度和丰富度；物种间的聚类远近表示其在不同样品间分类模式的差异，距离越近表明其分布模式差异越小，与聚类树相关的主要参数如下:

cluster_cols = FALSE/TRUE,cluster_rows=TRUE/FALSE#是否对行和列进行聚类 treeheight_row=num,treeheight_col=num#设置聚类树的高度clustering_distance_rows，clustering_distance_cols#行列聚类距离计算方法选择，  皮尔逊相关性或者欧氏距离等 ，函数默认为"euclidean"clustering_method = "complete"#聚类方法选择，默认为complete

#整体布局，包括尺寸，标题，颜色，是否显示数值标签，图例设置等

cellwidth=num，cellheight=num#设置单元格大小，初步发现当cellwidth<3时，为条带显示；当cellwidth>=3时，显示为矩形 main="title"#设置标题 color = colorRampPalette(c('red', 'white', 'blue'))(100))  #颜色设置，可根据需求对括号内变量进行设置border_color = NA#单元格边框颜色设置，NA为不设置，默认为grey30，可根据需求自行调整display_numbers = T/F#是否显示单元格数值信息legend = TRUE, legend_breaks = NA,legend_labels = NA#标签设置，是否显示标签，刻度显示位置，刻度处显示标签

#分组信息添加，即在图片的上方或者左方添加分组信息，具体呈现形式为不同颜色的矩形，同一分组为同一颜色，若想要连续分组展示，则需将初始数据调整至同一分组连续，另外不对需要分组的信息进行聚类。分组信息储存在数据框中，行名要与想要分组的行或列其名称保持一致。

annotation_row = NA, annotation_col = NA,  annotation = NA, annotation_colors = NA, annotation_legend = TRUE,  annotation_names_row = TRUE, annotation_names_col = TRUE

#特殊的，对图片进行分割，通过分组分割，或者聚类分割

cutree_rows = num，cutree_cols=num#按照聚类结果，对可视化结果进行分割gaps_col = breaks，gaps_row=breaks#按照指定顺序对结果进行分割#以按列分组信息进行举例library(dplyr)group<-unique(sample.name$V3)Gnum<-length(group)number <- sample.name %>% group_by(V3) %>% count(V3)breaks <- c()k <- 1for(i in 1:(Gnum-1)){  breaks[k] <- sum(number[1:i,2])  k <- k+1}

简要绘图展示

pheatmap(test, cellwidth = 15, cellheight = 12, main = "Example heatmap")

distinct函数是干嘛的

distinct() 函数是用来从数据框中筛选出唯一的行

tax1 %>% distinct(id,.keep_all = TRUE) %>%  column_to_rownames("id")#保留id列唯一值的行，同时保留其他所有列，并将筛选后的id列作为行

left_join

left_join 是 dplyr 包中的函数，用于执行左连接（left join）操作，将两个数据框按照某个共同的列连接起来。具体来说，left_join 函数会保留左侧数据框的所有行，并将右侧数据框中与左侧数据框匹配的行合并到一起，如果右侧数据框中没有匹配的行，则对应的列填充为缺失值（NA）。

str_to_lower

stringr包中调整字母大小写函数，lower，所有字母小写，upper，所有字母大写，title，所有字母首字母大写，sentence仅第一个单词大写

str_to_upper() converts to upper case.
str_to_lower() converts to lower case.
str_to_title() converts to title case, where only the first letter of each word is capitalized.
str_to_sentence() convert to sentence case, where only the first letter of sentence is capitalized.

作者：思农生信团队

http://mp.weixin.qq.com/s?__biz=MzUzMjYyMDE2OQ==&mid=2247500907&idx=1&sn=5306264ea061de2b9b8f9788a18684ff

微生信生物

根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领，主要关注：1.植物和微生物互作在抗病过程中的作用 2 环境微生物大数据整合研究3 环境代谢组及其与微生物过程研究体系开发

最新文章

根际细菌有助于缓解农药对植物产生的胁迫

期刊被on hold（警告）了，文章还能不能用于申请基金？

系统讨论和比较合成微生物群落构建方法

土壤真菌功能群内的物种型多样性驱动生态系统稳定性

系统发育树可视化复现实例（数据工程）

假单胞菌-地上部昆虫-叶片微生物-取食-菌群

使用tidverse 数据处理，以及热图可视化（数据工程）

Nature | 破解多年难题！中国学者对微生物研究再次突破，登顶国际舞台！

代谢组OPLS分析及可视化、ggClusternet中网络稳定性函数修正（数据工程）

微生物联合挖掘教程连载-PC-10-网络稳定性分析、分组之间距离比较和可视化、网络模块化分析

非靶向代谢组当前最佳性能限制排序OPLS-DA分析及其代谢特征挖掘（数据工程）

手写非靶代谢组t检验过程并优化可视化图形布局（数据工程）

利用大语言模型比对蛋白序列是否可以更新宏基因组研究中的序列比对过程？

微生物联合挖掘教程连载-PC-9-Correlation network analysis（相关和网络分析）

随机森林调参用于训练最佳模型（数据工程）

微生物联合挖掘教程连载-PC-8-群落构建过程

第二信使2'，3'-环磷酸腺苷对青枯菌生理和毒力的调控

六年前的这项技术创新，让微生物扩增子测序检测往前迈进一大步！

植物通过脯氨酸积累干扰植物病原真菌的非自我识别以促进真菌病毒的传播

数据分析 | 微生物宏基因组数据组装、分箱等高级分析如何可视化？

微生物种间相互作用促进多种物种生物膜中的关键物种以促进植物生长

重大进展！代谢组和宏基因组测序研究新思路，成为生信领域的“领头羊！

植物通过脯氨酸积累干扰植物病原真菌的非自我识别以促进真菌病毒的传播

第七届中国有机（类）肥料大会，现场领取《中国有机（类）肥料》巨著

江苏省农科院资环所土壤肥力与植物营养创新团队在基础性长期性监测方面取得系列进展

盐胁迫环境下不同微生物缓解碳限制的生态进化策略不同

【科研直播预告】土壤残体碳分析测试讲解+技术在线实时答疑，开学季活动&抽奖等你来！

利用效应蛋白对土传真菌病原菌的微生物组进行操纵

AsgeneDB：一个经过整理的砷代谢同源基因数据库及用于宏基因组注释的计算工具

微生信生物邀请您参加iMeta大会2024 (10.11-13深圳)

PCycDB：一个用于快速分析磷循环基因的全面且准确的数据库

终于整理好了！宏基因组数据分析教程+软件+代码

无机和有机处理对玉米根际微生物群落的影响

丛枝菌根真菌缓解干旱对土壤功能负面影响的研究

间作通过促进根际代谢物和微生物组之间的联系来促进玉米生长和养分吸收

结合代谢组学和转录组学策略揭示蓖麻植物在碱胁迫下萌发阶段的适应机制

微生物与植物之间通信渠道的构建

植物-病原互作中的糖类难题：转化酶和糖运输蛋白的作用取决于病害系统

枯草芽孢杆菌SL44与霍氏肠杆菌Wu15联合防治植物病害

有机基质与秸秆降解复合微生物剂复合系统提高了稻麦轮作土壤有机质水平和微生物丰度

土壤中的自然植物病害抑制作用延伸到对昆虫害虫的控制

全网关注！这个微生物宏基因组分析交流会到南京了！

嫁接到抗性砧木能改变根系分泌物成分有助于减少冠瘿病

上海市农业科学院园艺所设施茄果团队招聘博士后

植物-病原互作中的糖类难题：转化酶和糖运输蛋白的作用取决于病害系统

Purpureocilium lilacinum和Penicillium chrysogenum降解重油污泥中烃类及修复土壤潜力

链霉菌 Streptomyces setonii WY228 通过VOC调节植物生长并增强盐胁迫耐受性

种间相互作用促进关键种在多物种生物膜中的作用从而促进植物生长

宏基因组学揭示了在黑土地区长期施用化学肥料和有机肥料下土壤碳氮循环功能配置的差异

植物通过脯氨酸积累干扰植物病原真菌的非自我识别以促进真菌病毒的传播

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

使用tidverse 数据处理，以及热图可视化（数据工程）

p_load函数

聚类热图pheatmap

简要绘图展示

distinct函数是干嘛的

left_join

str*_to_lower*

str_to_lower