这不就是生物信息学的宝典吗？ggmsa包，让你畅游生物序列的海洋，保守位点、突变位点，统统显露无遗！

学术 2024-11-02 19:00 上海

同学们，欢迎来带果叔的生信课堂，今天我要向大家介绍一个专门用于多序列比对结果可视化的强大工具——ggmsa包！相信同学们都知道MSA是将多个生物序列进行比对并对齐排列的过程，通过比对结果，我们可以发现序列的保守位点和突变位点，从而更好地理解生物序列的共同特征和变异情况，而ggmsa包能够帮助我们进行多序列比对结果的可视化分析，让我们更清晰地显示序列的保守性和变异性。

接下来，我们将学习如何安装和使用ggmsa包，通过这个强大的工具，我们可以加载、呈现和分析不同类型的生物序列，包括蛋白质、DNA和RNA等。ggmsa提供了丰富的功能和灵活的参数设置，还支持对比对结果进行注释，使得我们能够快速准确地分析比对结果，并发现序列中的保守位点和突变位点。通过今天的学习，同学们将能够更深入地了解生物序列的功能和结构，为生物信息学研究提供更多的工具和方法。接下来，请同学们跟紧果叔的步伐，让我们正式开启对ggmsa包的学习之旅吧！

本次介绍的R包需要较多的硬件资源，在服务器可以更加流畅运行，同学们如果没有自己的服务器欢迎联系我们使用服务器租赁~

跑代码时卡顿、电脑不给力让人抓狂！找果叔试用稳定高速的服务器，让分析顺畅无比！

代码学不会？bug 频繁出现，束手无策？实操生信分析课程赶快学起来！滴滴果叔领取体验课程哦~

线上课程教学

课题设计、定制生信分析

云服务器租赁

加微信备注99领取使用

ggmsa包介绍

ggmsa包是一个功能强大的R语言工具，专门用于多序列比对结果的可视化和分析，通过ggmsa包，用户可以方便地加载和呈现包括蛋白质、DNA和RNA在内的多序列比对数据，从而更深入地理解序列的保守性和变异性。该包提供了丰富的功能和灵活的参数设置，使得用户能够快速准确地分析比对结果，并发现序列中的保守位点和突变位点。ggmsa在生物信息学领域具有广泛的应用前景，将为研究人员和学生们提供强大的支持和帮助。

ggmsa包安装

需要R语言版本为4.3，在控制台中输入以下命令：

if (!require("BiocManager", quietly = TRUE))    install.packages("BiocManager ")BiocManager::install("ggmsa") # 在BiocManager环境下安装ggmsa查看是否安装成功    packageVersion("ggmsa") # 查看ggmsa版本

显示为1.8.0版本，则表示已经成功安装了ggmsa包。

使用ggmsa包进行多序列比对可视化示例

载入包和相关数据：

本文中我们将采用ggmsa包自带的示例数据，除此之外，FASTA 文件以及R 中的特定对象也可以作为输入对象，available_msa()函数可以用来列出可用的MSA对象。

library(ggmsa) # 载入ggmsa包available_msa() # 列出可用MSA对象

显示结果如下：

接下来我们载入需要的示例数据，命令如下:

protein_sequences <- system.file("extdata", "sample.fasta", package = "ggmsa") # 载入sample.fasta miRNA_sequences <- system.file("extdata", "seedSample.fa", package = "ggmsa") # 载入seedSample.fa     nt_sequences <- system.file("extdata", "LeaderRepeat_All.fa", package = "ggmsa") # 载入LeaderRepeat_All.fa

快速进行多序列比对可视化：

使用ggmsa包中的ggmsa()函数可以对包含多序列比对结果的.fasta文件进行快速可视化，命令如下：

ggmsa(protein_sequences, 300, 350, color = "Clustal", font = "DroidSansMono", char_width = 0.5, seq_name = TRUE ) # 多序列比对可视化# - protein_sequences: 包含蛋白质序列的对象或数据框# - 300: 比对的起始位置# - 350: 比对的终止位置# - color: 比对的颜色方案（这里设为 "Clustal"）# - font: 字体设置（这里设为 "DroidSansMono"）# - char_width: 字符宽度（这里设为 0.5）# - seq_name: 是否显示序列名称（这里设为 TRUE）

结果如下图：

自定义颜色和字体：

ggmsa包为自带的示例数据预设了几种配色方案。使用available_ color ()函数可以列出当前可用的配色方案。需要注意的是，氨基酸（蛋白质）和核苷酸（DNA/RNA）配色方案不同。

available_colors() # 列出可用的配色方案

结果如下图：

ggmsa包同样也提供了几种预定义的字体，用户可以使用available_fonts()函数来列出当前可用的字体。

使用msa包进行MSA注释：

ggmsa支持多序列比对的注释，与ggplot2包类似，它可以通过geom实现注释，用户可以使用+符号来执行注释，例如：ggmsa() + geom_*()。自动生成的包含彩色标签和符号的注释会被叠加在多序列比对上，以指示保守或不同的区域。

例如，使用序列标志和条形图可视化多序列比对的命令如下：

ggmsa(  protein_sequences,   # 蛋白质序列数据  start = 221,         # 序列的起始位置  end = 280,           # 序列的结束位置  seq_name = TRUE,     # 是否显示序列名称  char_width = 0.5     # 字符的宽度) +geom_seqlogo(color = "Chemistry_AA") +  # 添加序列标志geom_msaBar()                            # 添加条形图

结果如下图所示：

由图我们可以清晰看出多序列比对的保守位点以及突变位点，为我们后续进行特定位点研究分析提供了便利，通过识别这些保守位点，我们可以更深入地了解蛋白质序列的功能和结构，同时突变位点的发现也为我们研究蛋白质在进化过程中的变化提供了重要线索。

以上就是对于ggmsa包的介绍了，通过学习本文介绍的ggmsa包，我们可以轻松地进行多序列比对的可视化分析，要知道，ggmsa包为我们提供了丰富的功能和灵活的参数设置，使得我们能够快速准确地分析多序列比对结果，并发现序列中的保守位点和突变位点。果叔希望大家继续学习和探索ggmsa包，将其应用到更广泛的生物信息学研究中，为我们深入理解生物学过程和解决生物学问题提供更多的工具和方法。让果叔与同学们一起努力，掌握ggmsa包，为生物信息学的发展做出更大的贡献！

同学们如果觉得自己写代码麻烦，可以体验一下我们的云生信小工具，只需输入数据，即可轻松生成所需图表。立即访问云生信

（http://www.biocloudservice.com/home.html），开启便捷的生信之旅！

果叔还提供思路设计、定制生信分析、文献思路复现；有需要的小伙伴欢迎直接扫码咨询果叔，竭诚为您的科研助力！

定制生信分析

服务器租赁

扫码咨询果叔

往期回顾

UKB数据库真的牛！3天接受，10天发表！免费新数据绝佳发文时期，拼的就是手速！仅2张图就能拿下IF:13.4分？！

NC优质平替！飞升1区Top，超10分的综合性毕业神刊！性价比超高，国人友好，Case Report也收！这波安全上车！

不做实验照样发Nature Communications！借诺奖东风“机器学习”+多组学分析，打造创新思路，每一步都踩在点子上！

水 IF=58.7，这泼天的多组学富贵可得接住！系统生物学研究团队开挂思路，机器学习助力个性化医疗，你就学吧，一看一个不吱声！

http://mp.weixin.qq.com/s?__biz=Mzg3OTg3MjQyNg==&mid=2247504927&idx=2&sn=e07c18111fe61d82a8e32c1221b45187