如何使用MISA分析基因组SSR序列 |生信实战开发

企业   2024-12-22 10:40   浙江  


什么是SSR?

SSR(simple sequence repeat,微卫星,也称STR,MS等)我们想必都不陌生,作为广泛存在基因组中的一个序列类型,SSR在诸多方面都有着重要的作用,例如设计SSR标记进行育种和分子生态研究、使用SSR位点进行血缘鉴定、通过微卫星不稳定性来分析癌症基因组等。不过进行这一系列研究,首先就需要从基因组序列中识别SSR位点。

MISA是一个使用perl写成的小型软件(https://webblast.ipk-gatersleben.de/misa/),全称MIcroSAtellite identification tool,是一款经典的从序列中搜寻SSR位点的软件。开发至今已经有20年,非常的稳定。使用MISA可以从fasta格式的序列文件中进行SSR位点的鉴定和提取,适用于全基因组的搜寻和在无参转录组组装得到的序列中进行搜寻鉴定。


01操作方法

MISA下载完成后,仅有一个.pl脚本,和一个ini配置文件。配置文件内容如下:

definition(unit_size,min_repeats): 1-10 2-6 3-5 4-5 5-5 6-5

interruptions(max_difference_between_2_SSRs): 100

配置文件规定了SSR的定义(重复单元碱基数与重复次数)、SSR的间隔(默认低于100个碱基的2个SSR位点会被合并成一个复合位点)。

使用起来也非常的方便,执行如下命令即可:

Perl misa.pl fasta.fa

(由于MISA基本没有依赖包,所以使用的perl版本对结果不造成影响。)



02结果说明

misa.pl运行结束后结果会输出到当前目录,结果中包含一个.misa文件和一个.statistics文件。其中.misa文件就是我们的主要结果了。

.misa文件是一个表格,打开之后表头包含下述几列:

ID:序列名。

SSR nr:SSR编号。

SSR type:SSR类型,p后加数字表示重复单元的碱基数,如p3即为3个碱基的重复单元。c代表复合重复单元。

SSR:即为SSR的重复单元及重复次数。

size:SSR重复单元的总长度。

start:SSR起始位点。

end:SSR终止位点。


.statistics文件则是一个详尽的统计,它会告诉你MISA软件识别出的SSR位点包含的类型、各类型的数量等等。


03在线工具

另外,MISA还有线上分析的方式,即在https://webblast.ipk-gatersleben.de/misa/网页上进行在线SSR搜索,上传序列即可使用界面操作在线搜索SSR位点,搜索完之后结果会发送到用户的邮箱。上传的序列最大限制是2Mb,如果超过了这个限制,还是使用perl版本的MISA比较合适。



相关阅读


CytoTRACE:细胞分化潜能分析|生信开发实战
Visium HD数据分析之Bin2Cell |生信开发实战
ROC分析介绍|生信开发实战
如果使用find_circ来鉴定circRNA|生信开发实战

本文系联川生物公众号原创文章,未经授权禁止转载,侵权必究!

扫描下方二维码





点分享


点点赞


点在看




联川生物
一个提供科研入门学习资源、经验的平台。 分享前沿测序技术资讯、实用生信绘图技巧及工具。 发布高质量的科研论文精度、精炼科研思路。 我们的目标是持续提供“干货”,滋润您的科研生涯。
 最新文章