通用序列比对程序Minimap2软件的使用

学术   科学   2024-08-05 09:16   上海  

1. Minimap2软件的适用范围和应用场景

Minimap2 是一个通用的序列比对程序,可将 DNA mRNA 序列与大型参考数据库进行比对。

典型用例包括:

PacBio Oxford Nanopore 基因组读数映射到基因组

发现长读(long reads)之间的重叠,错误率高达~15%

PacBio Iso-Seq / Nanopore cDNA / Direct RNA reads与参考基因组的剪接感知比对(long reads)

Illumina的单端或双端reads对齐

组装水平到组装水平的对齐

两个密切相关的物种之间的全基因组比对,差异低于~15%


2. Minimap2软件的安装方法和参数解读

2.1 Minimap2的安装

方法一:conda安装

# 创建并进入conda环境

conda create -n Minimap2 -y

source activate Minimap2

# 安装minimap2

conda install -c bioconda minimap2

方法二:编译安装

# 获取并解压安装包

wget https://github.com/lh3/minimap2/archive/refs/tags/v2.28.tar.gz

tar -zxvf v2.28.tar.gz

# 切换到软件安装目录

cd minimap2-2.28

# 运行安装

make

# 添加环境变量,若不添加环境变量,可通过程序的绝对路径运行程序

# export PATH=软件安装路径:$PATH,此处为临时添加环境变量,也可将“export PATH=软件安装路径:$PATH”添加到  ~/.bashrc 中,然后保存退出,使用source ~/.bashrc 命令让其生效

export PATH="$PWD:$PATH"

2.2 minimap2软件关键参数解读

# 查看minimap2用法

./minimap2 -h

Usage:

minimap2 [options] <target.fa>|<target.idx> [query.fa] [...]

# 常用参数说明:

# 索引建立

  • -H:使用同聚体压缩的k-mer(适用于PacBio数据)
  • -k INTk-mer的大小(最大28[默认: 15]
  • -w INT:最小化窗口大小 [默认: 10]
  • -I NUM:每约 NUM 个输入碱基分割索引 [默认: 8G]
  • -d FILE:将索引保存到 FILE

# 比对

  • -f FLOAT:过滤掉重复性较高的minimizers的前 FLOAT 分数 [默认: 0.0002]
  • -g NUM:若在 INT bp 内没有minimizers则停止链延长 [默认: 5000]
  • -G NUM:最大内含子长度(配合 -xsplice 使用;改变 -r[默认: 200k]
  • -F NUM:最大片段长度(配合 -xsr 或片段模式使用)[默认: 800]
  • -r NUM[,NUM]:链/比对带宽和长连接带宽 [默认: 500,20000]
  • -n INT:链上最少的minimizers数量 [默认: 3]
  • -m INT:最小链得分(匹配碱基减去gap惩罚的对数)[默认: 40]
  • -X:跳过自身和双重比对(适用于全对全模式)
  • -p FLOAT:次要比对到主要比对的最小分数比率 [默认: 0.8]
  • -N INT:保留最多 INT 个次要比对 [默认: 5]

# 比对

  • -A INT:匹配得分 [默认: 2]
  • -B INT:错配惩罚(值越大,差异越小)[默认: 4]
  • -O INT[,INT]gap打开惩罚 [默认: 4,24]
  • -E INT[,INT]gap延伸惩罚;k长的gap花费 min{O1+k*E1,O2+k*E2} [默认: 2,1]
  • -z INT[,INT]Z-drop得分和倒置Z-drop得分 [默认: 400,200]
  • -s INT:最小峰值动态规划比对得分 [默认: 80]
  • -u CHAR:如何找到GT-AGf:转录链,b:两条链,n:不匹配GT-AG [默认: n]
  • -J INT:剪接模式。0: 原始minimap2模型;1: miniprot模型 [默认: 1]

# 输入/输出

  • -a:以SAM格式输出(默认PAF
  • -o FILE:将比对结果输出到 FILE [默认: 标准输出]
  • -L:在CG标签中写入 >65535 操作的CIGAR
  • -R STRSAM读取组行,格式如 @RG\tID:foo\tSM:bar
  • -c:在PAF中输出CIGAR
  • --cs[=STR]:输出cs标签;STR 可以是 'short' (默认) 'long'
  • --ds:输出ds标签,这是对cs的扩展
  • --MD:输出MD标签
  • --eqx:写入 =/X CIGAR 操作符
  • -Y:对补充比对使用软剪切
  • -t INT:线程数 [默认: 3]
  • -K NUM:比对的小批量大小 [默认: 500M]
  • --version:显示版本号

# 预设

  • -x STR:预设(总是优先于其他选项;详细请参见minimap2.1手册)
  • lr:hq:高质量长读长(错误率<1%)与参考基因组比对
  • splice/splice:hq:长读长/高质量长读长的剪接比对
  • asm5/asm10/asm20:组装与参考基因组比对,序列差异约为0.1/1/5%
  • sr:短读长与参考基因组比对
  • map-pb/map-hifi/map-ont/map-iclrCLR/HiFi/Nanopore/ICLR 对参考基因组比对
  • ava-pb/ava-ontPacBio CLR/Nanopore 读长比对


3 实战:使用Minimap2软件进行全长转录组测序数据比对

3.1 准备参考基因组和转录组数据

确保已经有参考基因组序列(FASTA文件)和全长转录组测序数据(通常为FASTAFASTQ格式)。

3.2 运行比对

使用以下命令进行全长转录组测序数据的比对。假设转录组数据文件名为 transcriptome.fq

minimap2 -ax map-pb reference.fa transcriptome.fq > aln.sam # for PacBio CLR reads

minimap2 -ax map-ont reference.fa transcriptome.fq > aln.sam # for Oxford Nanopore reads

其中:

-a:设置输出为sam格式

-x:对不同类型数据,设置不同参数

transcriptome.fq是转录组测序数据文件。

aln.sam是输出文件名,将比对结果保存为SAM格式。

3.3 优化参数

根据数据特性和分析需求,可以调整一些参数以获得更好的比对效果。

例如:

-G 参数控制最大内含子长度,默认是200k。根据需要调整,例如100k

minimap2 -ax map-ont -G 100k reference.fa transcriptome.fq > aln_100k.sam

-t 参数设置线程数,可以加快比对速度。例如使用8线程:

minimap2 -ax map-ont -t 8 reference.fa transcriptome.fq > aln_t8.sam


推荐课程

【课程】微生物比较基因组精品系列课——全套自学必入的系统课程

课程链接:微生物比较基因组精品系列课【全套】


【课程】微生物比较基因组与群体进化——基因组变异专题研究

课程链接:微生物比较基因组与群体进化


【课程】密码子偏好性分析——全套(含理论、软件、脚本、方法)

课程链接:遗传密码子偏好性研究课程


【课程】微生物分子分型-MLST课程——分型全套(含理论、软件、方法)

课程链接:微生物分子分型-MLST课程


【课程】R语言入门与高通量测序数据实战处理

课程链接:R语言入门与测序数据实战课程


【课程】肺炎克雷伯菌基因组学研究综合指南

课程链接:肺炎克雷伯菌基因组学研究综合指南


【课程】铜绿假单胞菌基因组研究和分子分型实战

课程链接:绿假单胞菌基因组研究和分子实战


【课程】可移动元件研究实战指南——从理论机制到分析实操

课程链接:可移动元件研究实战指南


【课程】基因组结构分析神器Easyfig实操精品课

课程链接:基因组结构分析神器Easyfig实操精品课


【课程】BRIG绘图——结构比较专题2

课程链接:走进比较基因组,BRIG软件带你轻松玩绘图


【课程】微生物基因组生信必学课程

课程链接:微生物基因组生信分析必学课程


【课程】微生物生防菌研究

课程链接:生防菌的系统化研究



专题材料

【资料】耐药专题材料

【资料】生防专题材料

扫码添加唯那生物技术客服小唯的微信二维码,备注“耐药专题”或“生防专题”,立马获取

客服小唯二维码


更多专题推荐

CORPORATE CULTURE

1、信技能课专辑

2、耐药毒力专题 

3、肺炎克雷伯菌专题

4、密码子偏好性专题

5、Easyfig相关问答

6、MLST-cgMLST

7、软件脚本分享

8微生物基因组研究文章

9、知识干货

10、分泌系统

11、软件下载

12、书籍下载

密码子实验室
我们一直坚持认为,让知识更有价值,让科学研究更简单,让实验室管理更智能化,让每一个热爱学习的人更有效率,是我们的使命。生物信息学实操、实验操作技能、科研绘图技巧、行业动态播报,这里只有干货。
 最新文章