TBtools｜对minimap2生成的paf文件进行可视化

文摘科学 2024-09-22 08:45 广东

作为著名的生信大佬，李恒教授在开发了比对工具bwa之后，在2018年推出了又一力作minimap2，其主要功能就是将测序得到的DNA或者RNA序列快速比对到参考基因组上。

bwa主要适用于illumina等短读长序列的比对，而minimap2则是专门针对PacBio或Oxford Nanopore等三代测序长读长数据开发的软件。实际上，minimap2 可应用于多种比对场景，包括对二代数据进行比对，其输出结果格式包括paf和sam格式，默认为sam格式。

在本文中，不对minimap2的算法原理进行解析，仅以“基因组组装之间的比对”为例，展示其易用性和paf文件的可视化。

软件安装与测试

conda install -c bioconda minimap2 # conda安装是方法之一minimap2 -h # 调出该软件的帮助信息

Usage: minimap2 [options] <target.fa>|<target.idx> [query.fa] [...]Options:Indexing:      -H           use homopolymer-compressed k-mer (preferrable for PacBio)      -k INT       k-mer size (no larger than 28) [15]      -w INT       minimizer window size [10]      -I NUM       split index for every ~NUM input bases [8G]      -d FILE      dump index to FILE []Mapping:      -f FLOAT     filter out top FLOAT fraction of repetitive minimizers [0.0002]      -g NUM       stop chain enlongation if there are no minimizers in INT-bp [5000]      -G NUM       max intron length (effective with -xsplice; changing -r) [200k]      -F NUM       max fragment length (effective with -xsr or in the fragment mode) [800]      -r NUM[,NUM] chaining/alignment bandwidth and long-join bandwidth [500,20000]      -n INT       minimal number of minimizers on a chain [3]      -m INT       minimal chaining score (matching bases minus log gap penalty) [40]      -X           skip self and dual mappings (for the all-vs-all mode)      -p FLOAT     min secondary-to-primary score ratio [0.8]      -N INT       retain at most INT secondary alignments [5]Alignment:      -A INT       matching score [2]      -B INT       mismatch penalty (larger value for lower divergence) [4]      -O INT[,INT] gap open penalty [4,24]      -E INT[,INT] gap extension penalty; a k-long gap costs min{O1+k*E1,O2+k*E2} [2,1]      -z INT[,INT] Z-drop score and inversion Z-drop score [400,200]      -s INT       minimal peak DP alignment score [80]      -u CHAR      how to find GT-AG. f:transcript strand, b:both strands, n:don't match GT-AG [n]      -J INT       splice mode. 0: original minimap2 model; 1: miniprot model [1]Input/Output:      -a           output in the SAM format (PAF by default)      -o FILE      output alignments to FILE [stdout]      -L           write CIGAR with >65535 ops at the CG tag      -R STR       SAM read group line in a format like '@RG\tID:foo\tSM:bar' []      -c           output CIGAR in PAF      --cs[=STR]   output the cs tag; STR is 'short' (if absent) or 'long' [none]      --ds         output the ds tag, which is an extension to cs      --MD         output the MD tag      --eqx        write =/X CIGAR operators      -Y           use soft clipping for supplementary alignments      -t INT       number of threads [3]      -K NUM       minibatch size for mapping [500M]      --version    show version numberPreset:      -x STR       preset (always applied before other options; see minimap2.1 for details) []                   - lr:hq - accurate long reads (error rate <1%) against a reference genome                   - splice/splice:hq - spliced alignment for long reads/accurate long reads                   - asm5/asm10/asm20 - asm-to-ref mapping, for ~0.1/1/5% sequence divergence                   - sr - short reads against a reference                   - map-pb/map-hifi/map-ont/map-iclr - CLR/HiFi/Nanopore/ICLR vs reference mapping                   - ava-pb/ava-ont - PacBio CLR/Nanopore read overlap
See 'man ./minimap2.1' for detailed description of these and other advanced command-line options.

‍运行程序

minimap2 -t 20 -c ref.fa query.fa > alignment.c.paf # 基因组不大的话，不用建立索引，可直接比对
# -t 线程数，可根据电脑配置进行调整# -c output CIGAR in PAF

运行过程

[M::mm_idx_gen::7.366*1.69] collected minimizers    [M::mm_idx_gen::7.967*2.76] sorted minimizers    [M::main::7.967*2.76] loaded/built the index for 140 target sequence(s)    [M::mm_mapopt_update::8.825*2.59] mid_occ = 242    [M::mm_idx_stat] kmer size: 15; skip: 10; is_hpc: 0; #seq: 140    [M::mm_idx_stat::9.341*2.50] distinct minimizers: 29349971 (75.58% are singletons); average occurrences: 1.800; average spacing: 5.340; total length: 282161110    [M::worker_pipeline::267.293*7.42] mapped 25 sequences    [M::main] Version: 2.28-r1209    [M::main] CMD: minimap2 -t 20 -c ref.fa query.fa > alignment.c.paf    [M::main] Real time: 267.437 sec; CPU: 1983.772 sec; Peak RSS: 19.358 GB

接下来，让我们用TBtools中的PAF Viz插件，对上面产生的“alignment.c.paf”文件进行快速的可视化。

打开TBtools之后，点击Graphics选项卡，选择Comparative Genomics里的PAF Viz。

PAF Viz插件的界面如下：

然后，选择或拖入自己的paf文件，并根据自己的需要，调整显示参数。

最后，点击“Save Graph”，设置输出格式和分辨率，可保存该比对图像。

植信矿工

专注于分享植物方向的最新学术成果、前沿知识和技术进步，以及实践优化过的生信软件、脚本和流程。

最新文章

基因组注释｜1. 从原理介绍开始

SeqKit2｜一款超快且全能的序列处理工具包（以取反向互补序列为例）

Bioinformatics | 张国捷团队开发T2T基因组组装质量评估新工具

Plant Journal｜胡萝卜的T2T 基因组和转录组揭示了其与病原菌在感染过程中的相互作用机制

PCE｜V-ATPase可以与VPT蛋白合作，在亚细胞和系统两个层面上调节Pi稳态

JIPB｜OsBSK1-2通过OsHLH46/OsbHLH6复合物来调节水稻的稻瘟病抗性

TBtools｜对minimap2生成的paf文件进行可视化

Nature Communications｜VIG1基因上的一个点突变促进了水稻的发育和耐冷性

Nature Communications｜HASTY介导的miRNA动态变化调控了拟南芥中缺氮诱导的叶片衰老

高校新闻｜港浸大前协理副校长呼吁取消教资会，将八大高校合并为香港联合大学

会议通知｜这个11月，我们相约重庆

JIPB | 南京农业大学王源超课题组提出大豆锈病菌防治新策略

著作解读｜GWAS第三章：基因分型平台介绍

Plant Communications｜OsHAG1调控了水稻籽粒中的砷元素分配与积累

Plant Communications｜叶绿体五肽重复蛋白通过TB1-RCN22-RbcL模块影响糖水平来调控水稻分蘖

著作解读｜GWAS第二章：表型数据的准备和管理

著作解读｜GWAS第一章：分析的主要步骤和关键要点

New Phytologist｜植物必需微量元素的关键生理功能与缺乏症状

JIPB丨玉米螟幼虫取食玉米时的“马太效应”

Nat Genet | 豌豆参考基因组和314份群体分析提供了对孟德尔性状遗传基础的见解

JIPB｜MRP5和ITPK4双突变在不损害拟南芥耐盐性的同时，降低了种子中的植酸含量

Plant Journal｜法国科研团队推出了871个完全测序的纯合EMS突变体

Nature Communications｜E1及其同源基因精细调控大豆开花时间和适应性的分子机制

PBB｜1-丁醇预处理通过刺激气孔关闭和延缓叶片水分损失，有效增强了拟南芥对干旱胁迫的耐受性

JIPB｜绿光通过调控光敏色素的活性介导了拟南芥中的非典型光形态建成

Nature Communications｜胁迫诱导的转录因子ONAC023同时改善了水稻对干旱和热胁迫耐受性

Mac 上的终端神器 - iTerm2

Nature Communications｜效应因子NopL与GmREM1a和GmNFR5互作以促进大豆与根瘤的共生

JIPB｜液泡的磷酸盐外排机制支持了大豆根毛在缺磷条件下的生长

quarTeT｜鉴定基因组中的端粒（1）

生信技能 | quarTeT：专门用于T2T组装和着丝粒重复识别研究的新工具

Plant Journal｜OsMYC2-JA反馈回路通过细胞壁松弛调控水稻的日间开花时间

Nature Communications｜AUREO1c-LI818途径促进了硅藻在动态光照条件下的适应性

Nature Communications｜温度依赖的Jumonji去甲基化酶通过靶向H3K36me2/3调控小白菜的开花时间

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉