基因组时代后数据分析的插件
随着植物生物学研究进入后基因组时代,大量的序列资源,例如全基因组重测序数据,正在变得更加易获取。充分利用这些公共资源可以极大地加速科学研究和作物育种。因此,我们开发了一系列TBtools插件,赋予TBtools用户在本地计算机上进行更多数据分析任务的能力。
快速分子标记
分子标记辅助育种已经广泛应用于几个主要作物的育种,包括水稻、玉米和小麦,并取得了非常有前景的成果。然而,实用和有效分子标记的开发一直是一个持久的挑战,通常需要大量的时间和资源投入。幸运的是,随着基因组测序和高通量测序数据的不断增加,我们现在有了前所未有的机会利用这些资源,加速育种项目的进展。
在TBtools-II中,我们开发了‘‘SSR Miner’’(SSR代表简单重复序列)功能,用于快速高效地在整个基因组水平上识别SSR位点(图3A)。为了比较两个物种或两个单倍体的基因组序列,用户还可以使用‘‘Genome VarScan’’插件快速识别结构变异区域(图3B)。‘‘Batch Target Region Primer Design’’插件可用于批量设计针对获得的SSR位点和结构变异区域的PCR引物(图3C),而‘‘Primer Check’’插件允许用户模拟PCR实验并生成计算机生成的凝胶图像,从而直观地评估引物的特异性或多态性(图3D)。
类似地,随着高通量测序技术的进步,几乎所有实验室都能负担得起整个基因组的测序成本。对自行测序材料与公开资源进行基因组差异研究正逐渐成为常规任务。在TBtools中,有三个插件,即BWA-MEM2 GUI Wrapper(Li, 2013; Vasimuddin et al., 2019)、SAMtools GUI Wrapper(Li et al., 2009)和BCFtools GUI Wrapper(Danecek et al., 2021)/Freebayes GUI Wrapper(Garrison and Marth, 2012),可依序使用以快速准确地识别基因组变异(图3E)。这一系列插件特别适用于专注于分子标记辅助育种的小型研究团队。利用‘‘QTLseqr GUI Wrapper’’插件(Mansfeld and Grumet, 2018),用户还可以轻松在个人电脑上进行BSA-seq数据分析(图3F)。
图3. TBtools-II中用于后基因组数据分析的高级插件。
(A) “SSR Miner”插件提供了一种从单个序列数据集中识别SSR位点的强大可靠方法。
(B) “Genome VarScan”插件支持检测两个序列数据集之间的结构变异。
(C) “Batch Target Region Primer Design”插件能够进行批量引物设计。
(D) “e-Gel Image”插件生成预测PCR产物的硅胶图像。
(E) TBtools-II中从重测序数据中快速调用SNP的简要工作流程。
(F) “QTLseqr GUI Wrapper”插件的界面显示了BSA-seq数据分析生成的示例结果。
BSA-seq数据分析演示
为了展示TBtools插件多样且实用的功能,我们使用了番茄的一个公开可用的测序数据集(Soyk et al., 2019)作为示例,逐步介绍了BSA-seq数据分析的工作流程。
首先,用户可以使用“BWA-MEM2 GUI Wrapper”插件执行读取比对(图4A)。番茄参考基因组序列可从SGN数据库(Fernandez-Pozo et al., 2014)下载,而测序数据则可从NCBI SRA数据库获取。选择基因组序列和测序数据后,用户可以设置线程数,比如四个,并指定工作目录,然后点击“开始”,等待程序运行完成。随后,将生成两个对应的BAM格式的比对结果文件。
通常,突变检测软件要求读取比对结果按基因组位置排序,并删除重复。这可以通过使用“SAMtools GUI Wrapper”插件来实现(图4B)。可以依序使用“SAM/BAM/CRAM排序”和“标记重复”两种模式。输入文件是前一步获得的BAM文件。用户应指定工作目录和可用线程数,然后点击“开始”。此过程最终将生成一个具有“.sorted.markdup.bam”后缀的读取比对文件。
接下来,用户可以选择使用“BCFtools Variant Calling GUI Wrapper”或“Freebayes GUI Wrapper”插件进行全基因组突变检测和过滤(图4C)。这两个插件的使用方式类似,用户设置参考基因组序列,输入排序并去重的读取比对结果文件,指定输出文件路径,设置线程数和倍性,然后点击“开始”以完成分析。为了过滤突变位点,用户可以简单地将BCFtools GUI Wrapper插件的模式调整为“SNP Filtering”,然后根据界面提示设置相应的文件和参数。
最后,用户将获得的高质量突变位点文件输入到“QTLseqr GUI Wrapper”插件中(图4D),设置样品ID和两个池样本中个体的数量,提供输出目录,并根据需要调整其他参数。点击“开始”后,用户将获得相应的数量性状位点信息表和结果图表(图3F)。
图4. 使用TBtools-II中内置插件展示BSA-seq分析的简化工作流程。
(A)“BWA-MEM2 GUI Wrapper”插件用于读取比对。
(B)“SAMtools GUI Wrapper”插件用于排序比对结果和去除重复项。
(C)“VCFtools GUI Wrapper”插件用于变异检测。
(D)“QTL interval detection”插件用于QTL检测。
每个截图中的数字对应所示的操作步骤。
文章翻译至 TBtools-II: A ‘‘one for all, all for one’’ bioinformatics platform for biological big-data mining 点击原文查看原文