分享一篇近期发表在 Bioinformatics 上的文章:AssemblyQC: A Nextflow pipeline for reproducible reporting of assembly quality,这是一个基因组组装质量评估的综合性流程,集合了准确性、连续性和完整性等多项指标(这是小编一直想做的事情,现有轮子,分享给你)。
该流程基于 nf (nextflow)框架开发,包含了主流的 BUSCO 指标,还有共线性、端粒信息、Hi-C 互作信息等多样化的信息,能够一次性对基因组进行完整的评估,并生成html 报告,可谓相当友好。
使用
准备一个 assemblysheet.csv 文件,其中包含以下列,代表目标组装文件和关联的元数据。
tag: 一个唯一的标签,代表整个管道和最终报告中的目标组装 fasta: FASTA 文件
运行:
nextflow run plant-food-research-open/assemblyqc \
-profile <docker/singularity/.../institute> \
--input assemblysheet.csv \
--outdir <OUTDIR>
将流程下载到 /workspace/$USER 文件夹。更改 pfr/params.json 文件中定义的参数。将流程提交到 SLURM 执行。
sbatch ./pfr_assemblyqc
更多内容参考Github:
https://github.com/Plant-Food-Research-Open/assemblyqc