点击蓝字·关注我们
1. BUSCO
输入
1.FASTA 格式基因组,命名为 dmel.fa
为避免后续分析报错,请确保基因组FASTA Header行仅包含字母,不包含空格等其他字符,即“>NC_004354.4 Drosophila melanogaster chromosome X”改为“>NC_004354.4”,可通过以下脚本过滤。
python genome_clean.py dmel_raw.fa > dmel.fa
from sys import argv
for x in open(argv[1]):
x=x.strip()
if x.startswith('>'):
print(x.split()[0])
else:
print(x)
2.昆虫纲BUSCO核心基因集, 解压后得到文件夹——insecta_odb10
运行
busco --cpu 30 -l /home/meiyang/project/09_annotation/01_BUSCO/insecta_odb10 --mode genome -o out --i dmel.fa --offline
参数:
-l,指定库文件夹的绝对路径
输出
out/
├── logs
├── run_insecta_odb10
├── short_summary.specific.insecta_odb10.out.json
└── short_summary.specific.insecta_odb10.out.txt
run_insecta_odb10,记录了运行过程中的所有文件。其中,busco_sequences目录中包含有预测得到的BUSCO核心基因序列,可用于系统发育分析。
run_insecta_odb10/
├── busco_sequences
│ ├── fragmented_busco_sequences
│ ├── multi_copy_busco_sequences
│ └── single_copy_busco_sequences
├── hmmer_output
│ ├── initial_run_results
│ └── rerun_results
└── metaeuk_output
├── initial_results
└── rerun_results
short_summary.specific.*.out.txt,BUSCO基因组评估的结果。C值为99.6%,S值为98.9%,即该基因组包含核心基因集中99.6%的基因,且98.9%的基因为单拷贝,基因组完整性较高。
# BUSCO version is: 5.4.3
***** Results: *****
C:99.6%[S:98.9%,D:0.7%],F:0.1%,M:0.3%,n:1367
1361 Complete BUSCOs (C)
1352 Complete and single-copy BUSCOs (S)
9 Complete and duplicated BUSCOs (D)
2 Fragmented BUSCOs (F)
4 Missing BUSCOs (M)
1367 Total BUSCO groups searched
Assembly Statistics:
1870 Number of scaffolds
2442 Number of contigs
143726002 Total length
0.802% Percent gaps
25 MB Scaffold N50
21 MB Contigs N50
线程:30,总耗时:6 min
2. compleasm
输入
dmel.fa
运行
1.下载 compleasm 核心基因库
compleasm download insecta -L compleasm
compleasm所用的核心基因库与BUSCO的文件结构不同,无法直接调用,需通过compleasm download命令下载。
服务器必须联网,或者通过联网虚拟机进行下载后,再上传至服务器。
compleasm 核心基因库目录结构
compleasm
├── eukaryota_odb10
├── eukaryota_odb10.2024-01-08.tar.gz
├── eukaryota_odb10.done
├── file_versions.tsv
├── file_versions.tsv.done
├── file_versions.tsv.hash
├── insecta_odb10
├── insecta_odb10.2024-01-08.tar.gz
├── insecta_odb10.done
├── placement_files
└── placement_files.done
2.运行 compleasm
compleasm run -t30 -a dmel.fa -o out -l insecta -L /home/meiyang/project/09_annotation/02_compleasm/compleasm
输出
out/
├── insecta_odb10
└── summary.txt
insecta_odb10,与BUSCO软件结构类似。
summary.txt,compleasm 基因组评估的结果。C值(S+D)为99.78%,S值为99.34%,与 BUSCO 结果较为一致,略高一些。
## lineage: insecta_odb10
S:99.34%, 1358
D:0.44%, 6
F:0.07%, 1
I:0.00%, 0
M:0.15%, 2
N:1367
线程:30,总耗时:3 min
3. 总结
BUSCO 完整性是基因组组装质量评估的主要参数,是基因组项目的第一个重要指标。一般而言,C值在95%以上的基因组,可认为具有较高的完整性,质量较高。
目前,HiFi、HiC等技术的使用,也使得基因组完整性不断提升,近期的昆虫基因组BUSCO完整性多在97%~98%以上。因此,如若该指标较低,很可能在投稿过程中,该基因组从数据层面被审稿人所质疑,导致文章被拒。
在评估完基因组质量后,需要进行重复序列的注释和屏蔽,这部分内容将在下一篇文章中进行更新,敬请期待!