基因组注释|2. 基因组的完整性评估

文摘   2024-12-16 17:28   中国香港  

点击蓝字·关注我们

在了解基因组注释的主要部分及原理,并熟悉数据下载流程后,本篇开始进行具体的数据分析流程。
首先,进行基因组组装质量评估,以黑腹果蝇“Release 6 plus ISO1 MT”版本基因组为例,利用 BUSCOcompleasm 进行基因组组装质量的评估。

1. BUSCO

输入

1.FASTA 格式基因组,命名为 dmel.fa

为避免后续分析报错,请确保基因组FASTA Header行仅包含字母,不包含空格等其他字符,即“>NC_004354.4 Drosophila melanogaster chromosome X”改为“>NC_004354.4”,可通过以下脚本过滤。

python genome_clean.py dmel_raw.fa > dmel.fa
from sys import argv
for x in open(argv[1]):
x=x.strip()
if x.startswith('>'):
print(x.split()[0])
else:
print(x)

2.昆虫纲BUSCO核心基因集, 解压后得到文件夹——insecta_odb10

运行

busco --cpu 30 -l /home/meiyang/project/09_annotation/01_BUSCO/insecta_odb10 --mode genome -o out --i dmel.fa --offline

参数:

--offline,关闭联网。默认情况,BUSCO软件会根据选择的类群去联网下载对应的核心基因库,若网络出现问题,则会报错

-l,指定库文件夹的绝对路径

输出

out/
├── logs
├── run_insecta_odb10
├── short_summary.specific.insecta_odb10.out.json
└── short_summary.specific.insecta_odb10.out.txt

run_insecta_odb10,记录了运行过程中的所有文件。其中,busco_sequences目录中包含有预测得到的BUSCO核心基因序列,可用于系统发育分析。

run_insecta_odb10/
├── busco_sequences
│   ├── fragmented_busco_sequences
│   ├── multi_copy_busco_sequences
│   └── single_copy_busco_sequences
├── hmmer_output
│   ├── initial_run_results
│   └── rerun_results
└── metaeuk_output
├── initial_results
└── rerun_results

short_summary.specific.*.out.txt,BUSCO基因组评估的结果。C值为99.6%,S值为98.9%,即该基因组包含核心基因集中99.6%的基因,且98.9%的基因为单拷贝,基因组完整性较高。

# BUSCO version is: 5.4.3 
***** Results: *****
C:99.6%[S:98.9%,D:0.7%],F:0.1%,M:0.3%,n:1367
1361 Complete BUSCOs (C)
1352 Complete and single-copy BUSCOs (S)
9 Complete and duplicated BUSCOs (D)
2 Fragmented BUSCOs (F)
4 Missing BUSCOs (M)
1367 Total BUSCO groups searched

Assembly Statistics:
1870 Number of scaffolds
2442 Number of contigs
143726002 Total length
0.802% Percent gaps
25 MB Scaffold N50
21 MB Contigs N50

线程:30,总耗时:6 min


2. compleasm

输入

dmel.fa

运行

1.下载 compleasm 核心基因库

compleasm download insecta -L compleasm

compleasm所用的核心基因库与BUSCO的文件结构不同,无法直接调用,需通过compleasm download命令下载。
服务器必须联网,或者通过联网虚拟机进行下载后,再上传至服务器。

compleasm 核心基因库目录结构

compleasm
├── eukaryota_odb10
├── eukaryota_odb10.2024-01-08.tar.gz
├── eukaryota_odb10.done
├── file_versions.tsv
├── file_versions.tsv.done
├── file_versions.tsv.hash
├── insecta_odb10
├── insecta_odb10.2024-01-08.tar.gz
├── insecta_odb10.done
├── placement_files
└── placement_files.done

2.运行 compleasm

compleasm run  -t30 -a dmel.fa -o out -l insecta  -L /home/meiyang/project/09_annotation/02_compleasm/compleasm

输出

out/
├── insecta_odb10
└── summary.txt

insecta_odb10,与BUSCO软件结构类似。

summary.txt,compleasm 基因组评估的结果。C值(S+D)为99.78%,S值为99.34%,与 BUSCO 结果较为一致,略高一些。

## lineage: insecta_odb10
S:99.34%, 1358
D:0.44%, 6
F:0.07%, 1
I:0.00%, 0
M:0.15%, 2
N:1367

线程:30,总耗时:3 min



3. 总结

BUSCO 完整性是基因组组装质量评估的主要参数,是基因组项目的第一个重要指标。一般而言,C值在95%以上的基因组,可认为具有较高的完整性,质量较高。

目前,HiFi、HiC等技术的使用,也使得基因组完整性不断提升,近期的昆虫基因组BUSCO完整性多在97%~98%以上。因此,如若该指标较低,很可能在投稿过程中,该基因组从数据层面被审稿人所质疑,导致文章被拒。

在评估完基因组质量后,需要进行重复序列的注释和屏蔽,这部分内容将在下一篇文章中进行更新,敬请期待!


植信矿工
专注于分享植物方向的最新学术成果、前沿知识和技术进步,以及实践优化过的生信软件、脚本和流程。
 最新文章