BUSCO 评估的原理:
软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。使用hmmsearch进行比对,将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。
软件安装
# conda安装
conda create -n busco -y
conda activate busco
conda install -c bioconda -c conda-forge busco=5.8.0 -y
# 若使用conda安装失败,可使用mamba进行安装,
conda install mamba -y
mamba install -c bioconda -c conda-forge busco=5.8.0 -y
# 验证安装
busco --help
busco --version
# 显示所有可用数据集
busco --list-datasets
# 下载数据库文件
busco --download all
# 常见参数
用法:
busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]
可选参数:
# busco使用
方法一:直接在命令中设定参数【需设置的参数较少时】
# 基因组
busco -i genome.fna -c 8 -m geno -f --out test_eukaryota --auto-lineage-euk -l path/to/busco/lineages/eukaryota_odb10
busco:这是执行 BUSCO 工具的命令,软件安装路径:/mnt/Software_using/miniconda3/envs/busco/bin/busco
-i genome.fna:指定输入文件为 genome.fna,这是待评估的基因组序列文件。
-c 8:指定使用 8 个 CPU 核心来加速评估过程,提高运行效率。
-m geno:指定评估模式为 geno,这表示对基因组进行评估,用于寻找基因组中的基因。
-f:强制运行模式,用于覆盖已有的输出文件。
--out test_eukaryota:指定输出文件或目录前缀为 test_eukaryota,这是存储评估结果的位置。
-l path/to/busco/lineages/eukaryota_odb10:指定物种进化枝数据集文件的本地路径
busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline
-i /path/to/genome.fa:输入文件路径。
-r:表示重新运行 BUSCO 分析,会覆盖以前的结果。
-o canu_remdup:指定输出文件的前缀名,即分析结果会保存为以 canu_remdup 开头的文件。
--out_path /path/to/busco:设置 BUSCO 输出文件的保存路径。
--lineage_dataset /path/to/arthropoda_odb10:指定物种进化枝(lineage)的数据集文件路径。在这里选择的是节肢动物数据库 arthropoda_odb10,适用于分析节肢动物基因组。
-m geno:指定分析模式为基因组模式(geno),适用于基因组数据。
-c 32:指定使用 32 个线程进行分析,以提高计算速度。
-f:强制覆盖已有的输出文件。
--offline:使用离线模式,避免从网上下载数据。
busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus
--augustus:启用 Augustus 基因预测软件来提升基因预测准确性。Augustus 是一种基因结构预测工具,与 BUSCO 一起使用可以提高基因注释的质量。
# 转录组
run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
run_BUSCO.py -i [组装的文件.fasta] -l [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
-i 输入文件
-l BUSCO的数据库文件
-o 输出的文件名的后缀以及文件夹的名称
-m 分析类型(genome、transcriptome、proteins)
--cpu 线程数
方法二:在设置文件中给出参数【需设置的参数较多时】
# 配置文件见软件安装路径config文件夹,直接复制一份到工作目录,修改使用即可,删除配置文件中 “;” ,并修改所需参数的值
busco --config config.ini
# 结果解读
程序运行结果在short_summary**.txt文件中
C:96.9%[S:96.4%,D:0.5%],F:0.7%,M:2.4%,n:1706
C: 96.9%:表示在总 BUSCO 基因组中的完整 BUSCO 基因数所占比例是 96.9%。该值表示输入的基因组序列中有 96.9% 的基因是完整的。
S: 96.4%:其中 96.4% 的 BUSCO 基因是单拷贝基因(single-copy),即没有重复,基因组序列中仅存在一次。
D: 0.5%:其中 0.5% 的 BUSCO 基因是重复基因(duplicated),即在基因组序列中有多个拷贝。
F: 0.7%:表示有 0.7% 的 BUSCO 基因是碎片化的(fragmented),即部分基因不完整。
M: 2.4%:表示有 2.4% 的 BUSCO 基因缺失(missing),即基因组序列中未找到这些基因。
n: 1706:表示使用的 BUSCO 基因组数据库中的 BUSCO 基因总数是 1706 个。
1653 Complete BUSCOs (C):在基因组中检测到 1653 个完整的 BUSCO 基因。
1645 Complete and single-copy BUSCOs (S):在完整 BUSCO 基因中,1645 个是单拷贝的基因。
8 Complete and duplicated BUSCOs (D):在完整 BUSCO 基因中,有 8 个是重复的基因。
12 Fragmented BUSCOs (F):在基因组中检测到 12 个 BUSCO 基因是碎片化的,说明这些基因并不完整。
41 Missing BUSCOs (M):有 41 个 BUSCO 基因在基因组中未检测到。
总结:
从结果来看: