BUSCO:基因组组装质量和完整性评估

学术   2024-11-26 09:09   上海  

BUSCO是Benchmarking Universal Single-Copy Orthologs(通用单拷贝同源基因基准)的缩写,基于基因进化(有参比对)评估基因组组装和注释完整性的开源python软件。其对组装结果的评估与 quast 不同,它并不追求基因组拼接的长度,而关注的是是否将一些单拷贝直系同源基因拼接出来。在相近的物种之间总有一些保守的序列,而 BUSCO 就是使用这些保守序列与组装的结果进行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分或者不包含等等情况来给出结果。


BUSCO 评估的原理:

软件根据 OrthoDB 数据库,构建了几个大的进化分支的单拷贝基因集。使用hmmsearch进行比对,将拼接结果预测得到的基因集与该基因集进行比较,根据比对上的比例、完整性,来评价拼接结果的准确性和完整性。也就是比对上已知基因集的基因越多,说明拼接的结果越好。


软件安装

# conda安装

conda create -n busco -yconda activate buscoconda install -c bioconda -c conda-forge busco=5.8.0 -y

# 若使用conda安装失败,可使用mamba进行安装,

conda install mamba -ymamba install -c bioconda -c conda-forge busco=5.8.0 -y

# 验证安装

busco --help

busco --version

# 显示所有可用数据集

busco --list-datasets

# 下载数据库文件

busco --download all


# 常见参数

用法:

 busco -i [SEQUENCE_FILE] -l [LINEAGE] -o [OUTPUT_NAME] -m [MODE] [其他选项]


 可选参数:


# busco使用

方法一:直接在命令中设定参数【需设置的参数较少时】

# 基因组

busco -i genome.fna -c 8 -m geno -f --out test_eukaryota --auto-lineage-euk -l path/to/busco/lineages/eukaryota_odb10
  • busco:这是执行 BUSCO 工具的命令,软件安装路径:/mnt/Software_using/miniconda3/envs/busco/bin/busco

  • -i genome.fna:指定输入文件为 genome.fna,这是待评估的基因组序列文件。

  • -c 8:指定使用 8 个 CPU 核心来加速评估过程,提高运行效率。

  • -m geno:指定评估模式为 geno,这表示对基因组进行评估,用于寻找基因组中的基因。

  • -f:强制运行模式,用于覆盖已有的输出文件。

  • --out test_eukaryota:指定输出文件或目录前缀为 test_eukaryota,这是存储评估结果的位置。

  • -l path/to/busco/lineages/eukaryota_odb10:指定物种进化枝数据集文件的本地路径


busco -i /path/to/canu_removedup.fa -r -o canu_remdup --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline
  • -i /path/to/genome.fa:输入文件路径。

  • -r:表示重新运行 BUSCO 分析,会覆盖以前的结果。

  • -o canu_remdup:指定输出文件的前缀名,即分析结果会保存为以 canu_remdup 开头的文件。

  • --out_path /path/to/busco:设置 BUSCO 输出文件的保存路径。

  • --lineage_dataset /path/to/arthropoda_odb10:指定物种进化枝(lineage)的数据集文件路径。在这里选择的是节肢动物数据库 arthropoda_odb10,适用于分析节肢动物基因组。

  • -m geno:指定分析模式为基因组模式(geno),适用于基因组数据。

  • -c 32:指定使用 32 个线程进行分析,以提高计算速度。

  • -f:强制覆盖已有的输出文件。

  • --offline:使用离线模式,避免从网上下载数据。


busco -i /path/to/canu_removedup.fa -r -o canu_remdup_augus --out_path /path/to/busco --lineage_dataset /path/to/arthropoda_odb10 -m geno -c 32 -f --offline --augustus
  • --augustus:启用 Augustus 基因预测软件来提升基因预测准确性。Augustus 是一种基因结构预测工具,与 BUSCO 一起使用可以提高基因注释的质量。 


# 转录组

run_BUSCO.py -i /longest_isoform.fasta -l ./odb10/ -o HCZX_OUTPUT -m tran -c 48
  • run_BUSCO.py -i [组装的文件.fasta]  -l  [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]

  • -i 输入文件

  • -l BUSCO的数据库文件

  • -o 输出的文件名的后缀以及文件夹的名称

  • -m 分析类型(genome、transcriptome、proteins)

  • --cpu 线程数

方法二:在设置文件中给出参数【需设置的参数较多时】

# 配置文件见软件安装路径config文件夹,直接复制一份到工作目录,修改使用即可,删除配置文件中 “;” ,并修改所需参数的值

busco --config config.ini


# 结果解读

程序运行结果在short_summary**.txt文件中

C:96.9%[S:96.4%,D:0.5%],F:0.7%,M:2.4%,n:1706

C: 96.9%:表示在总 BUSCO 基因组中的完整 BUSCO 基因数所占比例是 96.9%。该值表示输入的基因组序列中有 96.9% 的基因是完整的。

S: 96.4%:其中 96.4% 的 BUSCO 基因是单拷贝基因(single-copy),即没有重复,基因组序列中仅存在一次。

D: 0.5%:其中 0.5% 的 BUSCO 基因是重复基因(duplicated),即在基因组序列中有多个拷贝。

F: 0.7%:表示有 0.7% 的 BUSCO 基因是碎片化的(fragmented),即部分基因不完整。

M: 2.4%:表示有 2.4% 的 BUSCO 基因缺失(missing),即基因组序列中未找到这些基因。

n: 1706:表示使用的 BUSCO 基因组数据库中的 BUSCO 基因总数是 1706 个。

1653 Complete BUSCOs (C):在基因组中检测到 1653 个完整的 BUSCO 基因。

1645 Complete and single-copy BUSCOs (S):在完整 BUSCO 基因中,1645 个是单拷贝的基因。

8 Complete and duplicated BUSCOs (D):在完整 BUSCO 基因中,有 8 个是重复的基因。

12 Fragmented BUSCOs (F):在基因组中检测到 12 个 BUSCO 基因是碎片化的,说明这些基因并不完整。

41 Missing BUSCOs (M):有 41 个 BUSCO 基因在基因组中未检测到。


总结:

从结果来看:

该基因组有 96.9% 的基因完整(包含单拷贝和重复的基因),其中绝大部分(96.4%)为单拷贝基因。
仅有 2.4% 的基因缺失和 0.7% 的基因碎片化,表明基因组的完整性非常高。
这说明该基因组的组装质量较好,适合进一步分析和注释。


密码子实验室
我们一直坚持认为,让知识更有价值,让科学研究更简单,让实验室管理更智能化,让每一个热爱学习的人更有效率,是我们的使命。生物信息学实操、实验操作技能、科研绘图技巧、行业动态播报,这里只有干货。
 最新文章