基因组注释｜2. 基因组的完整性评估

文摘 2024-12-16 17:28 中国香港

点击蓝字·关注我们

在了解基因组注释的主要部分及原理，并熟悉数据下载流程后，本篇开始进行具体的数据分析流程。

首先，进行基因组组装质量评估，以黑腹果蝇“Release 6 plus ISO1 MT”版本基因组为例，利用 BUSCO 和 compleasm 进行基因组组装质量的评估。

1. BUSCO

输入

1.FASTA 格式基因组，命名为 dmel.fa

为避免后续分析报错，请确保基因组FASTA Header行仅包含字母，不包含空格等其他字符，即“>NC_004354.4 Drosophila melanogaster chromosome X”改为“>NC_004354.4”，可通过以下脚本过滤。

python genome_clean.py dmel_raw.fa > dmel.fa

from sys import argv
for x in open(argv[1]):
    x=x.strip()
    if x.startswith('>'):
        print(x.split()[0])
    else:
        print(x)

2.昆虫纲BUSCO核心基因集, 解压后得到文件夹——insecta_odb10

运行

busco --cpu 30 -l /home/meiyang/project/09_annotation/01_BUSCO/insecta_odb10 --mode genome -o out --i dmel.fa --offline

参数：

--offline，关闭联网。默认情况，BUSCO软件会根据选择的类群去联网下载对应的核心基因库，若网络出现问题，则会报错

-l，指定库文件夹的绝对路径

输出

out/
├── logs
├── run_insecta_odb10
├── short_summary.specific.insecta_odb10.out.json
└── short_summary.specific.insecta_odb10.out.txt

run_insecta_odb10，记录了运行过程中的所有文件。其中，busco_sequences目录中包含有预测得到的BUSCO核心基因序列，可用于系统发育分析。

run_insecta_odb10/
├── busco_sequences
│   ├── fragmented_busco_sequences
│   ├── multi_copy_busco_sequences
│   └── single_copy_busco_sequences
├── hmmer_output
│   ├── initial_run_results
│   └── rerun_results
└── metaeuk_output
    ├── initial_results
    └── rerun_results

short_summary.specific.*.out.txt，BUSCO基因组评估的结果。C值为99.6%，S值为98.9%，即该基因组包含核心基因集中99.6%的基因，且98.9%的基因为单拷贝，基因组完整性较高。

# BUSCO version is: 5.4.3 
        ***** Results: *****
        C:99.6%[S:98.9%,D:0.7%],F:0.1%,M:0.3%,n:1367       
        1361    Complete BUSCOs (C)                 
        1352    Complete and single-copy BUSCOs (S)       
        9       Complete and duplicated BUSCOs (D)     
        2       Fragmented BUSCOs (F)               
        4       Missing BUSCOs (M)                 
        1367    Total BUSCO groups searched                

Assembly Statistics:
        1870    Number of scaffolds
        2442    Number of contigs
        143726002       Total length
        0.802%  Percent gaps
        25 MB   Scaffold N50
        21 MB   Contigs N50

线程：30，总耗时：6 min

2. compleasm

输入

dmel.fa

运行

1.下载 compleasm 核心基因库

compleasm download insecta -L compleasm

compleasm所用的核心基因库与BUSCO的文件结构不同，无法直接调用，需通过compleasm download命令下载。
服务器必须联网，或者通过联网虚拟机进行下载后，再上传至服务器。

compleasm 核心基因库目录结构

compleasm
├── eukaryota_odb10
├── eukaryota_odb10.2024-01-08.tar.gz
├── eukaryota_odb10.done
├── file_versions.tsv
├── file_versions.tsv.done
├── file_versions.tsv.hash
├── insecta_odb10
├── insecta_odb10.2024-01-08.tar.gz
├── insecta_odb10.done
├── placement_files
└── placement_files.done

2.运行 compleasm

compleasm run  -t30 -a dmel.fa -o out -l insecta  -L /home/meiyang/project/09_annotation/02_compleasm/compleasm

输出

out/
├── insecta_odb10
└── summary.txt

insecta_odb10，与BUSCO软件结构类似。

summary.txt，compleasm 基因组评估的结果。C值（S+D）为99.78%，S值为99.34%，与 BUSCO 结果较为一致，略高一些。

## lineage: insecta_odb10
S:99.34%, 1358
D:0.44%, 6
F:0.07%, 1
I:0.00%, 0
M:0.15%, 2
N:1367

线程：30，总耗时：3 min

3. 总结

BUSCO 完整性是基因组组装质量评估的主要参数，是基因组项目的第一个重要指标。一般而言，C值在95%以上的基因组，可认为具有较高的完整性，质量较高。

目前,HiFi、HiC等技术的使用，也使得基因组完整性不断提升，近期的昆虫基因组BUSCO完整性多在97%~98%以上。因此，如若该指标较低，很可能在投稿过程中，该基因组从数据层面被审稿人所质疑，导致文章被拒。

在评估完基因组质量后，需要进行重复序列的注释和屏蔽，这部分内容将在下一篇文章中进行更新，敬请期待！

植信矿工

专注于分享植物方向的最新学术成果、前沿知识和技术进步，以及实践优化过的生信软件、脚本和流程。

最新文章

基因组注释｜2. 基因组的完整性评估

基因组注释｜1. 从原理介绍开始

SeqKit2｜一款超快且全能的序列处理工具包（以取反向互补序列为例）

Bioinformatics | 张国捷团队开发T2T基因组组装质量评估新工具

Plant Journal｜胡萝卜的T2T 基因组和转录组揭示了其与病原菌在感染过程中的相互作用机制

PCE｜V-ATPase可以与VPT蛋白合作，在亚细胞和系统两个层面上调节Pi稳态

JIPB｜OsBSK1-2通过OsHLH46/OsbHLH6复合物来调节水稻的稻瘟病抗性

TBtools｜对minimap2生成的paf文件进行可视化

Nature Communications｜VIG1基因上的一个点突变促进了水稻的发育和耐冷性

Nature Communications｜HASTY介导的miRNA动态变化调控了拟南芥中缺氮诱导的叶片衰老

高校新闻｜港浸大前协理副校长呼吁取消教资会，将八大高校合并为香港联合大学

会议通知｜这个11月，我们相约重庆

JIPB | 南京农业大学王源超课题组提出大豆锈病菌防治新策略

著作解读｜GWAS第三章：基因分型平台介绍

Plant Communications｜OsHAG1调控了水稻籽粒中的砷元素分配与积累

Plant Communications｜叶绿体五肽重复蛋白通过TB1-RCN22-RbcL模块影响糖水平来调控水稻分蘖

著作解读｜GWAS第二章：表型数据的准备和管理

著作解读｜GWAS第一章：分析的主要步骤和关键要点

New Phytologist｜植物必需微量元素的关键生理功能与缺乏症状

JIPB丨玉米螟幼虫取食玉米时的“马太效应”

Nat Genet | 豌豆参考基因组和314份群体分析提供了对孟德尔性状遗传基础的见解

JIPB｜MRP5和ITPK4双突变在不损害拟南芥耐盐性的同时，降低了种子中的植酸含量

Plant Journal｜法国科研团队推出了871个完全测序的纯合EMS突变体

Nature Communications｜E1及其同源基因精细调控大豆开花时间和适应性的分子机制

PBB｜1-丁醇预处理通过刺激气孔关闭和延缓叶片水分损失，有效增强了拟南芥对干旱胁迫的耐受性

JIPB｜绿光通过调控光敏色素的活性介导了拟南芥中的非典型光形态建成

Nature Communications｜胁迫诱导的转录因子ONAC023同时改善了水稻对干旱和热胁迫耐受性

Mac 上的终端神器 - iTerm2

Nature Communications｜效应因子NopL与GmREM1a和GmNFR5互作以促进大豆与根瘤的共生

JIPB｜液泡的磷酸盐外排机制支持了大豆根毛在缺磷条件下的生长

quarTeT｜鉴定基因组中的端粒（1）

生信技能 | quarTeT：专门用于T2T组装和着丝粒重复识别研究的新工具

Plant Journal｜OsMYC2-JA反馈回路通过细胞壁松弛调控水稻的日间开花时间

Nature Communications｜AUREO1c-LI818途径促进了硅藻在动态光照条件下的适应性

Nature Communications｜温度依赖的Jumonji去甲基化酶通过靶向H3K36me2/3调控小白菜的开花时间

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉