首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

基因组注释｜1. 从原理介绍开始

文摘 2024-12-09 17:14 中国香港

点击蓝字·关注我们

基因组注释，即对基因组进行分析并预测基因的所在位置，对于基因组分析和基因功能研究至关重要。

基因组注释是一套含有众多软件的综合性流程，涉及软件较多，且在软件安装、使用中均可能出现各类bug，从而导致低质量的基因组注释信息，甚至无法完成注释。

目前，基因组注释流程的主要组成部分已在十几年内并未发生大的变革，更新方面主要涉及软件的更替，提升了效率和准确性。

本系列推文将会针对基因组注释，进行一步步教学，并对可能出现的问题进行分析解释，从而帮助大家更好地进行分析，同时也欢迎大家的交流与讨论。

这是本系列第一篇文章，将会对基因组注释流程进行整体上的介绍，从而理解分析的整体思路。

基因组注释流程示意图

01

基因组组装质量评估

基因组的组装质量是后续分析的基础，是得到可靠的基因组注释信息的重要前提。

基因组的组装质量可通过多维度的参数进行评估，如 N50, L50 等。同时，也存在一系列的软件进行组装质量的评估，包括：

BUSCO，目前最主流的基因组完整性评估软件，基于目标类群的部分物种基因组的保守同源基因进行构建。

compleasm，李恒大佬改写的更快速、准确的 BUSCO 软件，与 BUSCO 基本一致，但速度显著提升，不过要注意参考库的改变。
OMArk，2024年发表在NBT上的综合性评估软件，并且可以对污染和注释错误进行鉴定。

LAI，利用长末端重复序列 LTR 进行基因组质量评估。由于 LTR 等重复序列组装与测序的挑战，LTR 序列的组装质量反过来可以反映基因组的组装质量。

上述软件通过各种方式去反映基因组的组装质量，但是基因组的准确性评估仍然存在挑战。

除单细胞测序外，参考基因组是各个细胞基因组的混合结果，其准确与否难以有效判断。并且依赖于基因的完整性评估，对于非编码区的评估仍然略显不足，这可能是后续研究的重点之一。

02

重复序列注释

基因组可粗略分为：重复序列、基因区、基因间区。由于重复序列功能研究的有待深入，往往会将基因组中的重复序列进行屏蔽，以提高数据分析的效率，增加基因注释的质量和可靠性。

目前，重复序列注释有以下两个常用软件：

RepeatModeler 和 RepeatMasker，最主流的综合性重复序列注释和屏蔽软件。RepeatModeler 负责结合从头证据、同源证据进行重复序列的预测，RepeatMasker 则负责根据上述注释结果进行屏蔽。

EDTA，整合了上述软件在内的众多重复序列软件，进行更全面的注释与屏蔽。

EDTA软件原理示意图

除了上述软件外，也存在如 LTR_retriever，DeepTE 等更针对性的重复序列注释软件，这需要根据具体的研究方向进行选择。

对于基因组注释而言，将重复序列进行预测和屏蔽就可以满足需求。

03

基因结构注释

在获得屏蔽重复序列的基因组后，就可以对基因区进行基因结构的预测。目前，包括三种主要原理：

基于 转录组 的基因结构注释
基于 同源蛋白 的基因结构注释
基于 从头预测 的基因结构注释

下面将会对三类方法进行介绍。

基于转录组

转录组是基因存在的最直接证据，可靠性也最高，需要重点关注。目前，转录组测序包括二代和三代，但仍以二代测序为主。因此，流程包括两个主要步骤：

1. 转录组的比对。二代测序数据比对较多，包括：

HISAT2，二代数据比对的主流软件；
Bowtie，用于小于50nt数据的比对，如小RNA文库，不适合常规转录组；
Bowtie2，与 HISAT2 类似，使用范围和认可度也较高；
BWA，多用于重测序数据比对以及SNP分析。

2. 转录本组装及基因结构鉴定。在完成二代数据比对后，需要组装成完整的转录本，用于基因结构的鉴定。StringTie 是目前较为常用的软件，HISAT2 + StringTie 也是软件官方主推的流程。

2017年，Sayed 等对39个转录组分析工具进行了组合评估，得到了转录组分析的最优流程，如图（仅供参考）：

基于同源蛋白

根据近缘物种的同源蛋白注释，也可提供较为可靠的基因预测证据。这类软件的原理都类似于 BLAST 比对，但在准确性和效率上存在较大差异。

GenomeThreader，exonerate，genewise。这三个都是2010年以前发表的软件，在蛋白参考库规模较小的情况下，仍然有较好的表现。然而，由于基因组和基因数据集的大量扩增，其分析效率过低！！！严重影响分析进度。

GeMoMa，较新的软件，并且用 java 编写，效率有所提升，但是使用起来不太方方便，不太理想，这里不做评论。

miniprot，又是李恒大佬的作品。经过粗略测试，速度提升超过100以上，并保持了相当的准确性，极大地提升了分析效率。

这一步的关键是蛋白参考库的选择，参考库较大的话，会造成假阳性较高，同时耗时过久；相反，则会注释不足

基于从头注释

与上述两类方法相比，从头预测的准确性较低。但今年来，如 BRAKER 等综合性流程的整合，显著提升了从头预测的准确性。

GeneMark，AUGUSTUS。这两个是过去主流的从头基因预测软件，并且目前也得到广泛的使用（软件安装极不友好）。

BRAKER，整合了转录组、蛋白、从头预测的综合性注释流程，包含众多软件。结合同源蛋白和转录的证据，通过 GeneMark 进行初步训练和预测，再利用 AUGUSTUS 进行综合性分析，得到最终的基因结构证据。

BRAKER流程示意图

04

基因注释证据整合

获得上述三种基因结构证据后，进行最终基因数据集的整合。

EVidenceModeler 和 MAKER2 是目前常用的主流软件。这两个软件分别为 2008年和 2011年发表，并且表示近期不再更新。因此，有必要评估其替代选项。

GINGER，EVidenceModeler 作者推荐的可替代流程，2023年发表在 DNA Research 上，有待进一步的验证。

GINGER流程示意图

由于基因组三种证据在不同情况下的可靠性不一，基因组注释整合软件在其分析中给不同证据所附的权重不同，也会对基因组注释结果的准确性产生影响。因此，该部分需要多次测试，以进行综合分析。

05

基因功能注释

得到注释后的基因信息后，需要对基因进行功能注释，以满足后续基因功能的研究。这部分工作可利用本地软件或在线网站进行分析。

InterProScan，综合性的基因功能注释软件，也有在线网站，包括众多数据库的信息，非常全面。

eggNOG-mapper，综合性的在线注释平台，速度非常快，信息也非常全面，同时也在不断更新。唯一不足的是网站时不时会崩，导致无法访问。

PANNZER，同样的在线基因组功能注释网站，也在保持更新中，不过上一次还是2021年，可以辅助上述网站一起使用。

KEGG，基因通路注释。通路分析的必备，但是由于通路多以哺乳动物或模式动物为主，基因注释的比例较低。同时，还需要甄别非本类群物种的通路，否则会出现昆虫中的基因富集到人类疾病相关的通路中。

Gene ontology，基因本体注释，也就是GO功能分析。与KEGG类似，在非模式物种中的作用达到降低。

最后就是利用 BLAST 将蛋白序列与 NR，NT 或者 Uniprot 的库进行比对，并通过 Python 之类的脚本进行手动分析。

基因功能注释还是以同源比对为核心进行分析，因此对于非模式物种而言，注释比例仍然较低，存在大量的无法注释的基因

06

总结

基因组注释流程涉及众多软件的使用和参数的设置，难以得到一套标准化的参数对所有基因组进行最优地注释。

因此，了解基因组注释中的每一部分的原理，才能有效地对自身研究，结合计算能力和基因组特性，进行针对性的软件和参数调整，提高最终基因组注释信息的准确性。

本系列后续的文章将会以黑腹果蝇基因组为例，进行从零开始的基因组注释，欢迎大家的继续关注！一起共同进步！

最后，欢迎大家提出宝贵的意见和建议，毕竟这还是我第一次写公众号推文，难免会经验不足，存在许多要改进的地方，欢迎大家的热烈讨论！可以留言或者直接私信！

或是有其他想要学习和了解的生信流程，也可直接联系，我会尽快安排的！

专注于分享植物方向的最新学术成果、前沿知识和技术进步，以及实践优化过的生信软件、脚本和流程。

最新文章

基因组注释｜1. 从原理介绍开始

SeqKit2｜一款超快且全能的序列处理工具包（以取反向互补序列为例）

Bioinformatics | 张国捷团队开发T2T基因组组装质量评估新工具

Plant Journal｜胡萝卜的T2T 基因组和转录组揭示了其与病原菌在感染过程中的相互作用机制

PCE｜V-ATPase可以与VPT蛋白合作，在亚细胞和系统两个层面上调节Pi稳态

JIPB｜OsBSK1-2通过OsHLH46/OsbHLH6复合物来调节水稻的稻瘟病抗性

TBtools｜对minimap2生成的paf文件进行可视化

Nature Communications｜VIG1基因上的一个点突变促进了水稻的发育和耐冷性

Nature Communications｜HASTY介导的miRNA动态变化调控了拟南芥中缺氮诱导的叶片衰老

高校新闻｜港浸大前协理副校长呼吁取消教资会，将八大高校合并为香港联合大学

会议通知｜这个11月，我们相约重庆

JIPB | 南京农业大学王源超课题组提出大豆锈病菌防治新策略

著作解读｜GWAS第三章：基因分型平台介绍

Plant Communications｜OsHAG1调控了水稻籽粒中的砷元素分配与积累

Plant Communications｜叶绿体五肽重复蛋白通过TB1-RCN22-RbcL模块影响糖水平来调控水稻分蘖

著作解读｜GWAS第二章：表型数据的准备和管理

著作解读｜GWAS第一章：分析的主要步骤和关键要点

New Phytologist｜植物必需微量元素的关键生理功能与缺乏症状

JIPB丨玉米螟幼虫取食玉米时的“马太效应”

Nat Genet | 豌豆参考基因组和314份群体分析提供了对孟德尔性状遗传基础的见解

JIPB｜MRP5和ITPK4双突变在不损害拟南芥耐盐性的同时，降低了种子中的植酸含量

Plant Journal｜法国科研团队推出了871个完全测序的纯合EMS突变体

Nature Communications｜E1及其同源基因精细调控大豆开花时间和适应性的分子机制

PBB｜1-丁醇预处理通过刺激气孔关闭和延缓叶片水分损失，有效增强了拟南芥对干旱胁迫的耐受性

JIPB｜绿光通过调控光敏色素的活性介导了拟南芥中的非典型光形态建成

Nature Communications｜胁迫诱导的转录因子ONAC023同时改善了水稻对干旱和热胁迫耐受性

Mac 上的终端神器 - iTerm2

Nature Communications｜效应因子NopL与GmREM1a和GmNFR5互作以促进大豆与根瘤的共生

JIPB｜液泡的磷酸盐外排机制支持了大豆根毛在缺磷条件下的生长

quarTeT｜鉴定基因组中的端粒（1）

生信技能 | quarTeT：专门用于T2T组装和着丝粒重复识别研究的新工具

Plant Journal｜OsMYC2-JA反馈回路通过细胞壁松弛调控水稻的日间开花时间

Nature Communications｜AUREO1c-LI818途径促进了硅藻在动态光照条件下的适应性

Nature Communications｜温度依赖的Jumonji去甲基化酶通过靶向H3K36me2/3调控小白菜的开花时间

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉