基因组注释,即对基因组进行分析并预测基因的所在位置,对于基因组分析和基因功能研究至关重要。基因组注释是一套含有众多软件的综合性流程,涉及软件较多,且在软件安装、使用中均可能出现各类bug,从而导致低质量的基因组注释信息,甚至无法完成注释。目前,基因组注释流程的主要组成部分已在十几年内并未发生大的变革,更新方面主要涉及软件的更替,提升了效率和准确性。本系列推文将会针对基因组注释,进行一步步教学,并对可能出现的问题进行分析解释,从而帮助大家更好地进行分析,同时也欢迎大家的交流与讨论。这是本系列第一篇文章,将会对基因组注释流程进行整体上的介绍,从而理解分析的整体思路。基因组的组装质量是后续分析的基础,是得到可靠的基因组注释信息的重要前提。
基因组的组装质量可通过多维度的参数进行评估,如 N50, L50 等。同时,也存在一系列的软件进行组装质量的评估,包括:- BUSCO,目前最主流的基因组完整性评估软件,基于目标类群的部分物种基因组的保守同源基因进行构建。
- compleasm,李恒大佬改写的更快速、准确的 BUSCO 软件,与 BUSCO 基本一致,但速度显著提升,不过要注意参考库的改变。
- OMArk,2024年发表在NBT上的综合性评估软件,并且可以对污染和注释错误进行鉴定。
- LAI,利用长末端重复序列 LTR 进行基因组质量评估。由于 LTR 等重复序列组装与测序的挑战,LTR 序列的组装质量反过来可以反映基因组的组装质量。
上述软件通过各种方式去反映基因组的组装质量,但是基因组的准确性评估仍然存在挑战。
除单细胞测序外,参考基因组是各个细胞基因组的混合结果,其准确与否难以有效判断。并且依赖于基因的完整性评估,对于非编码区的评估仍然略显不足,这可能是后续研究的重点之一。
基因组可粗略分为:重复序列、基因区、基因间区。由于重复序列功能研究的有待深入,往往会将基因组中的重复序列进行屏蔽,以提高数据分析的效率,增加基因注释的质量和可靠性。RepeatModeler 和 RepeatMasker,最主流的综合性重复序列注释和屏蔽软件。RepeatModeler 负责结合从头证据、同源证据进行重复序列的预测,RepeatMasker 则负责根据上述注释结果进行屏蔽。EDTA,整合了上述软件在内的众多重复序列软件,进行更全面的注释与屏蔽。除了上述软件外,也存在如 LTR_retriever,DeepTE 等更针对性的重复序列注释软件,这需要根据具体的研究方向进行选择。
对于基因组注释而言,将重复序列进行预测和屏蔽就可以满足需求。
在获得屏蔽重复序列的基因组后,就可以对基因区进行基因结构的预测。目前,包括三种主要原理:转录组是基因存在的最直接证据,可靠性也最高,需要重点关注。目前,转录组测序包括二代和三代,但仍以二代测序为主。因此,流程包括两个主要步骤:1. 转录组的比对。二代测序数据比对较多,包括:
- Bowtie,用于小于50nt数据的比对,如小RNA文库,不适合常规转录组;
- Bowtie2,与 HISAT2 类似,使用范围和认可度也较高;
BWA,多用于重测序数据比对以及SNP分析。
2. 转录本组装及基因结构鉴定。在完成二代数据比对后,需要组装成完整的转录本,用于基因结构的鉴定。StringTie 是目前较为常用的软件,HISAT2 + StringTie 也是软件官方主推的流程。
2017年,Sayed 等对39个转录组分析工具进行了组合评估,得到了转录组分析的最优流程,如图(仅供参考):
根据近缘物种的同源蛋白注释,也可提供较为可靠的基因预测证据。这类软件的原理都类似于 BLAST 比对,但在准确性和效率上存在较大差异。GenomeThreader,exonerate,genewise。这三个都是2010年以前发表的软件,在蛋白参考库规模较小的情况下,仍然有较好的表现。然而,由于基因组和基因数据集的大量扩增,其分析效率过低!!!严重影响分析进度。GeMoMa,较新的软件,并且用 java 编写,效率有所提升,但是使用起来不太方方便,不太理想,这里不做评论。miniprot,又是李恒大佬的作品。经过粗略测试,速度提升超过100以上,并保持了相当的准确性,极大地提升了分析效率。这一步的关键是蛋白参考库的选择,参考库较大的话,会造成假阳性较高,同时耗时过久;相反,则会注释不足
与上述两类方法相比,从头预测的准确性较低。但今年来,如 BRAKER 等综合性流程的整合,显著提升了从头预测的准确性。GeneMark,AUGUSTUS。这两个是过去主流的从头基因预测软件,并且目前也得到广泛的使用(软件安装极不友好)。BRAKER,整合了转录组、蛋白、从头预测的综合性注释流程,包含众多软件。结合同源蛋白和转录的证据,通过 GeneMark 进行初步训练和预测,再利用 AUGUSTUS 进行综合性分析,得到最终的基因结构证据。BRAKER流程示意图获得上述三种基因结构证据后,进行最终基因数据集的整合。EVidenceModeler 和 MAKER2 是目前常用的主流软件。这两个软件分别为 2008年和 2011年发表,并且表示近期不再更新。因此,有必要评估其替代选项。GINGER,EVidenceModeler 作者推荐的可替代流程,2023年发表在 DNA Research 上,有待进一步的验证。GINGER流程示意图由于基因组三种证据在不同情况下的可靠性不一,基因组注释整合软件在其分析中给不同证据所附的权重不同,也会对基因组注释结果的准确性产生影响。因此,该部分需要多次测试,以进行综合分析。
得到注释后的基因信息后,需要对基因进行功能注释,以满足后续基因功能的研究。这部分工作可利用本地软件或在线网站进行分析。InterProScan,综合性的基因功能注释软件,也有在线网站,包括众多数据库的信息,非常全面。eggNOG-mapper,综合性的在线注释平台,速度非常快,信息也非常全面,同时也在不断更新。唯一不足的是网站时不时会崩,导致无法访问。PANNZER,同样的在线基因组功能注释网站,也在保持更新中,不过上一次还是2021年,可以辅助上述网站一起使用。KEGG,基因通路注释。通路分析的必备,但是由于通路多以哺乳动物或模式动物为主,基因注释的比例较低。同时,还需要甄别非本类群物种的通路,否则会出现昆虫中的基因富集到人类疾病相关的通路中。Gene ontology,基因本体注释,也就是GO功能分析。与KEGG类似,在非模式物种中的作用达到降低。最后就是利用 BLAST 将蛋白序列与 NR,NT 或者 Uniprot 的库进行比对,并通过 Python 之类的脚本进行手动分析。基因功能注释还是以同源比对为核心进行分析,因此对于非模式物种而言,注释比例仍然较低,存在大量的无法注释的基因
基因组注释流程涉及众多软件的使用和参数的设置,难以得到一套标准化的参数对所有基因组进行最优地注释。因此,了解基因组注释中的每一部分的原理,才能有效地对自身研究,结合计算能力和基因组特性,进行针对性的软件和参数调整,提高最终基因组注释信息的准确性。本系列后续的文章将会以黑腹果蝇基因组为例,进行从零开始的基因组注释,欢迎大家的继续关注!一起共同进步!最后,欢迎大家提出宝贵的意见和建议,毕竟这还是我第一次写公众号推文,难免会经验不足,存在许多要改进的地方,欢迎大家的热烈讨论!可以留言或者直接私信!
或是有其他想要学习和了解的生信流程,也可直接联系,我会尽快安排的!