使用DeepMetagenome探索环境微生物组中蛋白自然多样性
Exploring protein natural diversity in environmental microbiomes with DeepMetagenome
Article,2024年11月18日,Cell Reports Methods,[IF=4.3]
DOI:https://doi.org/10.1016/j.crmeth.2024.100896
参与作者:李小方,张君,马丹
通讯作者:范晓飞,郑鑫,刘永鑫
主要单位:中国科学院农业资源研究中心
- 研究动机 -
探索蛋白质多样性是理解蛋白质功能和推动蛋白质工程的关键。环境DNA包含广泛的序列空间,超越了目前的蛋白质数据库。利用这些序列需要针对特定功能蛋白质的有目标性的注释方法。在这里,我们开发了DeepMetagenome,这是一种基于深度学习的程序,它不仅促进了典型蛋白质家族序列的识别,还能够发现现有数据库中注释不足的蛋白质家族内的多样性。
- 摘要 -
蛋白质的自然多样性为蛋白质工程提供了广阔的序列空间,而深度学习则能够在没有先验假设的情况下,从宏基因组/蛋白质组中鉴定其多样性。DeepMetagenome是一种基于Python的方法,通过用于训练和分析序列数据集的模块来探索蛋白质多样性。该深度学习模型包括嵌入层(Embedding)、一维卷积层(Conv1D)、长短期记忆网络(LSTM)和全连接层(Dense),并包含对数据进行清洗的序列特征分析步骤。应用于一个包含超过1.46亿编码特征的数据库中的金属硫蛋白,DeepMetagenome识别出了超过500个高置信度的金属硫蛋白序列,表现优于DIAMOND和基于卷积神经网络(CNN)的模型。与基于Transformer的模型相比,它在25个训练周期内显示出更稳定的性能。在23个合成序列中,20个表现出了金属抗性。该工具还成功探索了另外三个蛋白质家族的多样性。软件在GitHub上免费提供,并附有详细的使用说明。
- 引言 -
现存一个家族蛋白序列各种变体反映了其自然多样性,这种自然多样性代表了其部分蛋白自然序列空间和亿万年的自然选择结果。这些序列为人工蛋白工程提供了样本基础,并且比人工产生序列变异的途径更加高效。
常规地,我们获取自然多样性严重依赖基于已知生物地全基因组测序,既费时又昂贵,并且很难扩展到未知生物尤其是微生物暗物质。高通量技术为获取自然多样性提供了可能性。
宏基因组的蛋白家族注释主要依赖相似性比对,这种比对方法对于鉴定新基因、尤其是具有相似功能而较远相似度距离的序列较为困难。近年来,一些研究人员开发了基于人工智能的工具,如DEEPred,ProtENN,PfmulDL,DeepFRI,PFresGO,DeepARG,LOMETS。这些工具在预定的注释功能上展示了潜力,但多为综合性分类,无法精准的进行自然多样性注释。环境DNA的一个重要特征是巨大的多样性,而这一多样性无法被现在任何序列数据库覆盖,这要求我们进行专一化注释而不是综合分类。已有的少量专一化注释展示了潜力,但尚没有专门适合宏基因组/蛋白组专一化注释的方法。因此,有必要开发一个更加复合的深度学习模型方法,用于从组学方法中发现自然多样性,并且要具有不同蛋白的广泛适应性。
本研究报导了DeepMetagenome,一个深度学习流程,用于从基因组/宏基因组中挖掘自然多样性。该方法有一个Python软件包实现,该软件包包含三个模块:1)使用FASTA数据作为输入,进行原始序列的读取,合并和序列统计等预处理;2)建立并训练深度学习软件;3)一个调用所有模块的单独模块。DeepMetagenome采用了二分类策略,使用了一个特异定制数据集。研究首先使用该方法注释了金属硫蛋白,手工筛查开展了代表序列功能验证。之后,该方法又用于了另外三类长度和功能完全不同的蛋白的注释。总的来讲,DeepMetagenome在目标蛋白检测中展示了强大的功能。本文提供了该方法使用的详细说明和交互式代码。
- 主要内容 -
宏基因组数据集
本研究从公开数据库获取了55个宏基因组的编码蛋白序列。这些宏基因组来自世界各地,覆盖了地球主要环境,总共包含272亿碱基翻译成的1.46亿高质量蛋白序列。
图1 DeepMetagenome的简要描述。
A. 宏基因组数据集的世界地图展示。
B. DeepMetagenome的基本流程。
C. DeepMetagenome软件包的主要模块。
D. DeepMetagenome深度学习模型的主要架构。
模型架构
DeepMetagenome提供了一个注释特定蛋白的自动流程。其开发过程遵循五个关键步骤:问题的定义和描述,特征分析和准备输入序列,数据集清洗,深度学习模型训练,最后是使用模型进行预测。
本研究的深度学习模型包含了Conv1D,LSTM和全连接层等层。模型使用了经过Tokenizer编码的序列作为输入,输入的维度为(序列字典的长度,内嵌层维度,蛋白序列最大长度)。维度为1的全连接层构成了输出层,该层指示每个序列的概率值。测试表明,LSTM层的加入对模型性能具有决定性作用。现在的模型优化后使用1207566个参数,将参数提升十倍对模型性能没有实质性提升。
图2 DeepMetagenome检测到的金属硫蛋白的多样性和功能。
A. 模型训练的损失和准确度曲线
B. UniProt数据库中获取的269个和本研究获得的150个金属硫蛋白的特征分析
C. 金属硫蛋白进化发育关系。
D. 选取的23条序列中的金属结合模体分析。
E. 典型新获得序列的结构预测。
新获得金属硫蛋白序列功能的实验验证。
数据集
数据集的质量依赖数据清洗和特征工程。通常,数据集的记录需要实验验证的阳性序列,作为真值。但对于特定蛋白注释,深度学习方法与基于相似性比对的方法不同,其依赖大规模数据集。获取这样的数据集通常非常困难,即便对于研究充分的蛋白。在公共数据库中,我们可以收集到足够数量的序列,但大多数特定蛋白家族的序列是通过同源注释获得的,缺乏实验验证。为此,在本研究中,我们增加了一个生物信息学分析步骤,以分析目标蛋白的序列特征,目的是进行严格的数据清理。我们对注释名称、长度分布、残基组成(主要针对金属硫蛋白,MTs)和基序模式(图2B、2D和S1)进行了分析。这些分析消除了不准确注释的记录,从根本上提高了数据集的质量,从而提高了模型的性能。长度选择(图S2)被应用于所有蛋白,以清理数据集并对宏基因组数据集进行预处理,然后再输入模型。在MT数据集清理中,应用了200个氨基酸(aa)的阈值长度、最低10%的半胱氨酸/组氨酸(Cys/His)含量,以及至少两个金属结合基序(MBMs)的要求。
本研究采用了二分类方法。数据集使用了目标序列手动移除的Escherichia coli全蛋白组构建的阴性数据集,这代表了所有阳性序列之外的蛋白质多样性。阴性数据的选择对于蛋白功能预测至关重要。通常,可以采用三种策略来构建高质量的负数据库:(1)手动选择;(2)从贡献目标蛋白的基因组中随机抽样注释的阴性蛋白;(3)使用看家基因/蛋白数据集。在这里,我们使用了与Rentzsch等人相似的策略,以实现可靠的学习结果。与多分类用于综合注释不同,二分类通常用于对特定蛋白家族进行深入注释,尤其是来自宏基因组/蛋白质组的注释。例如,Kim等人开发了DeepTFactor,该工具采用卷积神经网络(CNN)进行二分类,以提取蛋白特征,并预测了大肠杆菌中的300多种转录调控蛋白。Fang等人开发了基于CNN的DeePVP,可以有效地对噬菌体基因组中的噬菌体病毒蛋白进行分类。实际上,二分类对于从高通量组学数据中对特定蛋白家族进行深入注释是必要的。原则上,蛋白质序列分类是对训练模型的典型插值,以预测新序列,而不是训练数据集中已知序列。根据我们之前的研究,检测来自宏基因组的序列与标准数据集中完全相同的序列是非常罕见的,即使使用基于比对的方法。这是因为环境DNA所包含的巨大多样性超出了当前可用数据库的范围。即使使用最有效的流程,宏基因组的注释率通常低于50%。因此,我们认为,针对特定功能注释的二分类策略在还原蛋白家族内的自然多样性方面更为准确和高效。
算法比对
我们进一步开发了一种Transformer模型,并将其性能与DeepMetagenome进行了比较。该Transformer模型使用了两种不同数量的注意力头,其中num_heads = 2时有644,574个参数,num_heads = 4时有1,175,006个参数(表1、S1和S2)。比较研究表明,这三种模型在所有测量指标方面表现相当,包括AUROC和AUPRC。尽管如此,DeepMetagenome在整个训练过程中显然在准确性上更加稳定(图S3A)。Transformer并不直接处理序列位置信息,但通过位置编码将位置信息引入序列中。相比之下,由于其递归结构,LSTM本质上会保留序列中的顺序信息,使其在某些需要处理顺序的任务中更加直观。此外,Transformer通常需要更多的参数,这使其在小规模数据集上更容易过拟合。因此,LSTM由于其参数共享结构,可能在较小的数据集上表现得更为稳健(图S3A)。
我们进一步比较了DeepMetagenome与两种现有的深度学习模型在二元蛋白分类中的性能:用于转录因子的蛋白注释的DeepTFactor和用于噬菌体病毒蛋白的DeePVP。它们都使用了卷积神经网络(CNN)层作为框架的核心。因此,我们在TensorFlow平台上构建了一个典型的基于CNN的模型框架(称为CNN-DeePVP),但其在MTs分类的训练和测试中显示出明显更低的F1分数和精确度(表1和表S1)。AUROC和AUPRC的比较也表明,DeepMetagenome优于原始的CNN-DeePVP模型(表S2)。
DeepMetagenome在使用指定的计算硬件时所需的训练时间比基于CNN的DeePVP更长,如表S2所示。这主要是由于DeepMetagenome中网络参数的数量较多,这可能赋予其更强的能力来注释更长的序列。如表S1所示,在MTs的训练过程中,DeepMetagenome和DeePVP均表现出良好的性能。然而,当应用于重金属转运蛋白(HMTs)的训练时,HMTs的长度是MTs的10倍,只有DeepMetagenome在所有指标上都取得了卓越的结果,所有参数超过98.6%。相比之下,DeePVP的表现明显较低。
蛋白注释的性能
我们将DeepMetagenome用于宏基因组翻译的蛋白数据集中的金属转运蛋白(MTs)注释,该数据集包含来自全球各种环境的超过一亿条序列。作为基线,我们还应用了DIAMOND,这是一种快速且流行的基于比对的方法。DIAMOND使用标准的MT数据库在10分钟内完成了注释,并获得了4,737条序列。在去除重复项和手动检查后,仅识别出10条阳性MT序列。相比之下,DeepMetagenome检测到了数量更高的MTs,并且阳性率更高。经过两个周期训练后,模型的准确性超过0.98并趋于稳定(图2A)。我们以0.00001的概率阈值识别了总共1,752条序列。在应用20%的半胱氨酸/组氨酸含量阈值后,我们进一步获得了720条经过生物信息学分析被认为是高可信度阳性结果的蛋白序列。当在大肠杆菌中表达选择的蛋白质的基因时,我们估计在这个特定的阈值下阳性率约为87%(图2F)。同时,DeepMetagenome在注释P型ATP酶HMTs、FNR(富马酸和硝酸盐还原)转录调节因子(FNRs)和氨单加氧酶(AmoA)方面表现也非常出色。对于所有这些蛋白,模型的准确性均达到>0.99(图3A–3C),并成功从翻译的宏基因组数据库中预测了422、107和27条阳性独特序列。
图3 DeepMetagenome在其他蛋白注释上的应用。
我们进一步比较了我们的方法和DIAMOND的性能,通过对DIAMOND参数进行微调来进行评估。为此,我们使用了本研究中使用的蛋白组数据集的一个子集,其中包含4,732,153个蛋白质序列。如图S3B所示,在0.001的阈值(DIAMOND的默认p值)下,DIAMOND在不同的灵敏度设置下未能获得任何MT序列,而DeepMetagenome识别出68个MT序列,根据人工检查,这些序列至少包含2个MBM。当截止值设定为0.1时,DIAMOND获得了2个序列,而DeepMetagenome则产生了超过350个序列。这些结果表明,DeepMetagenome在搜索潜在MT方面优于DIAMOND。
鉴定到的金属硫蛋白多样性
金属硫蛋白被定义为一类低分子量、富含半胱氨酸的蛋白质,能够结合金属。经过几十年的研究,现在已了解到MTs在调节细胞内金属稳态方面具有多重功能。MTs可能被用作生物修复和医学的重要资源。一些研究调查了不同生命领域中MTs的存在,发现许多门类中的MTs多样性仍有待探索。一个知识空白是已知的原核生物MTs数量不成比例。
许多复杂金属蛋白中的金属结合域结构相当复杂,而金属硫蛋白(MT)的序列则具有更简单的结构。例如,铜转运蛋白CopA除了金属结合域外,还具有水解酶位点和ATP结合位点。已知金属硫蛋白的功能结构缺乏及金属结合域的差异可能使基于比对和深度学习的注释变得更加困难。因此,我们对金属硫蛋白进行了特征分析,包括长度分布、半胱氨酸/组氨酸含量以及金属结合模块,以便于数据集的数据清理和预测序列的生物信息学验证(结果见下文)。
在阈值为0.00001的情况下,预测返回了1,762个候选环境金属结合蛋白,这些蛋白在序列上高度多样。这些高度多样序列之间的差异与训练数据集中阳性MTs的不同进化起源相一致。一些预测的MTs,如Gut_1和Gut_22,其序列与已知蛋白的部分片段相同。这可能是由于数据预处理过程中对开放阅读框的错误识别所导致的。尽管如此,我们注意到这些片段可能形成了特定结构域的一部分,这些结构域有助于蛋白的阳离子结合活性。
在1,752个环境MTs中,我们选择了150个含有最高半胱氨酸(Cys)和组氨酸(His)含量(>20%)的序列进行进一步分析。序列相似性比较显示,大多数环境MTs与细菌MTs相近(图2C)。此外,明显可见的是,后生动物、鞭毛虫和绿藻MTs更倾向于使用Cys而非His,而环境和细菌MTs的His含量高于其他MTs(图2B)。统计数据显示,后生动物MTs的平均Cys含量最高(n = 171,31.65%),而环境MTs的平均Cys含量为10.62%(n = 150)。有趣的是,环境MTs的平均His含量最高(13.27%),而后生动物MTs的His含量仅为0.15%(图2B)。除了对His的偏好外,一些选定的MTs还具有短串联重复序列(STRs)。STRs可能导致不稳定的蛋白折叠,这与已报道的MTs一致。在蛋白质长度方面,绿藻MTs的平均长度为73.14个氨基酸(n = 68),而环境MTs的平均长度为40.51个氨基酸。绿藻MTs在蛋白质长度上最长,其次是后生动物MTs和环境MTs(图2B)。总之,原核生物MTs似乎更倾向于使用His而不是Cys进行金属结合,并且其序列长度比真核物种短。这种特征分析为清理训练数据集的数据提供了重要的帮助。
通过对500个新识别的MTs和已知MTs的系统发育分析,发现了七个亚簇(图S4)。我们还检查了所选MT序列中金属结合模块(MBMs)的频率,并对其三维结构进行了初步预测。所选的MTs被发现使用了已知MTs的典型MBMs(图2D和S1),并且对于典型的正序列来说,正确的折叠是可能的(图2E)。总体而言,发现的MTs在序列和折叠结构上都与现有序列非常相似。
实验验证对于评估模型预测的性能至关重要,除了计算机模拟测试外,从每个簇中随机选择了23个MT进行功能测定(图2F)。所有携带合成MT的菌株在没有镉(Cd)或铜(Cu)压力的情况下经过24小时培养后生长良好。在经过48小时铜暴露的培养后,携带EnvMT40、Gut_34、Gut_93、EnvMT36、Gut1_7和EnvMT34的菌株表现优于对照组。携带空载体的菌株在0.9 mM Cd暴露下生长完全受到抑制;然而,在72小时内,Gut_122、EnvMT37、Gut_93、EnvMT36和Gut_44并没有受到抑制。Gut1_7的生长促进作用尤其显著。Drop assay实验表明,所合成的87.0%的MTs(23个中的20个)增强了宿主对Cd和/或Cu的抵抗力,证明它们在大肠杆菌细胞中表现出金属螯合活性。这些发现拓展了我们对原核生物金属硫蛋白多样性的理解,并显示出DeepMetagenome发现的MTs的高阳性率。
如何使用模型
根据我们对MT、HMT、FNR和AmoA等蛋白质的测试,DeepMetagenome可以很有效地用于从宏基因组/蛋白质组数据集中深度注释蛋白的自然多样性。深度学习模型的输入数据是FASTA格式的蛋白质组或多个宏蛋白质组数据集,这一深度学习过程可以与多种标准化的预处理管道集成,用于宏基因组/蛋白质组/转录组数据集。深度学习的泛化能力主要取决于训练数据集。训练数据集中的序列多样性对于注释新基因/蛋白质的能力至关重要。由于环境基因的多样性远远超出了常见数据库的覆盖范围,因此无论使用AI模型还是传统比对方法,环境宏基因组/蛋白质组注释通常具有较高的假阳性率。这也是传统宏基因组组装软件在真实环境宏基因组中的表现不佳的原因之一,尽管它在模拟数据集中表现良好。因此,我们建议在探索其他蛋白质的自然多样性时,需要对序列特征进行精细分析,以进行数据清理,从而建立高质量的大规模训练数据集。
在本研究中,长度阈值和概率阈值是用于深度学习模型的两个主观参数。由于各种因素(如蛋白质类型、模型的学习能力和预期用途),概率阈值并不统一。在用于具有明显特征和在物种间分布数量较多的蛋白质(如HMT)情况下,可以相应降低阈值。相反,对于未知蛋白质或预期阳性率较低的情况,建议使用较大的阈值值。本研究发现,各种蛋白质的注释在<0.01的水平上产生了可接受的阳性率。然而,对于像MTs这样的序列,需要设置0.00001的阈值。
本研究提供了一个带有用户手册的Python包,以便快速入门,并提供了通过交互式编码执行整个过程的说明(方法S1)。用于预测测试蛋白质的深度学习模型可以轻松被重用。此外,通过制备特定二分类训练数据集,本Python软件可以用于宏蛋白质组数据集中特定蛋白质家族的注释场景。训练新模型或使用已训练的模型只需四行代码。
图4 DeepMetagenome的使用。
- 结论 -
总之,本研究开发了一种基于深度学习的方法,称为DeepMetagenome,用于准确注释来源于(宏)基因组/蛋白质组的特定蛋白质家族的自然多样性。该方法采用二分类策略,使用经过全面特征分析清洗过的专用数据集,并提供了一个执行整个方法的Python包,以及一个详细的手册,以便通过交互式编码来实施该过程。该包易于使用,并且可以方便地重新用于其他类型的蛋白质。
参考文献
Li, X., Zhang, J., Ma, D., Fan, X., Zheng, X., and Liu, Y.-X. (2024). Exploring protein natural diversity in environmental microbiomes with DeepMetagenome. Cell Reports Methods 4:100896. https://doi.org/10.1016/j.crmeth.2024.100896.
- 作者简介 -
第一作者
中国科学院农业资源研究中心
李小方
研究员
李小方,中国科学院农业资源研究中心研究员、作物遗传育种室主任,主要研究以生物修复(bioremediation)、生物防控(biocontrol)和生物冶金(biomining)为目的的环境生物技术。在环境功能序列挖掘方面,近年在AEM、Metallomics、GPB和Cell Reports Methods等发表十余篇论文,发展了基于序列的功能宏基因组学方法和基于深度学习的宏组学注释方法。迄今以一作/通讯在iMeta,New Phytologist,Plant Communications,Chemical Engineering Journal和Journal of Hazardous Materials等发表论文近50篇。
通讯作者
中国科学院农业资源研究中心
郑鑫
助理研究员
郑鑫,中国科学院农业资源研究中心助理研究员,主要研究兴趣为作物-微生物互作的遗传机制和生物信息学。迄今在iMeta,JBC,Small等杂志发表SCI论文十余篇,总引用800余次。
河北农业大学机电工程学院
范晓飞
教授
范晓飞,民建会员,教授,博士生导师,太行学者第三层次引进人才,入选河北省引进海外高层次人才“百人计划”,研究方向为农业人工智能。专长机器视觉、机器学习及图像处理,数字农业领域资深专家。于国际著名期刊上发表学术论文13篇,其中SSCI收录1篇,SCI收录8篇,EI收录2篇,研究成果被科学日报、密苏里电视台等多家美国媒体采访和报道。曾在美国圣路易斯市孟山都公司总部任职中层研发管理,领导博士工程师团队开发智能农业技术,主持及参与了22个项目的研发,其中6项为投入百万美元以上的项目。
中国农科院基因组所食品中心
刘永鑫
研究员
刘永鑫,中国农科院基因组所食品中心研究员,微生物组与营养健康团队首席,iMeta执行主编,宏基因组公众号创始人。聚焦微生物组方法开发、功能挖掘和科学传播,在Nature Biotechnology、Nature Microbiology等发表论文80篇,被引22000+次,入选全球前2%顶尖科学家。兼任中国微生物组、计算合成生物学专委会委员。创办17万+同行关注的宏基因组公众号,主编《微生物组实验手册》专著,发起iMeta 期刊(IF 23.8),位列微生物学研究类全球第一。兼职为NC、NAR、Microbiome等90种期刊审稿270次。
猜你喜欢
iMeta高引文章 fastp 复杂热图 ggtree 绘图imageGP 网络iNAP
iMeta网页工具 代谢组MetOrigin 美吉云乳酸化预测DeepKla
iMeta综述 肠菌菌群 植物菌群 口腔菌群 蛋白质结构预测
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature
一文读懂:宏基因组 寄生虫益处 进化树 必备技能:提问 搜索 Endnote
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流快速解决科研困难,我们建立了“宏基因组”讨论群,己有国内外6000+ 科研人员加入。请添加主编微信meta-genomics带你入群,务必备注“姓名-单位-研究方向-职称/年级”。高级职称请注明身份,另有海内外微生物PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
点击阅读原文