DRUGAI
今天为大家介绍的是来自中山大学深圳校区施莽团队联手阿里云智能飞天实验室的一篇论文。当前的宏基因组学工具可能无法识别高度变异的RNA病毒。作者开发了一种名为LucaProt的深度学习算法,用于在来自全球多种生态系统的10,487个转录组中发现高度变异的RNA依赖的RNA聚合酶序列。LucaProt结合了序列和预测的结构信息,能够精确检测RNA聚合酶序列。通过这种方法,作者识别了161,979种潜在的RNA病毒物种和180个RNA病毒超类群,其中包括许多此前研究较少的病毒类群,以及具有极长基因组(最长达47,250个核苷酸)和复杂基因组结构的RNA病毒。一部分新发现的RNA病毒通过RT-PCR和RNA/DNA测序得到了确认。这些新发现的RNA病毒存在于多种环境中,包括空气、温泉和海底热液喷口,并且其病毒多样性和丰度在不同生态系统中差异显著。本研究推进了病毒发现,展示了病毒圈的规模,并提供了用于更好记录全球RNA病毒组的计算工具。
RNA病毒感染多种宿主。尽管它们无处不在,但作为全球生态系统的重要组成部分,RNA病毒的关键作用直到最近通过大规模病毒发现计划才得到广泛认可。这些研究依赖于RNA依赖的RNA聚合酶(RdRP)序列分析,已发现成千上万的新病毒物种,使病毒圈的规模至少扩大了10倍,并提出了新的病毒门类。尽管如此,仍有许多高度变异的RNA病毒未被发现,部分原因是当前的宏基因组工具可能漏掉了某些高度变异的RdRP。因此,需要开发创新策略来全面识别RNA病毒的多样性。
过去十年,人工智能(AI),尤其是深度学习算法,在生命科学的多个领域产生了重要影响,如蛋白质结构预测、疾病建模等。深度学习算法相比传统生物信息学方法具有更高的精确性、性能以及自学习能力。最近,CHEER、VirHunter等深度学习工具被用于病毒识别,但CNN和RNN等算法在处理生物序列时仍面临局限性。Transformer架构凭借其处理不同长度序列的能力,超越了CNN和RNN,成为蛋白质功能预测的强大工具。
本文介绍了一种基于转化器架构的RNA病毒发现工具,利用蛋白质序列和病毒RdRP的结构特征进行病毒识别。通过对来自不同生态系统的10,487个转录组数据进行分析,该工具揭示了以往未被识别的RNA病毒多样性,并展示了AI在病毒发现中的高效性和准确性。
深度学习揭示RNA病毒圈的暗物质
图 1
作者对全球多种生态系统进行了系统搜索,以扩大RNA病毒的多样性,共收集了10,487个转录组数据(总计51 TB的测序数据),生成了超过13.68亿个片段和8.72亿个预测蛋白。图1A基于这些数据,采用了两种策略识别并交叉验证了潜在的病毒RNA依赖的RNA聚合酶(RdRP)。主要使用的AI算法为LucaProt,这是一个基于序列和结构特征的深度学习转化器模型,使用了5,979个已知的病毒RdRP序列(阳性样本)和229,434个非RdRP蛋白序列(阴性样本),包括非RdRP病毒蛋白、逆转录酶(RT)和细胞蛋白。
如图1B所示,LucaProt在测试数据集上的表现显示出极高的准确性(0.014%的假阳性率)和特异性(1.72%的假阴性率)。作者还独立应用了另一种传统方法ClstrSearch,该方法基于蛋白质的序列相似性进行聚类,并使用BLAST或隐马尔可夫模型(HMMs)来识别与病毒RdRP或非病毒RdRP蛋白相似的序列。
通过结合两种搜索策略的结果,作者发现了513,134个RNA病毒片段,代表了161,979个潜在病毒物种,以及180个RNA病毒超类群。图1C揭示了LucaProt新识别的70,458个潜在独特病毒物种,发现了60个此前未被识别的未被充分研究的类群。在所有识别的片段中,LucaProt和ClstrSearch共同识别了512,690个片段(占总片段的99.9%)和157个超类群(占87.2%),而LucaProt独立识别了额外的444个片段和23个超类群(图1D)。
样本提取
本研究通过对10,487个样本的宏转录组分析进行了RNA病毒的发现。其中大多数样本(n=10,437)来自NCBI序列读取档案(SRA)数据库,提取时间为2020年1月16日至8月14日。
图 2
如图2所示,作者选取了全球范围内各种环境类型的样本,包括水生环境(如海洋、河流和湖泊水)、土壤环境(如沉积物、污泥和湿地)、宿主相关环境(如生物膜、木材腐烂和根际)以及极端环境样本(如海底热液喷口、高盐湖和盐沼)。这些样本均经过高质量的宏转录组测序,确保生成不少于50 Mb的总RNA Q20测序数据。
LucaProt与其他病毒发现工具的对比
图 3
为了评估LucaProt的敏感性和特异性,使用了相同的数据集和RdRP数据库,作者将其与四种其他病毒发现工具进行了对比。如图3A所示,LucaProt表现出最高的召回率(即正确预测的真实阳性比例),同时保持较低的假阳性率(即错误预测的假阴性为阳性的比例),并且具有较好的计算效率(图3E)。在识别所有RdRPs时,LucaProt的病毒发现覆盖率最广(98.22%),而其他四种工具只能识别部分病毒(76.82%–87.81%;图3B)。重要的是,图3C显示,其他病毒发现工具只能识别LucaProt新发现病毒的少数部分。
值得一提的是,尽管这些研究中的数据未用于模型的训练或测试,LucaProt成功召回了六项已发表研究中超过98%的病毒RdRPs(图3D)。唯一例外的是Olendraite等人的研究,手动检查和序列比对显示Olendraite等人研究中未被LucaProt识别的序列缺少核心RdRP结构域。LucaProt还在召回率、精确率和长序列处理方面超越了CHEER、VirHunter、Virtifier和RNN-VirSeeker等RNA病毒发现工具(图3F–3H)。LucaProt中采用的先进Transformer架构支持长氨基酸序列的并行处理,能够更好地捕捉远距离残基间的关系,优于其他工具中使用的CNN/RNN编码器。
新识别病毒超类群的验证与确认
图 4
这里识别的180个病毒超类群是RNA序列而非DNA序列,已通过多方面证据加以证明。在序列层面,图4A中采用了两个标准来确定病毒超类群:与细胞蛋白无相似性,并且具备关键的RdRP基序。为了验证计算预测结果,作者对本研究收集的50个环境样本进行了DNA和RNA的同步提取与测序,分析这些样本中115个病毒超类群的存在情况。图4B显示,只有RNA测序读段映射到了与病毒RdRP相关的片段,而RNA和DNA测序读段都映射到了与DNA病毒、逆转录酶(RT)及细胞生物相关的片段。115个病毒超群中的17个通过更敏感的RTPCR方法进一步证实:这揭示了DNA提取物中缺少编码病毒RdRP的序列,表明这些病毒超类群确实是RNA生物(图4C)。
最后,作者通过三维(3D)比对,将新识别的病毒RdRP与已知的病毒RdRP、真核生物的RdRP(Eu RdRP)、真核生物DNA依赖的RNA聚合酶(Eu DdRP)和RT进行了结构相似性比较(图4D)。LucaProt识别的新RdRP超类群包含至少三个病毒RdRP结构的标志性成分,显示出与已知RNA病毒蛋白相比显著更高的结构相似性(平均结构相似性=3.0),而与细胞蛋白的相似性较低(平均结构相似性=5.8)。
基因组结构揭示了RNA病毒圈中的模块化和灵活性
作者接下来分析了本研究中识别的RNA病毒基因组的组成和结构。RdRP编码基因组或基因组片段的长度在病毒超类群内和之间存在显著差异,大多数长度集中在2131个核苷酸左右(图5)。
图 5
除了RdRP之外,作者还对这些新识别的病毒基因组编码的其他预测蛋白进行了鉴定。尽管大多数蛋白质在现有数据库中没有同源物,但作者确定了一些与结构蛋白(如衣壳、囊膜蛋白、糖蛋白等)和非结构蛋白(如解旋酶、蛋白酶、甲基转移酶、运动蛋白、免疫或宿主相关调节蛋白)有关的蛋白质(图5D)。这些额外的病毒蛋白的存在,进一步证明了这些新识别超类群属于真正的RNA病毒。
此外,噬菌体相关蛋白(如噬菌体衣壳、mat-A蛋白和整合酶)的存在表明,部分病毒可能感染原核宿主,尽管这一点还需要进一步验证。这些蛋白的出现与通过RdRP序列推导的病毒系统发育历史不一致(图5E),表明RNA病毒基因组具有模块化结构。
RNA病毒的系统发育多样性扩展
在病毒物种层面,RNA病毒圈的扩展非常明显,相比国际病毒分类委员会(ICTV)定义的物种,增长了55.9倍(251,846/4,502),而相比此前描述的所有RdRP序列,增长了1.4倍(251,846/181,388)(图6)。
图 6
这种扩展不仅体现在已知病毒类群(如门、目和科)的扩大中,还包括全新类群的发现。本研究发现的许多病毒形成了不同于以往描述的病毒超类群的新分支。有趣的是,几个以前仅有少量基因组代表的类群(如Astro-Poty、Hypo、Yan和Cysto类群)经历了显著扩展,包含了更多的病毒群体,且具有更高的系统发育多样性。一些新识别的超类群也显示出很高的系统发育多样性,包括SG023(1,232种病毒)、SG025(466种病毒)和SG027(475种病毒),表明在环境样本中可能会发现更多高度变异的RNA病毒。通过分析,作者发现病毒物种数量最多的超类群是Narna-Levi(58,063种病毒)、Picorna-Calici(19,970种病毒)和Tombus-Noda(15,520种病毒)。
全球RNA病毒组的生态结构
图 7
作者的分析揭示了RNA病毒广泛存在于多种生态系统子类型中(32类),覆盖全球1,612个地点。尽管在揭示RNA病毒多样性方面做出了多次努力,LucaProt检测到的病毒群中有33.3%是此前未被描述的(图7A)。尽管RNA病毒的发现速度整体上有所放缓,但尚未达到饱和(图7B),这表明全球RNA病毒圈中仍存在大量未被开发的多样性,尤其是在土壤环境中,病毒发现显著增加。
如图7C-D所示,为了识别潜在的生态模式,作者比较了不同生态系统子类型中RNA病毒组的α多样性(通过香农指数衡量)和丰度水平(通过每百万reads中来自于某基因的reads数)。总体上,叶层、湿地、淡水和废水环境的平均α多样性最高,而病毒丰度在南极沉积物、海洋沉积物和淡水生态系统子类型中达到顶峰,平均RPM值在18,424.6到46,685.5之间。相比之下,卤水和地下环境的平均多样性和丰度最低,这符合其低生物量(即宿主细胞)环境的预期。在极端生态系统(如温泉和海底热液喷口)中,相关的RNA病毒多样性较低,但丰度中等(平均RPM在1,528.9–3,726.9之间)。值得注意的是,本研究中新建立的病毒超类群主要存在于水生和沉积物样本中,在脊椎动物和无脊椎动物样本中仅有少量发现。
图7D还揭示了特定病毒群在不同生态系统子类型中的普遍性和丰度水平。其中,大多数(85.9%)发现的病毒只出现在单一的生态系统子类型中。作者确定了一些特定生态系统子类型中的“标志性”病毒物种,这些病毒在特定环境中表现出高普遍性和高丰度,这与先前的报告一致。然而,由于本研究中分析的数据集由不同实验室生成,采用了不同的样本处理、文库制备和测序方法,病毒多样性和丰度在不同生态系统子类型之间的比较不可避免地存在系统性偏差。
讨论
RNA病毒的准确识别仍是重大挑战,影响了对其遗传多样性的全面了解,阻碍了RNA病毒进化和生态学的发展。传统的病毒发现方法依赖序列相似性和数据库的完整性。为了解决这一问题,本文开发了基于深度学习的模型LucaProt,结合了序列和结构信息,提高了病毒发现的准确性和效率。该模型识别出的RNA病毒超类群相比国际病毒分类委员会(ICTV)的报告扩展了8.6倍。此外,研究揭示了RNA病毒多样性的显著扩展,但新发现病毒的宿主仍大多未知,可能与微生物宿主相关,尤其是细菌和古细菌宿主。
编译 | 于洲
审稿 | 王梓旭
参考资料
Hou X, He Y, Fang P, et al. Using artificial intelligence to document the hidden RNA virosphere[J]. bioRxiv, 2023: 2023.04. 18.537342.