人工智能(AI)正在帮助科学家们揭开生活在我们脚下和全球每个角落的多种多样的基本生命分支的神秘面纱。在一项新的研究中,来自中国中山大学、阿里巴巴集团、复旦大学、浙江大学、广州大学和澳大利亚悉尼大学等研究机构的研究人员利用一种机器学习工具发现了161,979种新的RNA病毒。他们认为这将极大地改善地球上的生命图谱,并有助于识别数百万种尚未表征的病毒。
相关研究结果发表在Cell期刊上,论文标题为“Using artificial intelligence to document the hidden RNA virosphere”。
论文共同通讯作者、悉尼大学医学与健康学院的Edwards Holmes教授说:“我们看到了地球生命中原本不为人知的部分,揭示了非凡的生物多样性。这是单项研究中发现的数量最多的新病毒物种,极大地扩展了我们对生活在我们中间的病毒的了解。一下子就发现这么多新的病毒,真是令人震惊,而且这仅仅是触及了表面,为我们打开了一个发现的世界。还有数以百万计的病毒有待发现,我们可以用同样的方法来识别细菌和寄生虫。”
虽然RNA病毒通常与人类疾病有关,但它们也存在于世界各地的极端环境中,甚至可能在全球生态系统中发挥关键作用。在这项研究中,作者发现它们生活在大气、温泉和热液喷口中。
Holmes教授说:“极端环境中携带着如此多种类的RNA病毒,再次证明了它们惊人的多样性和在最恶劣环境中生存的顽强生命力,有可能为我们提供病毒和其他基本生命形式是如何形成的线索。”
人工智能工具如何发挥作用?
研究人员建立了一种名为LucaProt的深度学习算法,用于计算大量的基因序列数据,包括长达47,250个核苷酸的长病毒基因组和基因组复杂信息,从而发现了16万多种RNA病毒。Holmes教授说:“这些病毒中的绝大多数都已被测序,而且都在公共数据库中,但它们的差异非常大,没有人知道它们是什么。它们构成了通常所说的序列‘暗物质’。我们的人工智能方法能够对所有这些不同的信息进行组装和分类,首次揭示了这些暗物质的含义。”
这种人工智能工具经过训练,能够计算暗物质,并根据所有RNA病毒用于复制的蛋白的序列和二级结构识别病毒。它能够大大加快发现病毒的速度,而如果使用传统方法,发现病毒将耗费大量时间。
图片来自Cell, 2024, doi:10.1016/j.cell.2024.09.027
论文共同通讯作者、中山大学的施莽(Mang Shi)教授说:“我们过去依赖繁琐的生物信息学管道来发现病毒,这限制了我们探索病毒的多样性。如今,我们有了一种更有效的基于人工智能的模型,它具有极高的灵敏度和特异性,同时还能让我们更深入地研究病毒的多样性。我们计划将这一模型应用于多种领域。”
论文共同通讯作者、阿里巴巴集团云智能Apsara实验室研究员Zhao-Rong Li博士说:“LucaProt代表了前沿人工智能技术与病毒学的重要融合,表明人工智能可以有效地完成生物探索任务。这种融合为进一步解码生物序列、从新的视角解构生物系统提供了宝贵的启示和鼓励。我们还将继续开展人工智能在病毒学领域的研究。”
Holmes教授说:“下一步显然是训练我们的方法,以发现更多这种惊人的多样性,谁知道会有什么额外的惊喜呢?”
参考资料:
Xin Hou et al. Using artificial intelligence to document the hidden RNA virosphere. Cell, 2024, doi:10.1016/j.cell.2024.09.027.