近日,英国埃克塞特大学李珂教授团队、东北师范大学张铧坤教授团队和英国约翰英纳森中心丁一倞教授团队在Nature Machine Intelligence上发表题为An Interpretable RNA Foundation Model for Exploration of Functional RNA Motifs in Plants的研究论文。研究团队开发出植物RNA可解释大语言模型(PlantRNA-FM),实现了使用AI学习植物王国生命的语言,解码功能性RNA调控元件。
PlantRNA-FM首次整合了来自1124个植物物种的RNA序列和结构信息,涵盖了从苔藓到开花植物的广泛物种多样性。与现有的DNA/RNA人工智能模型相比,PlantRNA-FM在植物特异性任务中展现出优异的预测性能。例如,在基因区域注释任务中,PlantRNA-FM达到了0.974的F1评分,远超现有最佳模型0.639的表现。在水稻和拟南芥翻译效率预测等关键任务中,PlantRNA-FM同样表现出色,证明了其在植物特异性应用中的优越性。
图1. PlantRNA-FM模型设计原理图
除了预测RNA二级结构以及相关功能性指标外,该研究团队所开发的PlantRNA-FM模型具有简单易用的可解释性,并成功识别出了影响植物基因表达的关键RNA结构特征。在AI技术之前,研究者通常是使用生信信息学工具分析鉴定RNA序列特征(如GC含量,T富集区等)与生物学功能的相关性。然而,由于巨大的碱基组合空间,现有的生物信息学分析工具仍然无法很好地解析更为深层次的科学问题,例如怎样的“GC”排列、“T”如何富集才可以影响生物学功能。通过使用PlantRNA-FM的可解释性分析框架,科学家发现了112个与翻译相关的RNA结构功能元件,其中包括63个抑制翻译和49个促进翻译的结构功能元件。通过实验证实,改变这些结构可导致翻译效率发生显著变化,最高可达5.3倍。此外,PlantRNA-FM还成功鉴定出了RNA G-四链体(RG4)这一特殊RNA结构与翻译抑制的关系。实验验证表明,破坏这些结构可使翻译效率提升达5.8倍。
图2. PlantRNA-FM鉴定了关键的RNA结构功能元件
PlantRNA-FM帮助我们理解了RNA是如何通过其序列和结构来调控植物生命活动的。这为优化植物基因表达以及设计下一代优质作物以应对全球气候异常和粮食危机提供了新的研究思路。此外,通过人工智能技术解读植物生命密码,这项工作展示了跨学科研究在推动生命科学发展中的重要价值。
英国埃克塞特大学李珂教授、东北师范大学张铧坤教授和英国约翰英纳森中心丁一倞为共同通讯作者。英国约翰英纳斯中心于昊澎博士、英国埃克塞特大学杨恒、东北师范大学孙文青和英国约翰英纳斯中心闫宗运博士并列第一作者,中科院分子植物科学卓越创新中心杨小飞研究员在项目实施过程中给予重要的研究支持。该研究得到国家重点研发计划、国家重点研究与发展计划、国家自然科学基金、中央高校基本科研业务费、中国国家留学基金委、英国生物技术和生物科学研究委员会、欧洲研究理事会、人类前沿科学计划奖学金、未来领袖奖学金、靳同宝国际奖学金以及亚马逊研究奖、英国图灵研究院的支持。
论文链接:
https://www.nature.com/articles/s42256-024-00946-z