蛋白质-RNA和蛋白质-DNA复合物在生物学过程中发挥着关键作用。尽管蛋白质结构预测(AlphaFold2、RoseTTAFold)方面最近取得了相当大的进展,但与已知复合物没有同源性的蛋白质-核酸复合物的结构预测在很大程度上是一个尚未解决的问题。在这里,作者扩展了之前的RoseTTAFold深度学习蛋白质结构预测方法,同时能够预测核酸和蛋白质-核酸复合物。开发了一个经过训练的网络RoseTTAFoldNA,它可以快速生成三维结构模型,并对蛋白质-DNA和蛋白质-RNA复合物进行置信估计。置信预测的准确性比当前最先进的方法要高得多。RoseTTAFoldNA应该广泛用于模拟天然存在的蛋白质-核酸复合物的结构,以及设计序列特异性RNA和DNA结合蛋白。
作者将RoseTTAFold推广到蛋白质以外的核酸模型,并通过对PDB中的结构进行重新训练来学习蛋白质-核酸结构预测所需的许多新参数。训练过程中的一个主要问题是数据量,即PDB中是否有足够的核酸和蛋白质-核酸结构来训练准确且通用的模型;AlphaFold成功的关键是PDB中数十万个蛋白质结构,但核酸结构和复合物却少了一个数量级。核酸相对于蛋白质的灵活性也可能使前者的预测变得更加困难。之前DeepMind的预告中AlphaFold3似乎再次取得了蛋白-核酸复合体的预测突破,RoseTTAFoldNA的出现再次与其遥相呼应。
这里的RoseTTAFoldNA使用与之前的蛋白结构预测模型RoseTTAFold相同的数据集进行训练,并增加了所有RNA、蛋白质-RNA和和蛋白质-DNA复合物的结构信息。作者评估了没有同源复合物的蛋白质-核酸复合物结构的预测能力。此外,还评估了模型对自身准确性的自我评估,并将其与AlphaFold和蛋白质-DNA对接方法进行了比较。
该文章的通讯作者为Frank DiMaio,David Baker也参与该项研究。