Nature Methods丨利用几何深度学习预测蛋白质-DNA结合特异性

学术   2024-08-17 18:01   浙江  

大家好,今天分享的文献是2024年8月发表在Nature Methods 上的“Geometric deep learning of protein–DNA binding specificity”。

作者介绍:

本文通讯作者是南加州大学计算生物学教授Remo Rohs,Remo Rohs教授的主要研究方向包括计算结构生物学、高通量DNA shape预测和统计机器学习。

研究背景:

转录因子在生命过程中发挥着关键的调节作用,因此,理解蛋白质如何精确靶向特定DNA序列的机制显得尤为重要。蛋白质-DNA复合物的结构信息通常通过X射线晶体学、核磁共振和冷冻电子显微镜等技术获得,并存储于蛋白质数据库(PDB)中。这些结构揭示了蛋白质与特定DNA序列结合的方式及其物理化学相互作用。然而,这些数据并未涵盖所有可能结合的DNA序列。为填补这一空白,研究者们采用了蛋白质结合微阵列、配体系统进化结合高通量测序(SELEX-seq)、染色质免疫沉淀结合测序和高通量SELEX等方法,这些技术虽然捕获了更广泛的结合序列信息,但往往缺乏相应的结构数据。换言之,这些实验数据在很大程度上是互补的,通常需要手动校对,以将结构数据中的分子相互作用细节与结合特异性关联起来。尽管在特定蛋白质家族中取得了一定进展,跨蛋白质家族的结合特异性预测仍是一项具有挑战性的未解难题。结合过程中的结构变化及机制多样性进一步加剧了这一难度。通过人工智能手段挖掘蛋白质-DNA结构中蕴含的信息,或可为实现跨蛋白家族的通用预测提供关键支持。在此背景下,作者提出了DeepPBS。该深度学习模型旨在捕捉蛋白质-DNA 相互作用的物理化学和几何背景,以预测结合特异性,并通过基于给定蛋白质-DNA 结构的位置权重矩阵 (PWM) 来表示(如图 1 所示)。

这种方法为理解和预测跨蛋白质家族的结合特异性提供了新的可能性。

1. DeepPBS总体框架图

模型设计:

框架如图1所示。DeepPBS的输入为蛋白质-DNA复合物结构,该结构可来自实验数据、分子模拟快照或预测模型。DeepPBS将该复合物视作一个二分图,其中蛋白质和DNA各自拥有独立的空间表示。蛋白质部分以重原子为顶点构成原子图,并计算多个特征;DNA部分则表示为去除序列身份但保留双螺旋形状的对称螺。系统首先对蛋白质图进行空间图卷积,以聚合原子邻域信息。随后,DeepPBS应用一组从蛋白质图到对称螺旋的二分几何卷积,学习螺旋点的几何方向与相邻蛋白质残基的方向和化学性质之间的关系。特定的化学相互作用,如氢键,依赖于位置和方向。DeepPBS使用四种不同的二分卷积处理对称螺旋点,分别对应大沟、小沟、磷酸和糖部分。大沟和小沟的卷积称为“沟槽读出”,而磷酸和糖部分的卷积结合DNA形状信息,为“形状读出”。这两种读出机制协同确定不同蛋白质家族的结合特异性。最终,结合引入的DNA形状信息以及一维卷积神经网络和预测层,DeepPBS实现了对结合特异性的预测。

结果与讨论:

(1)在实验确定的结构下DeepPBS的性能

框架用于评估DeepPBS模型在基准集上的性能。该架构支持两种训练机制:不涉及骨架卷积和形状信息的“沟槽读出”,以及不涉及沟槽卷积的“形状读出”。基准测试结果显示,结合“沟槽读出”和“形状读出”的DeepPBS模型表现优于单独的版本。在以实验数据训练时,加入DNA序列信息(“DeepPBS with DNA SeqInfo”)显著提升了模型性能,接近数据集的固有上限(图2.a)。然而,从解释性和设计角度来看,DeepPBS在DNA序列不具代表性时表现更优,这一点通过比较“DeepPBS”和“DeepPBS with DNA SeqInfo”在PWM-共晶结构DNA对齐得分中的表现得以证实(图2.b)。此外,DeepPBS展示了良好的跨蛋白质家族泛化能力,即使在结构较少的蛋白质家族(如热休克因子)中同样出色。特定家族的表现差异反映了已知结合机制,例如,zf-C2H2家族的“沟槽读出”模型表现更佳,而干扰素调节因子(IRF)家族则在“形状读出”模型上表现突出。对于某些家族,如同源异型域(HD)和叉头结构蛋白,DeepPBS模型的表现超越了单独的读出版本,表明网络有效捕捉了组件之间的复杂高阶关系(图2.c-d)。

图2. DeepPBS在预测实验确定的结构的蛋白质家族之间的结合特异性方面的性能

(2)在计算机预测的结构下DeepPBS的性能

该框架不仅适用于实验结构,还能与先进的结构预测方法结合,如RFNA和MELD-DNA,这些人工智能驱动的模型为缺乏实验性DNA结合结构数据的蛋白质提供了前所未有的预测潜力。作者提出了一种结合预测结构的DeepPBS应用方法:首先,基于蛋白质家族对初步猜测的DNA序列(IG DNA)进行预测,接着使用RFNA预测蛋白质-DNA复合体结构,最后通过DeepPBS预测结合特异性。这一方法已在三种基本螺旋-环-螺旋(bHLH)蛋白上得到验证,包括Max同源二聚体、TCF21二聚体和OJ1581_H09.2,均未在PDB数据库中找到相应的实验性结构(图3 a-d)。此外,作者探索了将DeepPBS预测结果作为反馈循环以增强蛋白质复合体建模的效果。以人类TGIF2LY蛋白为例,经过七轮反馈循环优化,RFNA和DeepPBS的预测结果显示出置信度指标(pLDDT)的提高,结构稳定性增强,以及绑定能量向低值的转移,证明了DeepPBS的有效性(图3 e-g)。与仅基于蛋白质序列的方法如rCLAMPS相比,DeepPBS在不同数据集上展现了更广泛的适用性。尽管rCLAMPS在某些数据上表现良好,DeepPBS在pLDDT分数较高的情况下更具优势(图3 h-i)。此外,DeepPBS不仅限于DNA核心结合区域,还广泛适用于不同蛋白质家族,展现了其在预测结合特异性方面的巨大潜力。

图3. DeepPBS 在预测的蛋白质-DNA 复合物结构中的应用

(3)DeepBPS在针对于特定DNA设计蛋白质骨架

在设计完全合成的螺旋-转角-螺旋(HTH)蛋白质骨架以针对特定DNA序列方面,作者取得了显著进展。作者将DeepPBS框架用于合成设计的蛋白质,这些蛋白质针对特定的DNA序列(GCAGATCTGCACATC),命名为DBP5、DBP6、DBP9和DBP35。DeepPBS预测的PWM(位置权重矩阵)和界面重原子水平的RI分数(图4b、f、j、n;图5c、g、k、o)与通过流式细胞术分析的单碱基突变结合信号进行定性比较一致(图5d、h、l、p)。尽管存在一些例外,DeepPBS在大多数情况下仍然准确预测了高特异性的结合位点。例如,针对DBP35的位点11,DeepPBS预测了除了WT碱基A外的C的结合可能性,类似情况也出现在DBP35的位点9和DBP5的位点7。在对未结合DNA区域的预测中,DBP9和DBP6的flanking区域均匀,与经典B-DNA结构一致,而DBP5和DBP35的flanking区域则显示非经典形状,并与蛋白质的环状区域存在狭窄的小沟相互作用。DeepPBS对A-tract的主要偏好预测与DNA形状一致,显示出小沟宽度显著下降。这些结果展示了DeepPBS在减少昂贵湿实验方面的潜力。

图4. DeepBPS在针对于特定DNA(GCAGATCTGCACATC)设计蛋白质骨架(螺旋-转角-螺旋)设计

总结:

计算机识别蛋白质与特定DNA序列结合具有挑战性。DeepPBS框架通过建模蛋白质-DNA复合体,有效地预测结合特异性,尤其适用于合成设计的蛋白质。其优势在于快速处理和高通量数据能力。目前,DeepPBS主要用于双链DNA,但未来有潜力扩展至单链DNA、RNA和其他聚合物。该工具为实验验证前的结合特异性提供了初步筛选支持。

微信号:HanDa-Lab
课题组网站:https://www.hanlab.net/

撰稿:张志明

校对:何磊

编辑:侯佳宁

∨ 点击“阅读原文”直达文献

韩达课题组
韩达课题组
 最新文章