J. Am. Chem. Soc. | UCBShift 2.0!能够预测蛋白质侧链的化学位移

学术   2024-12-27 00:02   韩国  

DRUGAI

今天为大家介绍的是来自奥地利维也纳大学与美国加州伯克利Teresa Head-Gordon团队的一篇论文。化学位移(chemical shifts)是一种容易获得且可以高精度测量的核磁共振观测值。由于化学位移对构象平均值和局部分子环境比较敏感,因此能够提供溶液中蛋白质结构的详细信息。为了预测蛋白质结构的化学位移,作者开发了UCBShift方法。该方法独特地融合了转移预测模块(transfer prediction module),通过序列和结构比对从实验数据库中选择参考化学位移,并结合机器学习模型(搭配X射线晶体结构中的物理启发特征)来预测蛋白质主链化学位移。在这项研究中,作者将UCBShift 1.0方法扩展到侧链化学位移预测,以实现全蛋白质分析。与广泛使用的SHIFTX2方法相比,这种方法显示出更高的准确性和可靠性。通过更丰富的经过清理的蛋白质位移-结构数据以及UCBShift算法的模块化特点,用户可以深入了解对蛋白质主链和侧链化学位移预测中残基特异性稳定相互作用重要的不同特征。作者认为UCBShift 2.0的多个前向和后向应用可以帮助验证AlphaFold结构并探索蛋白质动力学。

核磁共振(NMR)波谱是表征生物分子动力学和溶液结构的主要实验工具。含有1H、13C和15N核的有机系统的NMR化学位移可以详细描述药物分子、蛋白质及其复合物和无序蛋白质状态的结构。NMR化学位移不仅对局部结构变化敏感,还特别受到取决于序列环境和肽链长度的构象变化、溶剂暴露或蛋白质氢键环境,甚至振动平均的影响。虽然量子化学计算磁性质通常很有效,但高级量子力学(QM)化学位移预测所需的计算量对于"即时"评估来说过于庞大。


因此,通常的做法是开发一个基于数据库训练的专家系统,通过完全消除QM计算,直接预测实验观测值来产生"预测的"化学位移。这些启发式计算器主要关注主链化学位移,必须经过训练来解释NMR观测值不仅依赖于主链二面角,还依赖于其他特征,如键角、肽键平面性的偏离,以及与周围蛋白质或溶剂的氢键作用。Meiler和同事以及后来的Shen和Bax证明人工神经网络(ANNs)非常适合利用这些特征来预测蛋白质主链化学位移。值得一提的是SHIFTX2中的SHIFTX+组件,它不仅使用主链几何特征,还使用残基生物相似性属性(如BLOSUM数)来使用ANNs或Bagging和Boosting集成模型预测化学位移。即便如此,这些模型仍然存在不准确性——可能是因为从X射线晶体结构中提取的特征不完整或不具代表性——因此一个实用的解决方案是用另一个与目标蛋白质具有高序列同源性的蛋白质的已知实验化学位移值来替代。例如,SHIFTX2还通过SHIFTY+组件利用现有数据库,引入对齐和转移技术来充分利用序列同源性,从而做出更准确的预测。


作者最近推出的UCBShift 1.0方法在这些早期基础模型的基础上为主链原子的化学位移预测提供了几项改进。第一个改进是将机器学习现代化,利用随机森林回归模型,并大大扩展了X射线数据集和特征提取与转换,这被称为UCBShift-X预测器。作者还改变了同源性的性质,不仅包括高序列同源性,还引入了序列相似性低但结构同源性高的蛋白质,这构成了UCBShift-Y模块。最后的随机森林回归步骤中,如果存在与目标蛋白质的同源性,结合这两个模块来进行化学位移预测,否则仅使用UCBShift-X模块进行位移预测。UCBShift 1.0对蛋白质主链原子的平均绝对误差(MAE)为:酰胺氢0.31 ppm,Hα 0.19 ppm,C' 0.84 ppm,Cα 0.81 ppm,Cβ 1.00 ppm,N 1.81 ppm。


在这项研究中,作者通过在扩展数据集上重新训练UCBShift 1.0模型,力求提高水溶性蛋白质侧链碳、氢和氮原子化学位移计算的准确性和稳健性,并获得更深入的见解。


模型部分

图 1


作者基于随机森林机器学习模型设计了UCBShift-1.0和-2.0化学位移预测算法,如图1所示,该算法由UCBShift-Y和UCBShift-X两个模块组成。作者使用了scikit-learn包中实现的Extra Tree回归器和随机森林回归器。首先通过在训练集上进行3折交叉验证,使用TPOT对超参数进行初步优化,然后通过50个随机选择的结构组成的时间验证集进行微调。除非另有说明,后文中的UCBShift均指UCBShift-2.0。


UCBShift-Y组件(图1中的蓝色路径)基于序列和结构相似性,将参考数据库中的实验化学位移转移到查询蛋白质。这个思路类似于SHIFTX2预测器中的SHIFTY+模块,即当序列与查询蛋白质的序列完全相同或高度匹配时,从蛋白质数据库中转移实验化学位移。UCBShift-Y还利用结构相似性,它会过滤掉那些具有高序列相似性但结构显著不同的蛋白质的不匹配化学位移,或者在序列比对较差但结构相似性显著的情况下的化学位移。


UCBShift-X预测算法(图1中的紫色路径)使用特征向量,并依次采用Extra Tree回归器(R0)和随机森林回归器(R1)。第二个随机森林回归器(R2)整合了特征向量、R1回归器和UCBShift-Y的次级位移输出,以及指示比对质量的额外分数和覆盖率指标。最终的化学位移预测要么由R1生成(如果没有UCBShift-Y预测),要么由R2生成(如果有UCBShift-Y预测)。在化学位移预测的最后一步,随机卷曲(coil)值被加回到次级位移预测中。每种原子类型的化学位移都是单独训练的。


增强数据集的准备

原始的 UCBShift-1.020 的训练集是通过整合 SPARTA+ 和 SHIFTX+ 的训练集与测试集形成的一个综合数据集。为了预测蛋白质侧链化学位移,作者进一步将来自 BMRB 的化学位移数据加入此数据集中。BMRB 的化学位移数据使用重新参考的蛋白质化学位移数据库(RefDB)重新参考至高分辨率的 X 射线结构中。训练和测试使用的化学位移实验数据的最终数量列于表1。

表 1


训练集和测试集的结构从 RCSB 数据库下载,并通过 PDB2PQR 软件进行质子化处理。作者选择该算法是因为它支持基于 pH 值对可离子化残基进行 Propka 质子化处理。在 PDB2PQR 质子化之前,作者使用 REDUCE 软件优化了可调质子(如 OH、SH、+ NH3、Met-CH3)以及不明确的 Asn、Gln 和 His 侧链取向。研究表明,BMRB 数据库中存在分配错误的情况。作者对训练集和测试集进行了筛选,去除了偏离特定残基平均值 6 ppm 和 12 ppm 以上或以下的氢原子和碳原子的异常值。采用如此高的阈值是为了按照原始 UCBShift-1.0 中“真实世界”数据的理念,仅过滤掉错误分配的位移。


UCBShift对侧链原子类型进行化学位移预测的性能

表 2


表2显示了使用UCBShift和SHIFTX2模型对侧链原子类型进行化学位移预测的平均绝对误差(MAE)、均方根误差(RMSE)、皮尔逊相关系数(R)和改进因子。数据表明,UCBShift在所有侧链原子类型上都持续优于SHIFTX2,碳和氢的平均改进分别约为0.28 ppm和0.03 ppm。与SHIFTX2不同,UCBShift能够预测氮的化学位移,平均MAE为0.99 ppm。区分各个氨基酸的更详细结果也显示在所有类型的核上都优于SHIFTX2。值得注意的是,作者使用了UCBShift预测的"测试模式"标准,该标准排除了与查询序列相似度超过99%的序列,而SHIFTX2的测试数据可能包括100%相似度的情况。尽管存在这个小劣势,总体而言UCBShift在侧链化学位移预测方面表现更加稳定。

图 2


与通常由二级结构决定的主链二面角相比,蛋白质侧链表现出更大的灵活性。这种更高的灵活性导致存在多个旋转异构体状态,使得侧链化学位移的准确预测更具挑战性。在图2中,作者提供了使用UCBShift和SHIFTX2对化学位移准确性的更详细比较,以CG和CD1侧链原子为例,这些原子在表1中显示具有最大量的测试数据,并且存在于许多氨基酸侧链中。如图2a所示,SHIFTX2预测倾向于聚集在氨基酸随机卷曲值周围,而不是准确反映每种氨基酸和环境范围的实验化学位移值分布。然而,如图2b所示,UCBShift模型似乎更好地解释了每种氨基酸类型内的位移变化,提供了更符合CG观察到的实际位移分布的预测。


另一个例子是,作者在图2c-e中基于χ2二面角识别了异亮氨酸残基CD1化学位移的三个构象簇,其中χ2 = -60°的构象已被报道对应于约11.4 ppm的化学位移值。然而,图2c显示,χ2 = -60°以及χ2 = 180°簇中CD1化学位移的广泛实验分布表明溶液中可能存在多种构象状态。作者观察到UCBShift预测器能更好地捕捉每个几何簇内化学位移的大范围分布,而SHIFTX2无法预测实验数据中观察到的簇内CD1位移的相同分布。此外,如图2f,g所示,UCBShift在异亮氨酸的CD1位移的预测值和实验值之间显示出更好的相关性。其他原子类型(如CG2)以及仅由UCBShift预测的氮也观察到类似的趋势。


UCBShift预测不同氨基酸类型的碳原子和氢侧链原子化学位移时的性能

图 3


图3中的柱状图总结了UCBShift在预测不同氨基酸类型的碳原子和氢侧链原子化学位移时相比SHIFTX2的性能提升。UCBShift对所有氨基酸的总体均方根误差都有系统性的改进。组氨酸在碳原子化学位移预测方面表现出特别明显的提升,这归因于UCBShift对质子化状态的有效处理。酪氨酸的误差也显著降低。UCBShift在训练数据较少情况下的出色表现可归因于其开发过程中使用了更大的训练集(851个结构),而SHIFTX2仅使用了197个结构。


UCBShift相对于SHIFTX2性能提升的原因

接下来作者分析UCBShift相对于SHIFTX2性能提升的原因。UCBShift的X模块在大多数C和H侧链化学位移测试数据上相对于SHIFTX2有小幅度的性能提升,尽管也存在一些例外。然而,UCBShift成功的更显著因素似乎在于Y模块的预测结果。因此,当有任何类型的同源性数据和已分配的实验化学位移时,与单独使用UCBShift-X组件相比,侧链碳原子的平均化学位移MAE可改善0.5 ppm,侧链氢原子可改善0.2 ppm。


作者认为Y模块的整体性能改进有几个共同贡献的因素组成。首先是比早期SHIFTX2研究拥有更多的训练数据,特别是更多的序列/结构同源性数据,这些数据可以被更复杂的R2回归器更好地利用(见图1)。为了验证这种可能性,作者还使用原始SHIFTX2数据集重新训练了UCBShift模型,如表S7所示。这表明UCBShift算法的优势不仅来自扩大的数据集,还来自更好的算法。此外,平均而言,使用静态晶体结构提取的特征无法完全表示溶液NMR实验,其中替代的实验化学位移能更好地表示X模块中无法获得的热波动和可变化学环境的时间平均。最后,由于约75%的数据具有可用的同源性,UCBShift被训练为更多地依赖机器学习算法的这一组件。


这并不意味着特征提取数据不重要,因为R2回归器不仅考虑了序列比对,还考虑了直接特征数据以及额外树回归器R0(见图1)。在表S6中,R2回归器在CG、HB、HB2/HB3、HD21/22、HE21/22原子类型的MAE方面表现优于UCBShift-Y,并通过降低RMSE消除了许多原子的异常值。R2回归器在氢原子HD21/22、HE21/22上的性能提升尤其值得注意,因为Y模块的性能不足可能源于前文讨论的天冬酰胺和谷氨酰胺中这些氢原子的错误分配。作者还构建了一个低同源性测试集,包含59个与训练集序列相似度为50%或更低的蛋白质。表S8显示,UCBShift在这个更严格的低同源性测试集上优于SHIFTX2,这也证明了X模块同样重要。

编译|黄海涛

审稿|王梓旭

参考资料

Ptaszek, A. L., Li, J., Konrat, R., Platzer, G., & Head-Gordon, T. (2024). UCBShift 2.0: Bridging the Gap from Backbone to Side Chain Protein Chemical Shift Prediction for Protein Structures. Journal of the American Chemical Society.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章