蛋白质的生理功能依赖不同蛋白构象之间的相互转化,因此理解这些构象转变对于药物设计至关重要。传统的实验技术(如核磁共振、冷冻电子显微镜等)虽然能够捕捉蛋白质的某些构象状态,但在解析瞬时高能构象或构象景观方面仍然存在局限性。高通量晶体学药物片段筛选提供了一种通过外界扰动探索蛋白质构象景观的手段,通过向目标蛋白添加小分子片段以得到不同构象。然而,如何从这些海量的晶体结构数据中系统地提取并分析蛋白质的构象变化仍是当前研究中的重要挑战。最近,哈佛大学Doeke R. Hekstra小组针对这一问题,发展了一个名为 COLAV(COnformational LAndscape Visualization)的开源工具。COLAV 利用三种构象表征方法:链二面角、Cα原子对间距离和应变分析,从大量晶体结构中提取蛋白质的构象变化信息。随后通过主成分分析(PCA)等降维技术,COLAV 构建蛋白质的低维构象景观图谱,识别出蛋白质的主要构象状态及其动态转换路径。该项研究近期发表在计算化学领域著名期刊Journal of
Chemical Information and Modeling上【1】。1. 方法概述
在高通量药物片段筛选中,可以获取蛋白与不同片段结合时的构象信息(以 PDB 文件形式保存),COLAV首先使用以下三种表征方式描述构象以及构象间的变化:①主链二面角,提取蛋白质主链的ϕ、ψ和ω角,通过计算其正弦和余弦值,将周期性特性线性化。这种方法能高效地捕捉局部主链动态,特别适用于分析单个残基或特定区域(如活性位点环或柔性环)的构象变化;②Cα原子对间距离,计算蛋白质Cα原子间的两两距离,以捕捉全局构象变化。这种表征方式适用于识别整体运动模式,如亚稳态结构之间的相互变化;③应变分析,基于局部原子相对位移的梯度张量计算离散化的应变和剪切伪能量,聚焦于构象转变中的局部变形。应变分析对检测关节点和耦合运动特别敏感,能够忽略刚体运动或等向膨胀与收缩对分析的干扰。这些表征方式分别捕捉了局部动态、全局运动和区域性变形的特征,为后续分析提供了全面的结构信息输入。随后COLAV通过主成分分析(PCA)对高维构象表征数据进行降维,将蛋白质的复杂动态压缩到少数主成分(PCs)上,以揭示主导构象变化的关键特征。此外,还应用t-SNE 和UMAP 等非线性降维技术进一步验证 PCA 结果,确保降维方法的稳定性和准确性。在低维空间中,研究利用k-means聚类方法对蛋白质的构象状态进行聚类,并通过计算残基贡献量化不同残基在构象变化中的重要性。最后,COLAV使用降维结果构建低维构象景观图谱,从中识别重要的过渡态和转换路径。2. 方法验证
作者选取了蛋白酪氨酸磷酸酶1B(PTP1B)和SARS CoV-2主蛋白酶(MPro)两个体系进行方法验证。首先收集各自体系在药物片段筛选数据库中的构象结构和PDB数据库中对应的全部蛋白结构,合并两个数据集后使用COLAV方法进行蛋白构象景观图谱的搭建,通过对该方法分析出的过渡态和转化路径进行评估来验证COLAV方法中蛋白构象表征方法的有效性。除此之外,该研究还分别使用片段筛选生成的数据集和完整PDB数据集构建蛋白的构象景观,并通过主成分分析比较两者的相似性,以此证明基于片段筛选生成的结构数据可以生成合理的蛋白构象景观图谱。在对PTP1B体系的研究中,通过使用COLAV方法对全部结构数据进行分析(图 1),发现PTP1B蛋白的WPD Loop和L16 Loop分别可以形成“开”和“关”的构象状态,并由此整体呈现出两个主要的构象簇,这些构象簇与蛋白的催化活性密切相关。PCA分析结果表明,WPD Loop的运动主要决定了第一个主成分,而L16 Loop和α7螺旋的协同运动则定义了第二主成分。这种协同作用说明L16 Loop可能通过与WPD Loop的相互作用参与构象调控。进一步比较片段筛选数据与完整 PDB 数据集的构象景观发现(图2),两者的主成分变化趋势高度一致,表明片段筛选数据在重建蛋白质动力学特性方面具有较高的可靠性。然而,对于某些低频构象状态(如极端构象或罕见的中间态),片段筛选数据仍存在覆盖不足的情况。图1:COLAV对PTP1B体系全部数据的分析结果(a,b,c分别为三种表征方式两两组合降维可视化后的结果)
图2:COLAV方法对PTP1B体系不同数据集进行分析的结果对比(a:全部数据集对比片段筛选数据集;b:PDB数据集对比片段筛选数据集)
在对MPro体系的研究中,通过使用COLAV方法对全部结构数据进行分析(图 3),发现MPro的构象景观以连续的分布为主,而非明显的聚类状态,这种特性反映了其构象的柔性以及不同区域间的协同运动特性。PCA分析结果表明,活性位点区域的闭合与开放运动决定了第一个主成分,而远端表面区域的相对运动则决定了第二主成分。这些主成分的变化揭示了活性位点与远端区域之间可能存在的功能耦合关系。进一步比较片段筛选数据与完整PDB数据集的构象景观发现(图4),两者的主成分趋势高度一致,表明片段筛选数据在捕捉全局构象变化中的表现具有较高的可靠性。同时,片段筛选数据成功捕捉到了活性位点闭合与远端区域运动之间的协同作用。 图3:COLAV对PTP1B体系全部数据的分析结果
图4:COLAV方法对MPro体系不同数据集进行分析的结果对比(a:全部数据集对比片段筛选数据集;b:PDB数据集对比片段筛选数据集)
最后,研究通过随机采样片段筛选数据验证数据规模对构象景观完整性的影响。即使将样本量减少至原始数据的25%,主要构象变化仍能被有效重现。这一结果表明,即使片段筛选数据较为有限,该方法仍能捕捉到关键的动态特征,验证了其高效性和鲁棒性。小编总结:绘制蛋白构象景观图谱的常用方法是在分子动力学模拟中对蛋白结构施加微扰并记录蛋白结构的变化,这种方法需要消耗大量的计算资源。本研究发展了一种使用现有实验结构生成蛋白构象景观图谱的方法,仅用药物片段筛选得到的有限蛋白结构即可分析出与蛋白功能相关的重要结构变化,为蛋白结构功能研究提供了一个有效工具。但由于片段筛选对蛋白构象空间的探索有限,该方法无法探索蛋白构象变化过程中罕见的过渡态,未来仍有一定的提升空间。
参考文献
[1] Ammaar A.
Saeed, Margaret A. Klureza, and Doeke R. Hekstra. Mapping Protein
Conformational Landscapes from Crystallographic Drug Fragment Screens. Journal
of Chemical Information and Modeling Article ASAP. DOI:
10.1021/acs.jcim.4c01380