蛋白质去噪扩散概率模型(Denoising Diffusion Probabilistic Models, DDPM)能够高效的生成满足特定性质和功能需求的新型蛋白质,在蛋白质设计领域具有重要价值。尽管当前诸多模型,如RFdiffusion【1】和Chroma【2】已在蛋白质三维结构的生成方面展现出优秀的性能,但在生成具有序列特异性和功能特性的蛋白质方面仍面临挑战,并且这些模型往往需要大量的时间和计算资源进行训练。针对这一难题,华盛顿大学David Baker团队提出了新的解决方案。他们认为在序列空间中进行扩散能够更加有效地从目前大量蛋白质序列数据中学习到更多知识。因此,研究团队开发了一种基于RoseTTAFold的序列空间扩散模型ProteinGenerator(ProteinGenerator),能够生成符合性质要求的蛋白质序列和结构。随后,研究团队进一步通过该模型成功设计了多个不同功能的蛋白质。近日,该研究成果以“Multistate and functional protein design
using RoseTTAFold sequence space diffusion”为题,发表于Nature Biotechnology期刊上【3】。ProteinGenerator的模型架构如图1所示,模型以独热编码(one-hot code)的形式将蛋白质序列映射到高维的连续序列空间中,并不断进行扩散。而在轨迹推理过程中,ProteinGenerator会通过RoseTTAFold预测序列的三维结构,从而同时将噪声序列(Xt)以及蛋白质的结构约束(Yc)的嵌入进行混合并通过多次的去噪过程,得到蛋白质的序列和三维结构。蛋白质的序列还会通过argmax的操作,被映射回天然的蛋白质空间,得到最终的蛋白质序列。图1. ProteinGenerator的模型架构示意图。蛋白质序列会被映射到高维空间中,在推理阶段将结合序列以及结构条件,预测蛋白质序列及对应结构。ProteinGenerator的推理轨迹如图2所示,每一次的推理过程中,ProteinGenerator都会根据序列指导如(净电荷、蛋白质疏水性、活性以及氨基酸组成等)以及结构限制如(二级结构、三维坐标)进行推理,经过多次迭代后最终得到符合预期要求的蛋白质序列与结构。图2. ProteinGenerator的推理轨迹示意图。在扩散过程的每一步中,序列X0由序列Xt结合结构信息,序列偏差和噪声生成Xt-1时刻下的序列和结构,重复该过程T次后得到。ProteinGenerator使用PDB数据库的序列-结构数据对进行训练,训练过程涉及在区间[0,
T]内均匀采样时间步t,并逐步向原始序列X0添加噪声,直至获得完全由高斯噪声组成的序列XT。模型的主要目标是预测未加噪的序列X0及其相应的结构。在损失函数的设定上,研究者采用了分类交叉熵来评估序列预测的准确性,并引入了包括FAPE、键长、键角等在内的多种结构损失的计算方法,从而对结构预测的性能进行评估。此外,模型还采用了自调节(self-conditioning)机制,允许在训练和推理阶段基于前一个时间步的预测结果和反向计算的Xt-1作为条件进行预测。为了提升模型的泛化能力和鲁棒性,研究者还采用了多任务学习策略,将标准的扩散任务与结构预测任务以及固定骨架序列设计任务相结合。这种策略有助于确保模型在扩散过程中能够维持序列与结构之间的一致性,从而提高整体预测的准确性。3.ProteinGenerator在蛋白质设计的应用3.1富含稀有氨基酸蛋白质的设计
为了评估ProteinGenerator在训练数据分布之外对序列-结构推理的能力,研究者希望能够设计富含在进化过程中采样不足,但具有结构或功能特性氨基酸的蛋白质。因此研究者通过ProteinGenerator生成含有高频率稀有氨基酸(色氨酸、半胱氨酸、缬氨酸、组氨酸、甲硫氨酸)的蛋白质,这些蛋白质的序列与天然蛋白质的序列有明显差异。研究者随后对生成的序列进行了筛选,在确保这些序列经AlphaFold2预测所得结果具有高置信度的情况下,挑选了96个序列进行实验表征。如图3所示,ProteinGenerator能够超越天然蛋白质样序列组成,对序列-结构关系进行推理,设计出具有所需序列特性的折叠且热稳定的蛋白质。图3. 富含稀有氨基酸蛋白质的设计。(a)(b)无条件序列和稀有氨基酸序列中稀有氨基酸的频率以及在空间中的分布;(c)根据疏水性要求生成的序列与无条件序列的疏水性分布;(d)(e) 稀有氨基酸序列的圆二色谱(CD)及熔点测试结果,其中灰色和紫色分别为ProteinGenerator生成的结构和AlphaFold2预测结果。3.2重复蛋白的设计
重复蛋白包含大量序列-结构单元的串联拷贝,在分子识别和信号传导中发挥重要作用。设计该类蛋白通常需要人为地预先规定结构特征或通过马尔科夫蒙特卡洛进行计算,往往会耗费大量的时间和计算资源。而对ProteinGenerator进行微调,通过在每个时间步对噪声序列分布应用重复对称性,并通过指定二级结构进行约束,即可快速生成重复蛋白。研究者通过实验表征了ProteinGenerator生成的74种带帽重复蛋白和86种不带帽重复蛋白。其中27种带帽重复蛋白和10种不带帽重复蛋白能够通过体积排阻色谱(SEC),并且是可溶的单体。圆二色谱结果表明测试的8种蛋白中有7种具有预期的二级结构。图4. 重复蛋白的设计。灰色结构和紫色结构分别代表ProteinGenerator和AlphaFold2所预测的结构,粉色代表结构中非对称的部分。3.3生物活性肽笼的设计
设计根据环境条件进行激活功能的蛋白质对于药物设计等领域非常具有吸引力,因此研究者进一步利用ProteinGenerator设计了一种含有蜂毒肽的活性肽笼,活性肽笼在经弗林蛋白酶切割后会将内部的蜂毒肽进行释放。对于ProteinGenerator而言,只需要指定具有特定功能的序列和条件,并让其他序列进行自由扩散,就能够生成在特定条件下释放具有预期功能蛋白质的活性肽笼。图5. 含有蜂毒肽的活性肽笼设计。(a)
(b)ProteinGenerator生成活性肽笼的原理;(c)活性肽笼的结构,其中粉色代表用于下游分析的肽段D12;(d)(e)活性肽笼相关肽段裂解前后的验证。3.4多状态蛋白质的设计
研究者最后还探究了ProteinGenerator在对同一个蛋白质序列生成不同构象方面的潜力。为了适应该任务目标,研究者向RoseTTAFold输入了相同的序列但不同的结构条件信息,并将输出逻辑值的线性组合作为下一个时间步的输入。最终ProteinGenerator生成了父序列与子序列具有不同折叠方法的蛋白质序列。研究者通过实验表征了72个父-子三联体,这些三联体在完整时处于父状态,在分裂时处于子状态。他们选择了4个可溶的单体序列家族(MS1-MS4)进行圆二色谱(CD)和核磁共振(NMR)测试。实验结果表明,所有MS1-MS4的父序列和子序列均具有良好的折叠性,且在分裂时发生了大规模的结构重排,与设计预测相符合。图6. 含有蜂毒肽的活性肽笼设计。(a)
(b)ProteinGenerator生成多状态蛋白质序列的原理和过程;(c)MS1各个状态下二级结构的占比;(d)MS1-MS4中父结构和子结构对应的化学位移;(e)(f)MS1与MS3生成父序列与子序列的结构以及对应的NMR结果。总结
ProteinGenerator模型通过在序列空间进行扩散,结合RoseTTAFold预测的三维结构信息,生成具有预期结构和功能的蛋白质序列。大量的实验证明ProteinGenerator能够处理多种复杂的蛋白质设计任务,如生成富含稀有氨基酸、重复蛋白、设计生物活性肽笼以及多状态蛋白质。其高效性、灵活性和可扩展性使得ProteinGenerator模型在蛋白质设计领域具有广泛的应用前景。为药物设计、生物传感器开发以及定向进化实验等领域提供了新的工具和方法。
参考文献
[1] Watson J L, Juergens
D, Bennett N R, et al. De novo design of protein structure and function with
RFdiffusion[J]. Nature, 2023, 620(7976): 1089-1100.
[2] Ingraham J B,
Baranov M, Costello Z, et al. Illuminating protein space with a programmable
generative model[J]. Nature, 2023, 623(7989): 1070-1078.
[3] Lisanza S L, Gershon
J M, Tipps S W K, et al. Multistate and functional protein design using
RoseTTAFold sequence space diffusion[J]. Nature biotechnology, 2024: 1-11.