DRUGAI
今天为大家介绍的是来自david baker团队的一篇论文。蛋白质DDPM(去噪扩散概率模型)用于从头生成蛋白质骨架,但在引导具有特定序列属性和功能特性的蛋白质生成方面存在局限性。为了解决这一问题,作者开发了ProteinGenerator (PG),这是一种基于RoseTTAFold的序列空间扩散模型,能够同时生成蛋白质序列和结构。PG从一个加噪的序列表征开始,通过迭代地去噪来生成符合预期序列和结构特性的蛋白质序列和结构对。作者设计了具有不同氨基酸组成和内部序列重复的热稳定蛋白,并构建了具有生物活性的笼型肽(cage peptide),例如蜂毒肽。通过在不同结构约束的扩散轨迹之间平均序列logits,作者设计了多状态的亲代-子代蛋白三元组(parent–child protein triples),其中相同的序列在完整的亲代蛋白中折叠成不同的超二级结构(supersecondary structures),而在两个子结构域中则表现不同。PG的设计轨迹可以通过实验的序列-活性数据进行引导,为蛋白质功能的计算和实验优化提供了一种通用的方法。
蛋白质功能来源于序列和结构特征的复杂相互作用,因此,设计新的蛋白质功能需要同时考虑序列和结构空间。许多蛋白质设计方法将结构和序列分开采样,通常先生成蛋白质骨架(也叫作主链),然后使用反向折叠方法生成序列。传统方法,例如Rosetta柔性骨架蛋白设计,结构和序列的设计是交替进行的,而最近基于深度学习的方法通常先生成骨架,再使用序列设计方法(如ProteinMPNN)来识别能折叠成给定骨架的序列。
在深度学习方法中,去噪扩散概率模型(DDPMs)在连续型数据的领域显示了相当大的潜力,能够在多种结构约束下生成蛋白质骨架。DDPM通过学习对受高斯噪声污染的样本进行去噪,来近似数据分布的概率密度函数,从而可以生成高质量样本;然而,它们在文本和蛋白质序列等离散型数据的领域应用较少。尽管这些基于结构的方法(如RFdiffusion和Chroma)非常强大,但在两方面内比较受限:1、通过序列特征引导蛋白质生成2、识别具有多种折叠和/或功能的序列。
另外一种方法则是通过对结构预测网络应用激活最大化(activation maximization)的幻觉(Hallucination)方法,其可以生成序列-结构对,还无需额外训练,但该方法是对抗性的,并且需要大量步骤才能收敛。为了在实验中取得稳定地成功,还需要对这些幻觉生成的骨架进行后续的序列设计。
图 1
作者认为在序列空间中扩散,能够使用到序列特征来引导设计,并显式设计能够占据多个状态的序列。为了能够同时在序列和结构特征上进行约束,作者从RoseTTAFold结构预测网络出发,像处理RFdiffusion一样,将其视为从输入的序列和结构信息到输出的序列和结构的映射(如图1a所示)。作者推测,RoseTTAFold可以通过对蛋白质数据银行(PDB,http://www.rcsb.org/)中的蛋白质序列加入噪声,并训练去除噪声,同时对结构预测准确性施加损失,来适应序列空间扩散,从而确保模型能够深入理解序列和结构。
离散DDPM的实现与微调
作者在离散空间中实现了扩散和数据加噪,方法是将蛋白质序列表示为缩放的独热编码(对于原生序列,真值设为1,其他值设为-1),并通过线性层进行嵌入,从而允许使用高斯噪声N(μ = 0, σ = 1)逐步对序列加噪。与在可学习的嵌入空间中进行扩散相比,这种方法的优势在于简化了原始序列分类器在引导过程中的使用。为了微调RoseTTAFold,作者将蛋白质序列根据平方根时间表逐步加噪,并输入相应的时间步和结构信息(如果需要的话),训练模型的损失函数分别为两个:1、对预测的序列施加分类交叉熵损失(相对于真实序列)2、对预测结构施加FAPE结构损失。
研究发现,self-conditioning可以提高训练和推理的表现。蛋白质生成从一个L×20维的高斯噪声序列和一个黑洞初始化的结构开始;在每个时间步(xt),模型从xt预测x0,然后x0再次被加噪为xt−1(图1b)。序列引导可以与x0结合,利用活性数据、特定序列势能或其他信息将模型引导至受约束的序列空间(图1b)。输入序列中的固定基序(motif)通过额外的token进行特征化,以标记该位置的序列未进行扩散。二级结构的条件信息通过一维轨道(track)传递,而三维坐标通过二维轨道中的对特征和三维轨道中的坐标进行嵌入。这三个轨道中的嵌入通过RoseTTAFold架构中的交叉注意力机制进行连接,使得一维轨道中的输出序列能够为其他轨道提供条件化信息。
在推理过程中,作者从xt中获取x0,并通过对x0加噪生成xt−1。作者发现采样xt−1 ~q(xt−1 | x0) 比从xt−1 ~q(xt−1 | x0, xt) 采样更加有效。ProteinGenerator (PG) 在无条件设计的准确性方面表现优于早期的幻觉方法,并且在从不同的高斯混合模型中采样时生成结构多样的蛋白质。PG能够轻松设计支持特定结构基序的蛋白质;AlphaFold2 (AF2) 预测的结构准确地重现了设计(设计与实际结构的均方根偏差RMSD < 2,基序RMSD < 1,AF2 pAE < 5),无论是基序还是完整设计都表现出高精度。RFdiffusion+MPNN在基序支架设计和无条件生成较大蛋白质方面表现更好。通过ESM伪困惑度衡量的PG序列质量与从UniProt中采样的天然序列无明显差异,且显著高于使用640百万参数的序列扩散模型EvoDiff生成的序列。
使用PG进行无条件生成时,得到的序列-结构对的氨基酸组成与天然蛋白质相似。AF2和ESMFold对生成序列的结构预测与设计结构非常接近且具有较高置信度(6%的设计具有AF2置信度pLDDT > 90,且RMSD < 2 Å)。作者通过实验对无条件生成的70-80残基蛋白质进行了表征,测试了其溶解性和单体性(通过体积排阻色谱法SEC)、折叠情况(通过圆二色光谱CD)、以及稳定性(通过CD热熔解)。在实验测试的42种蛋白质中,32种通过SEC显示具有良好的溶解性和单体性,CD实验表明这些蛋白质具有设计的二级结构,并且在高达95°C的条件下依然稳定。
设计富含稀有氨基酸的蛋白质
图 2
在序列空间中进行扩散的一个优势是可以轻松实现并应用基于序列的引导函数。为了评估PG在PDB训练分布之外推理序列-结构关系的能力,作者试图设计富含进化上较少采样的氨基酸的蛋白质,这些氨基酸赋予蛋白质结构或功能特性(图2a)。根据所需的氨基酸含量规格,在每一步去噪时,作者会根据目标氨基酸的频率对序列位置进行排序,并对前N个位置(N为目标氨基酸的期望出现次数)施加偏向目标氨基酸的更新,以生成xt−1。作者使用这一程序生成了富含色氨酸、半胱氨酸、缬氨酸、组氨酸和蛋氨酸的蛋白质(氨基酸组成占比20%)(图2b),这些序列与天然蛋白质的序列差异很大(图2c)。生成的设计经过筛选,以确保具有较高的AF2置信度(pLDDT > 90)和自洽性(设计的RMSD < 2 Å),并选择了96种蛋白质进行实验表征。
在这些表达的设计中,68种在大肠杆菌中是可溶的,且5种富集半胱氨酸的蛋白质中有4种、19种富集色氨酸的蛋白质中有8种、22种富集缬氨酸的蛋白质中有19种、12种富集组氨酸的蛋白质中有10种、10种富集蛋氨酸的蛋白质全部被SEC确认是单体。对部分单体设计进行了CD光谱分析,结果表明所有情况下的二级结构与设计一致,且具有热稳定性(图2e-h)。在序列层面引导富集半胱氨酸的设计使得每个蛋白质形成3到4个二硫键,且无需进行结构条件设定,这在50 mM的TCEP还原剂存在与否下通过质谱分析得以证实(图2e)。富集色氨酸的蛋白质在280 nm处表现出高吸光度,并具有螺旋型CD曲线(图2f)。富集缬氨酸的蛋白质通过CD显示出更高的β折叠含量,这与缬氨酸的二级结构倾向一致,且这些蛋白质具有热稳定性(图2h)。这些结果表明,模型能够在超越天然蛋白质序列组成的基础上,推理序列-结构关系,设计出具有预期序列特性且折叠良好、具有热稳定性的蛋白质。
作者进一步探索了具有预先指定电荷组成、等电点和疏水性的蛋白质生成。作者通过实现基于序列的势能来引导扩散过程,使生成的蛋白质具备这些特性,从而能够精细控制输出序列的物理性质。这种方法能够设计出具有用户定义范围内疏水性(图2c)和等电点的蛋白质。PG在骨架生成过程中控制序列特性的能力,对于提升治疗候选药物的可开发性具有重要意义。
设计内部序列重复的蛋白
图 3
重复蛋白质在自然界中广泛存在,包含多个串联的序列-结构单元,在分子识别和信号传导中发挥着核心作用。之前的重复蛋白设计工作通常需要预先指定结构特征或进行昂贵的马尔可夫链蒙特卡洛(MCMC)计算。作者推测,PG可以被轻松改造,只需提供重复单元的序列长度和所需的重复次数,通过在每个时间步对噪声序列分布应用重复对称性(图3a),就能生成重复蛋白。采用这种方法的无条件生成主要产生了β螺旋结构。为了进一步探索,作者对PG进行了训练,使其能够以二级结构为条件,并通过设定二级结构约束,生成了广泛的全α、全β和混合α/β的设计(图3b)。
作者为部分设计添加了螺旋帽,以提高稳定性并减少聚集。实验表征了74种带螺旋帽和86种不带螺旋帽的重复蛋白,其中27种带螺旋帽和10种不带螺旋帽的蛋白质通过SEC确认是可溶且为单体,8种使用圆二色光谱评估的蛋白质中有7种表现出预期的二级结构(图3b)。作者解析了一个由四螺旋束不对称单元组成的五重复单元设计的晶体结构,发现该设计具有原子级精度:整个结构与晶体结构的C RMSD为1.38 Å,不对称单元的C RMSD为0.47 Å(图3c和表1)。
表 1
设计用于膜裂解的条件性活跃“多肽笼”
图 4
设计根据外部输入条件来决定活性的蛋白质在治疗药物、具备时空控制的生物传感器的设计中具有重要意义。作者想使用PG解决这一问题,通过在惰性蛋白笼内支架活性肽序列(图4a),指定蛋白质链的某一区域(通常是N或C端)固定在活性肽序列上,并对其余序列进行自由扩散。与之前的LOCKR传感系统不同,后者要求活性序列必须是螺旋构象,并与笼的支架进行特定相互作用,而在此设计中,肽的结构和支架的结构无需预先指定,从而能够囊括更广泛的肽序列(图4b)。
在给定肽序列和支架长度的情况下,PG生成的设计包含肽序列作为蛋白质结构的组成部分,并预测其折叠后的pLDDT大于85,RMSD小于2Å(图4c)。作者使用这种方法设计了一个成孔蜂毒肽(pore-forming peptide melittin)的蛋白质,能够在末端环的蛋白水解裂解后被条件性释放。作者指定了含有邻近的furin裂解位点的活性肽蜂毒肽序列,并通过二级结构设定,将肽支架在一个螺旋束中,并将裂解位点置于一个环中以改善蛋白酶的可及性(图4b)。由于多个约束,这需要增加采样和筛选。尽管蜂毒肽在孤立状态下无序,PG仍然生成了使蜂毒肽序列呈现螺旋结构的解决方案,作者随后对其进行了实验测试。在13个实验表征的设计中,有5个通过SEC确认具有溶解性和单分散性,通过CD确认折叠为螺旋二级结构并具有热稳定性(图4e, f)。作者延长了裂解环,并插入界面精氨酸突变以促进肽在裂解后解离(图4f)。在加入furin蛋白酶后,从−18 kD到−15 kD的带移表明蜂毒肽笼的裂解(图4g)。质谱分析确认了完整的蜂毒肽的释放(图4h)。为了测试笼内蜂毒肽蛋白的条件性膜裂解,作者将红细胞与设计D12在有无furin蛋白酶的条件下共同孵育,并通过测量450 nm的吸光度来定量来自裂解红细胞的血红素。在furin蛋白酶预孵育的样品中,呈现鲜红色,表明发生了膜裂解,而在无furin处理的样品中几乎没有观察到裂解现象(图4l)。由于furin等内源性内体蛋白酶的生物利用度,作者预期笼内肽的设计将为内体逃逸提供途径。
多状态蛋白质设计
设计一种氨基酸序列,在外部触发下能够呈现不同的结构构象是一项具有挑战性的任务,因为能量景观必须包含两个离散的极小值,且自由能差异足够小,以便触发状态转换。作者推测,PG适合显式的多状态设计,因为在序列扩散过程中,可以从多个依赖条件的结构约束中进行引导。为了使PG适应多状态设计,作者将相同的序列输入到RoseTTAFold中,但使用不同的结构条件信息,并将输出的logits进行线性组合,作为输入给下一个时间步。
图 5
作者使用这种方法设计了蛋白质序列,这些序列在单链连接(亲本)时采用不同的折叠,而在被蛋白酶剪切为两条链或分别表达时(子代A和子代B),则采用不同的构象(图5a)。在每个时间步xt,作者使用RoseTTAFold对全长亲本序列以及剪切产物子代A和子代B进行建模,并对生成的logits进行平均处理后加噪生成xt−1(图5b=)。DSSP特征被附加到每个家族成员的L×20序列表示中,以实现蛋白质二级结构的条件设定(图5b)。作者使用这种方法生成了多状态序列(MS),这些序列在亲本状态下设计为采用特定的ɑ/β折叠,而在子代状态下则采用不同的全α螺旋折叠;由于问题的复杂性较高,这比上述单序列设计问题需要更多的采样。
作者对72个AF2预测具有高置信度和准确性的亲代-子代三元组进行了实验表征,这些设计在完整状态下处于亲代状态,分裂后处于子代状态,并选择了4个(MS1–MS4)可溶且分散的序列家族进行详细的CD和核磁共振(NMR)研究。二维1H-15N酰胺的HSQC光谱显示,所有MS1–MS4的亲代和子代蛋白均为良好折叠的球状蛋白。所有子代的CD光谱与全α蛋白一致;光谱解卷积表明亲代蛋白中含有更多的β折叠(图5c,中排)。
由于CD对二级结构的估算可能不完全准确,作者利用NMR化学位移受局部二级结构影响的事实,区分主要为α螺旋与β折叠蛋白的平均化学位移(ACS)值。正如预期的那样,所有亲代设计的1H和15N ACS值相对于两个相关子代都向下场偏移(图5d,黄色虚线箭头),而子代则向上场偏移至与α螺旋蛋白相关的参考区域(图5d,红色虚线箭头)。MS1–MS3子代A和子代B的NMR峰相对于亲代的化学位移位置明显不同,表明它们采用了不同的折叠(图5e, f)。综上所述,这些数据表明,正如设计的那样,子代序列折叠成了与亲代设计不同的ɑ螺旋超二级结构。
编译|黄海涛
审稿|王梓旭
参考资料
Lisanza, S. L., Gershon, J. M., Tipps, S. W., Sims, J. N., Arnoldt, L., Hendel, S. J., ... & Baker, D. (2024). Multistate and functional protein design using RoseTTAFold sequence space diffusion. Nature Biotechnology, 1-11.