天然蛋白质经过进化已经高度优化以实现其功能,但由于在异源系统中表达差、溶解度有限以及对热稳定性差,通常在异源系统中难以大规模生产。这些问题限制了蛋白质在生物技术中的应用,改善蛋白的稳定性已经成为一个研究热点。现有的方法如定向进化虽然能优化蛋白质的理化特性,但需要耗费大量资源和时间。因此,研究人员开发了许多优化工具。近期国际期刊《Journal of the American Chemical Society》刊登了一篇关于基于深度学习蛋白序列设计的文章(图1)。文章主要探讨了利用深度神经网络ProteinMPNN来优化天然蛋白质的表达、稳定性和功能的方法。
图1 Journal of the American Chemical Society刊登的该文章
ProteinMPNN是基于信息传递神经网络(MPNN)开发的,能够通过给定的蛋白质骨架结构找到正确折叠的氨基酸序列。它的功能是通过蛋白质骨架特征如Cα-Cα原子间距离、二面角等信息,生成预测的氨基酸序列。与传统的Rosetta(Rosetta的原理为基于物理的方法将序列设计视为能量优化问题,在给定的输入结构中寻找具有最低能量的氨基酸身份和构象的组合)相比,ProteinMPNN在序列恢复、计算效率和适用范围上具有显著优势。该方法广泛应用于单体、环低聚物、蛋白质纳米颗粒和蛋白质-蛋白质界面的设计。同时,ProteinMPNN生成的序列也具有更高的结晶倾向,能够促进结构学的发展。
图2 ProteinMPNN的功能模型图
使用ProteinMPNN稳定蛋白策略设计
作者的设计策略是使用ProteinMPNN生成的氨基酸序列被预测为能够折叠成给定的三维结构。为了保持蛋白原有的功能,他们固定了配体周围的氨基酸残基,以及保留多序列比对中高度保守的氨基酸残基,然后定义设计空间进行蛋白的设计。将蛋白质骨架结构和选的固定氨基酸残基信息输入到 ProteinMPNN 中,在ProteinMPNN 生成新的氨基酸序列,这些氨基酸序列仍然能够折叠成输入的蛋白质三维结构。而loop区域的骨架结构可以使用RoseTTAfold进行重构,进一步优化输入蛋白的结构匹配其功能(图3)。作者选取了肌红蛋白(myoglobin)和烟草花叶病毒(TEV)蛋白酶两种模型去开发ProteinMPNN优化天然蛋白质从而提高溶解度和稳定性的策略。
在TEV蛋白酶的设计实例的实例中,作者利用了进化信息以识别对活性至关重要的氨基酸残基并重新设计以提高其活性。在血红蛋白素的设计实例中,作者通过有限的蛋白质序列优化进一步稳定蛋白质的结构。这些序列设计完成之后,研究团队会利用AlphaFold2对生成的序列进行了结构预测,并根据预测结果的评价(依据与输入结构的最小似然值RMSD以及预测结构的pLDDT打分)筛选出了结构一致性较高的设计。
图3 ProteinMPNN优化蛋白表达和稳定性的设计策略
1
具体实例一
设计肌红蛋白变体增加蛋白稳定性
研究团队使用人类肌红蛋白nMb(PDB:3RGK)的晶体结构作为案例进行设计。他们首先固定了血红素结合结构中血红素配体周围的17个氨基酸位置(图4a,蓝色区域)。然后用ProteinMPNN生成了60个序列,并使用AlphaFold2进行预测评估,其中8个设计有高置信度。在血红素结合区选择了4个结构一致的设计进行实验测试。然后,研究团队挑选了保守性差的loop区利用RoseTTAFold joint Inpainting的功能进行重塑(图4a,黄色区域)。在这些重塑的骨架中,作者再次使用ProteinMPNN进行序列设计。在对结构预测指标进行筛选后,研究者选择了16个序列进行实验测试。所有20个测试的肌红蛋白设计与UniRef100数据库中最相似的蛋白(所有情况下都是肌红蛋白)具有41−55%的序列一致性。
在大肠杆菌中表达了编码设计和亲本序列nMb的合成基因,通过金属离子亲和层析(IMAC)和分子排阻色谱(SEC)纯化血红素负载的全蛋白。所有的变体在SEC上表现为单体(图4b)。与天然肌红蛋白相比,20个设计中有13个具有更高水平的总可溶性蛋白产量(高达4.1倍)(图4c)。所有20种设计都具有与天然肌红蛋白相似的血红素结合光谱。通过圆二色谱测试了8个高表达设计的二级结构以及热稳定性,这些变体在结构上与天然肌红蛋白一致,并表现出更高的热稳定性。研究表明,某些变体在95°C的温度下仍能保持完全折叠,而天然肌红蛋白在80°C时就会去折叠(图4d)。与天然肌红蛋白相比,其中一个变体dnMb19与血红素结合的热稳定性显著提高(图4e)。作者同时确定了dnMb19的晶体结构(图4g),发现与设计模型(图4f)吻合度高。这些结果说明了RoseTTAFold joint inpainting和ProteinMPNN在提高溶解性、热稳定性和功能稳定性的同时准确重塑天然蛋白骨干的能力。
图4 ProteinMPNN设计改善肌红蛋白表达和热稳定性
2
设计实例二
设计TEV蛋白酶变体
提高其稳定性和催化活性
为了探索ProteinMPNN在酶上面的优化效果,研究团队以烟草蚀刻病毒(TEV)的
半胱氨酸蛋白酶作为研究对象。他们选择抗自溶的S219D变体TEVd(PDB:1LVM)作为案例进行设计。作者固定了酶的活性位点及蛋白质家族中最保守的氨基酸残基,然后根据序列的保守程度对氨基酸进行排名。作者设计了4组变体,分别固定了仅活性位点、活性位点以及TEV家族中30%,50%和70%最保守残基的氨基酸(图5a),ProteinMPNN共生成了144个序列,这些序列都能够有较高的置信度折叠成原有的TEV蛋白酶结构,在AlphaFold2的置信度评分为 pLDDT > 87.5,而原生TEV序列结构预测的执行度评分为pLDDT = 90。同时,重设计的序列与亲本序列仍具有55 ~ 85%的序列一致性。所有144个设计都被选中进行实验测试。
编码设计、亲本序列、TEVd和先前报道的几种TEV变体的合成基因在大肠杆菌中表达,所得蛋白通过IMAC和SEC纯化。144个设计中有134个可溶表达,并通过SEC作为单体洗脱(图5b)。144个设计中有129个表现出比TEVd更高的可溶性表达水平(图5f))。没有进行进化约束的设计可以表现出亲本更好的可溶性表达,但在肽底物上没有表现出剪切活性,而活性最高的设计是固定了前50%最保守氨基酸残基(图5f,g)。
作者对采用50%设计方法的三种高活性设计(hyper-TEV56、hyperTEV60和hyperTEV89)和亲本序列TEVd进行了详细的酶促动力学分析。与TEVd相比,这些设计有更高得催化效率(表1)。然后,作者用融合蛋白底物测试了最活跃的设计,以评估它们在标签去除的目标应用上的性能。这些设计和一组先前设计的TEVproteases与融蛋白底物MBP-TEVcs-FKBP-EGFP孵育后用 SDS-PAGE评估蛋白水解的程度。与亲本TEVd相比,hyperTEV56和hyperTEV60裂解蛋白质底物的速率更快,在孵育约4小时产生50%的裂解产物,而TEVd需要24小时才能达到相同的产量。该设计也优于其他已发表的TEV变体 (图5c)。对TEVd和最活跃的设计hyperTEV60的CD光谱分析表明hyperTEV60的熔链温度约为84°C,比TEVd高40°C(图5d)。TEVd和hyperTEV60在30°C下孵育不同时间,然后用于肽-香豆素裂解实验。孵育4小时后,hyperTEV60保留了其原始裂解活性的90%,而TEVd降低到其原始活性的15%(图5e)。这些结果表明hyperTEV60在真实切割底物的实验中,能够在切割体系下保持更长时间的剪切活力。
图5 ProteinMPNN设计提高TEV蛋白酶的表达、
热稳定性和催化效率
表1 TEV重新设计与TEV亲本变体的动力学参数
总结
作者通过ProteinMPNN的应用展示了深度学习技术在蛋白质设计领域的巨大潜力,在可用的序列和结构信息的指导下,使用ProteinMPNN可以改善天然蛋白的表达、稳定性和功能,为解决天然蛋白质在工业应用中的稳定性问题提供了一种高效的解决方案。未来,随着技术的进一步发展,ProteinMPNN有望在更多类型的蛋白质优化中发挥重要作用。
参考文献:
1. DOI: 10.1021/jacs.3c10941
2. DOI: 10.1126/science.add2187
文字来源:吴丽源
本期编辑:孙泽蕴
请关注我们!
病原体结构与临床应用创新研究院是设立在广州实验室内的,以呼吸道疾病为核心研究方向的新型研发机构。创新研究院的愿景是将高水平的基础研究成果高效转化至临床应用,成为医疗健康领域的世界一流产学研机构。创新研究院聚集了一批不同专业背景的优秀青年科技人才与产业人才,并与产业界广泛合作,开展新型疫苗、药物等领域的研究。