蛋白质的从头设计和定向改造

学术   2024-10-24 13:06   浙江  



1.研究目的



蛋白质的从头设计和定向优化是现代生物技术和合成生物学的重要研究方向。它们不仅在基础科学研究中具有深远的意义,而且在医疗、工业、环境保护等多个领域都有广泛的应用。天然蛋白质的功能受限于自然进化的路径,而从头设计的蛋白质可以跳出这一限制,开发出具有全新功能的蛋白质,实现特定的生物学功能。比如,可以设计出在自然界中不存在但对人类有用的酶或受体。而所谓的定向优化,即通过系统性地引入突变,来研究蛋白质序列变化对功能的影响。通过定向优化,科学家可以增强天然蛋白质的功能,如提高其活性、稳定性或特异性。这种优化可以克服自然进化的局限,使天然蛋白质在实际应用中更加高效。



2. AI MODEL



2.1 RFdiffusion


RFdiffusion 是一种基于扩散模型(Diffusion Model)的蛋白质结构设计工具。RFdiffusion 的强大之处在于它不仅能预测蛋白质的结构,还能根据用户提供的功能需求设计新的蛋白质。通过模拟蛋白质从无序到有序状态的逐步“扩散”过程,根据诱饵蛋白的全长或特定功能区域,从头设计符合特定功能或结构要求的人造蛋白质结构。这在新药设计、酶工程和蛋白质合成生物学中具有重要应用。


2.2 ProteinMPNN


ProteinMPNN 是一种基于图神经网络(Graph Neural Network, GNN)的蛋白质序列设计工具。蛋白质的三维结构被表示为一个图,其中节点代表氨基酸,边表示氨基酸之间的相互作用。通过图神经网络,模型能够捕捉到蛋白质与蛋白质相互作用的复杂模式,根据已知的蛋白质三维结构预测并生成能够正确折叠和执行特定功能的氨基酸序列。ProteinMPNN 允许对生成的序列进行优化,以增强稳定性、提高功能性或减少免疫原性。这一过程可以通过多次迭代进行,直到生成符合所有需求的最优序列。


2.3 Model比较


1、设计目标: 

RFdiffusion 更侧重于结构的从头设计,而 ProteinMPNN 则专注于序列的定向优化。


2、应用场景:

 RFdiffusion 通常用于需要设计新蛋白质结构的场景,如新酶、新蛋白质材料,而 ProteinMPNN 则更适合在给定一对互作蛋白的结构基础上优化或设计新的蛋白质序列。


3、相互补充: 

这两个工具可以联合使用。例如,RFdiffusion 先设计出新的蛋白质结构,然后通过 ProteinMPNN 优化相应的序列以确保结构的稳定性和功能性。这些工具的持续优化将推动更多新型蛋白质的发现和开发,推动各个相关领域的创新和进步。




3.RFdiffusion测试文档



3.1 诱饵蛋白信息


猴痘是由猴痘病毒引起的一种人畜共患病毒性疾病,猴痘病毒是正痘病毒属的一种。猴痘有两个不同分支:分支I和分支II。A29L是猴痘病毒表面重要抗原,并且A29L是膜蛋白,与下游蛋白直接接触。


3.2 诱饵蛋白序列


>A29L MPXV

MQHPREENSIVVELEPSLATFIKQGFNNLVKWPLLNIGIVLSNTSTAVNEEWLTAVEHIPTMKIFYKHIHKILTREMGFLVYLKRSQSERDNYITLYDFDYYIIDKDTNSVTMVDKPTELKETLLHVFQEYRLKSSQTIELIAFSSGTVINEDIVSKLTFLDVEVFNREYNNVKTIIDPDFVFRSPFIVISPMGKLTFFVEVYSWFDFKSCFKDIIDFLEGALIANIHNHMIKVGNCDETVSSYNPESGMLFVNDLMTMNIVNFFGCNSRLESYHRFDMTKVDVELFIKALSDACKKILSASNRL


3.3 测试结果



根据猴痘病毒表面抗原的氨基酸全长,RFdiffusion从头设计出十条氨基酸序列。建模评估后,与诱饵蛋白HDock对接和复合结构预测,已将各个环节的得分前三标注出来。第六条和第八条人造蛋白的综合评分较高。


3.5 结果分析


RFdiffusion可以根据诱饵蛋白,从头设计互作蛋白。




4.ProteinMPNN测试文档



4.1 待改造酶信息


α-淀粉酶(α-Amylase(Bacilus subtilis) ,1,4-α-D-Glucan-glucanohydrolase)是一种淀粉水解酶,能够将淀粉中的α-1,4-葡萄糖苷键切断,形成葡萄糖、麦芽糖和麦芽三糖单元。它在消化过程中起到降低稠度和“液化”的作用,因此也被称为液化酶。此外,α-淀粉酶是治疗和维持餐后血糖升高的治疗靶点。


4.2 待改造酶序列


>α-amylase

MQVLNTMVNKHFLSLSVLIVLLGLSSNLTAGQVLFQGFNWESWKENGGWYNFLMGKVDDIAAAGITHVWLPPPSHSVGEQGYMPGRLYDLDASKYGNEAQLKSLIEAFHGKGVQVIADIVINHRTAEHKDGRGIYCLFEGGTPDSRLDWGPHMICRDDPYGDGTGNPDTGADFAAAPDIDHLNKRVQRELIGWLDWLKMDIGFDAWRLDFAKGYSADMAKIYIDATEPSFAVAEIWTSMANGGDGKPNYDQNAHRQELVNWVDRVGGANSNATAFDFTTKGILNVAVEGELWRLRGEDGKAPGMIGWWPAKATTFVDNHDTGSTQHLWPFPSDKVMQGYAYILTHPGNPCIFYDHFFDWGLKEEIERLVSIRNRQGIHPASELRIMEADSDLYLAEIDGKVITKIGPRYDVEHLIPEGFQVVAHGDGYAIWEKI

采用http://smart.embl.de/  对氨基酸结构进行分析。



分析结果如下:

🔹signal peptide(信号肽):起始位置为1,结束位置为31,E值(E-value)为N/A,表示该特征的E值未给出。

🔹 Aamy(可能是Alpha-amylase相关特征,模型答案中名称有误):起始位置为32,结束位置为372,E值为1.03e-55。E值极低,表明该特征的预测具有高度的统计显著性。

🔹 Alpha-amyl_C2(Alpha-淀粉酶C2结构域):起始位置为373,结束位置为433,E值为1.98e-33。同样,这个E值也很低,显示了预测的高置信度。


4.3 测试结果

4.3.1 整条序列突变


通过proteinMPNN对目标酶的1-433位氨基酸全部突变,设置采样温度(T值)为0.1、0.15、0.2、0.25、0.3,每个采样温度下生成不同的5个构象,结果如下图所示。




一共生成25种不同的蛋白质,其中第七种蛋白的Seq_recovery(序列恢复率)最高,值为0.5。Seq_recovery是指在设计过程中,突变改造的蛋白质序列有多少百分比与参考序列一致,衡量序列之间的相似程度,反映了设计蛋白在多大程度上能够“恢复”或重现目标蛋白的特征。较高的序列恢复率通常意味着设计结果与期望的目标或天然序列更接近,表明设计质量较好,设计模型的可靠性和性能越高。此外,第七种改造酶与目标酶序列之间的RMSD值(均方根差)最小,仅为0.489。各个突变改造蛋白与参考蛋白构象差异不大,绿色为参考蛋白。

4.3.2 固定位置突变


通过proteinMPNN改造目标酶的部分氨基酸序列,保留1-32和373-433位的氨基酸序列不变,对32-372位的氨基酸进行突变,设置采样温度(T值)为0.1、0.15、0.2、0.25、0.3,每个采样温度下生成不同的5个构象,结果如下图所示。




比较25种不同的蛋白质,其中第六种蛋白的Seq_recovery(序列恢复率)最高。但第七种改造酶与目标酶序列之间的RMSD值最小,仅为0.526。各个突变改造蛋白与参考蛋白构象差异不大,绿色为参考蛋白。


4.4 结果分析


ProteinMPNN作为一个蛋白改造软件,可以对全长或固定区域进行随机突变。在保持蛋白整体结构稳定情况下,修改氨基酸残基,克服自然进化的局限性。然而,该软件并非定向优化,突变方向不定,改造后蛋白功能还需其他软件或实验协同验证。








合肥科晶生物技术有限公司是一家以AI与生物技术融合为核心的行业领军企业,汇聚生物技术和AI领域的高端人才,经验丰富的资深研发团队,能够为您提供全方位的专业知识、独特见解和技术支撑。


我们倾力打造百库精筛虚拟引擎,已储备数十种物种的蛋白质数字化文库,研究者只需送研究蛋白的CDS序列或者氨基酸序列,即可进行数字化互作蛋白筛选,只需5-10天即可交付!已储备常用物种数据库如下列表:



福利来袭!

科晶生物论文出图

免费蛋白互作分析等您来领!

0551-64669001

扫码添加客服,即可领取!



KjFold
分享最新科研前沿动态;技术介绍及案例分析;科研福利发放
 最新文章