芝加哥大学Andrew Ferguson团队在Cell Systems上发表了题为 “基于深度学习设计SH3信号域的合成直系同源物” 的研究文章探讨了利用深度生成模型,特别是变分自编码器(VAE),设计SH3信号域的合成直系同源物。SH3信号域参与酵母的渗透压感应通路,对于响应渗透压应激至关重要。通过应用机器学习方法,本研究旨在生成功能性的合成蛋白,这些蛋白能够模仿不同物种,特别是真菌界中SH3域的自然多样性和功能。
1. 深度学习模型的开发:
o 研究引入了变分自编码器(VAE)作为设计合成SH3域的有效深度生成模型。这些模型将来自数千个SH3序列的进化信息压缩到低维潜在空间中,捕捉蛋白折叠和功能的基本特征。
o 使用了两个VAE模型:一个是“基本VAE”,另一个是“InfoVAE”,后者加入了额外的约束以提高合成序列设计的准确性。
2. SH3域的功能和系统发育:
o 模型通过5,000多个SH3同源物的多序列比对(MSA)进行训练,包括真菌和非真菌域。InfoVAE模型有效地根据功能相似性和系统发育关系将这些序列组织成不同的簇,揭示了SH3域的层次结构。
3. 合成直系同源物的设计:
o 研究团队使用InfoVAE模型生成了合成SH3域,并测试了这些合成蛋白是否能够补偿缺少Sho1 SH3域的酵母菌株,Sho1是渗透压感应通路的关键组成部分。约1.75%的合成序列完全补偿了Sho1的缺失,表明这些人工设计的蛋白可以执行与其天然对应物相同的生物功能。
o 合成直系同源物表现出广泛的序列多样性,但仍保留了与Pbs2配体结合并支持酵母渗透压应激反应的能力。
4. 功能空间的映射:
o 研究发现,功能性SH3域集中在VAE潜在空间的特定区域,这表明具有所需功能的合成直系同源物限制在这个区域。InfoVAE模型特别擅长识别并生成来自该功能空间的功能性序列。
o 功能性SH3域还揭示了对结合和功能至关重要的特定氨基酸约束,包括配体结合位点附近及远离该位点的位置。
本研究证明了深度生成模型,特别是VAE,能够设计保留天然功能的SH3蛋白域合成直系同源物。这些结果表明,VAE模型可以有效捕捉蛋白折叠和功能的基本设计原理,为合成生物学和蛋白质工程提供了强大的工具。生成具有跨物种直系同源功能的合成蛋白为探索蛋白进化、理解功能多样性以及开发新的生物技术应用开辟了新途径。
1. 蛋白质工程:
o 本研究开发的深度生成模型可以应用于其他蛋白家族,设计具有特定生物功能的合成变体。这对生物技术具有广泛的影响,合成蛋白可以用于工业、医疗或研究用途。
2. 理解进化:
o 通过绘制SH3域的功能空间,研究为蛋白功能的进化约束提供了新见解。这一知识可以帮助研究人员更好地理解蛋白如何在不同细胞环境中进化和适应。
3. 治疗应用:
o 设计合成直系同源物来模仿天然蛋白功能的能力可以应用于药物开发和治疗开发。例如,合成蛋白可以用于恢复或增强在疾病中功能失调的生物通路。
Xinran Lian et al. Deep learning based design of synthetic orthologs of SH3 signaling domains. Cell Systems. 2024