神经网络在蛋白质设计中的外推能力及集成模型优势评估

文摘   2024-07-31 19:05   美国  

医学科研新动向

Proteogenomic network analysis reveals dysregulated mechanisms and potential mediators in Parkinson’s disease

神经网络

< 机器学习,蛋白质设计>

机器学习(ML)通过构建序列-功能景观的模型,革新了蛋白质工程,加速了新生物分子的发现。ML指导的蛋白质设计需要在局部序列-功能信息上训练的模型准确预测远端的适应性峰值。2024年07月30日发表在《Nature Communications》上研究,评估了神经网络在训练数据之外外推的能力。我们使用多种神经网络架构在蛋白G(GB1)-免疫球蛋白G(IgG)结合数据上进行模型指导的设计,并实验测试数千种GB1设计,系统评估模型的外推能力。结果显示,每种模型架构从相同数据中推断出显著不同的景观,导致独特的设计偏好。简单模型在局部外推中表现优异,设计出高适应性蛋白,而复杂的卷积模型能深入序列空间,设计出可折叠但不再功能性的蛋白。集成卷积神经网络使高性能变体设计更加稳健。

研究背景  

蛋白质工程是一种通过搜索序列-功能景观来发现具有特定功能和特性的蛋白质的过程。传统的实验方法由于序列空间的庞大而受限,难以全面探索。机器学习,特别是监督学习,已显示出在从稀疏的实验数据中推断完整的适应性景观方面的巨大潜力。这些模型通过预测未观察到的蛋白质序列的功能,指导序列空间的搜索,显著提高了蛋白质变体的质量,减少了实验次数。然而,ML模型需要在训练数据之外进行外推,这对模型的预测能力提出了挑战。本研究旨在系统评估不同神经网络架构在训练数据之外外推的能力,以揭示每种架构的特性和限制,并优化ML指导的蛋白质设计方法。

研究设计

1. 模型训练

使用蛋白G (GB1)-免疫球蛋白G (IgG) 结合数据,训练了线性回归模型(LR)、全连接网络(FCN)、卷积神经网络(CNN)和图卷积神经网络(GCN)。这些模型在单突变和双突变数据上进行训练,序列以56个氨基酸的理化特性和分类(one-hot)编码。此外,作者训练了100个相同架构的CNN,随机初始化参数以评估其影响,并构建了中位数预测器(EnsM)和保守预测器(EnsC)两个集成模型。

2. 模型指导的蛋白质设计

作者开发了大规模蛋白质设计流水线,使用模拟退火(SA)在序列空间中优化模型以识别高适应性峰值。方法包括数百次独立设计运行,最终通过聚类去除冗余并选择最优序列。作者在六个外推距离(5、10、20、30、40和50个突变)上评估八种模型,每个组合进行了至少500次设计运行,并聚类为41个群集以获取多样化序列。

3. 高通量实验验证

使用酵母表面展示技术表征设计的GB1变体的表达和IgG结合。通过荧光活化细胞排序(FACS)测定展示和结合群体的富集度,计算展示和结合富集评分。此外,作者还进行了定量酵母展示实验,将变体分为高结合、野生型水平结合、低结合和仅展示群体,进一步验证设计的准确性和功能性。

核心结果

1. 序列-功能模型的外推

图1展示了不同模型在训练数据之外外推的能力。图1a解释了训练数据与外推数据的区别,并展示了用于测试的五种模型架构。图1b显示了100个CNN模型在突变路径上的预测差异,EnsM代表中位数预测,EnsC代表保守预测。图1c和1d显示了模型在1至4个突变上的Spearman相关性,图1e展示了模型在设计预算内识别高适应性变体的召回率。结果表明,所有模型在外推时预测性能显著下降,但非线性神经网络模型在预测突变时表现优异。

2. ML指导的适应性景观探索

图2展示了不同模型在六个外推距离上的设计分布。图2a说明了ML模型指导的设计流程,图2b通过多维尺度(MDS)展示了设计变体的分布,显示出从野生型GB1发出的同心环结构。图2c展示了不同模型设计的序列在序列空间中的分布,图2d通过香农熵量化了10突变设计的序列多样性。结果显示,LR和FCN模型倾向于在少数位置进行突变,而卷积模型在更多位置进行多样化突变。

3. ML设计的GB1变体的实验表征

图3展示了ML设计的GB1变体在酵母表面展示实验中的表现。图3a和3b显示了酵母展示和IgG结合的实验流程和FACS排序结果。图3c展示了设计变体的展示和结合评分随突变距离的变化,图3d展示了展示和结合评分的散点图,图3e显示了5突变和10突变设计的功能性分布。结果表明,LR和FCN模型在设计功能性结合序列方面表现优异,而卷积模型在设计展示序列方面表现出色。

4. ML设计的GB1结构多样性

图4展示了通过AlphaFold2预测的ML设计的GB1变体的结构多样性。图4a展示了不同模型在不同突变距离上的预测结构,图4b使用UMAP可视化了高维结构空间,显示了结构在功能状态和设计模型中的聚类和组织。结果表明,LR和FCN模型设计的序列在所有突变距离上显示出更紧密的构象分布,类似于野生型GB1结构,而CNN和GCN设计的序列在更高突变距离上显示出更大的结构变异。

5. 高通量酵母展示筛选的验证

图5验证了高通量酵母展示筛选的设计。图5a展示了克隆酵母展示实验的结果,图5b显示了几个设计的IgG结合曲线,图5c展示了一个20突变体EnsC-20的AlphaFold2预测结构。结果表明,所有五个5突变和10突变的高结合设计在IgG结合方面优于野生型,而部分20突变设计表现出中等程度的IgG结合。40至50突变的展示设计在酵母表面展示方面表现出色,但没有IgG结合能力,显示出显著的结构多样性和稳定性。



本研究评估了不同神经网络架构在蛋白质设计中的外推能力,尤其是训练数据之外的预测准确性。作者使用蛋白G (GB1) 与免疫球蛋白G (IgG) 结合的数据,训练了线性回归模型(LR)、全连接网络(FCN)、卷积神经网络(CNN)和图卷积神经网络(GCN),并构建了中位数预测器(EnsM)和保守预测器(EnsC)。

  • 设计方法:开发了大规模设计流水线,使用模拟退火(SA)在序列空间中搜索高适应性峰值。

  • 评估过程:在六个不同突变距离(5、10、20、30、40和50个突变)上评估了八种模型,每个组合进行了至少500次设计运行。

  • 实验验证:通过高通量实验验证,简单模型(LR和FCN)在设计高适应性蛋白质方面表现优异,而复杂模型(CNN和GCN)设计的远离野生型序列功能性有所下降。

  • 集成模型:集成模型(EnsM和EnsC)表现出更高的设计稳定性和性能。

  • 研究贡献:展示了不同神经网络架构在蛋白质适应性景观中的独特学习方式,强调了集成方法在蛋白质设计中的潜力,助力新型蛋白质的高效设计和开发

-END-

文字丨本人编写,如有补充,请随时告诉我
点击左下角“阅读原文”即可获取全文

医学科研新动向
每日分享-相关领域包括:MIMIC、NHANES、SEER、GEO、TCGA、CHARLS等公共数据库最新研究成果解读。深入剖析机器学习、生信分析与临床流行病学研究方法。
 最新文章