✦
医学科研新动向
✦
Proteogenomic network analysis reveals dysregulated mechanisms and potential mediators in Parkinson’s disease
神经网络
< 机器学习,蛋白质设计>
研究设计
1. 模型训练
2. 模型指导的蛋白质设计
3. 高通量实验验证
核心结果
1. 序列-功能模型的外推
图1展示了不同模型在训练数据之外外推的能力。图1a解释了训练数据与外推数据的区别,并展示了用于测试的五种模型架构。图1b显示了100个CNN模型在突变路径上的预测差异,EnsM代表中位数预测,EnsC代表保守预测。图1c和1d显示了模型在1至4个突变上的Spearman相关性,图1e展示了模型在设计预算内识别高适应性变体的召回率。结果表明,所有模型在外推时预测性能显著下降,但非线性神经网络模型在预测突变时表现优异。
2. ML指导的适应性景观探索
图2展示了不同模型在六个外推距离上的设计分布。图2a说明了ML模型指导的设计流程,图2b通过多维尺度(MDS)展示了设计变体的分布,显示出从野生型GB1发出的同心环结构。图2c展示了不同模型设计的序列在序列空间中的分布,图2d通过香农熵量化了10突变设计的序列多样性。结果显示,LR和FCN模型倾向于在少数位置进行突变,而卷积模型在更多位置进行多样化突变。
3. ML设计的GB1变体的实验表征
图3展示了ML设计的GB1变体在酵母表面展示实验中的表现。图3a和3b显示了酵母展示和IgG结合的实验流程和FACS排序结果。图3c展示了设计变体的展示和结合评分随突变距离的变化,图3d展示了展示和结合评分的散点图,图3e显示了5突变和10突变设计的功能性分布。结果表明,LR和FCN模型在设计功能性结合序列方面表现优异,而卷积模型在设计展示序列方面表现出色。
4. ML设计的GB1结构多样性
图4展示了通过AlphaFold2预测的ML设计的GB1变体的结构多样性。图4a展示了不同模型在不同突变距离上的预测结构,图4b使用UMAP可视化了高维结构空间,显示了结构在功能状态和设计模型中的聚类和组织。结果表明,LR和FCN模型设计的序列在所有突变距离上显示出更紧密的构象分布,类似于野生型GB1结构,而CNN和GCN设计的序列在更高突变距离上显示出更大的结构变异。
5. 高通量酵母展示筛选的验证
图5验证了高通量酵母展示筛选的设计。图5a展示了克隆酵母展示实验的结果,图5b显示了几个设计的IgG结合曲线,图5c展示了一个20突变体EnsC-20的AlphaFold2预测结构。结果表明,所有五个5突变和10突变的高结合设计在IgG结合方面优于野生型,而部分20突变设计表现出中等程度的IgG结合。40至50突变的展示设计在酵母表面展示方面表现出色,但没有IgG结合能力,显示出显著的结构多样性和稳定性。
小
结
本研究评估了不同神经网络架构在蛋白质设计中的外推能力,尤其是训练数据之外的预测准确性。作者使用蛋白G (GB1) 与免疫球蛋白G (IgG) 结合的数据,训练了线性回归模型(LR)、全连接网络(FCN)、卷积神经网络(CNN)和图卷积神经网络(GCN),并构建了中位数预测器(EnsM)和保守预测器(EnsC)。
设计方法:开发了大规模设计流水线,使用模拟退火(SA)在序列空间中搜索高适应性峰值。
评估过程:在六个不同突变距离(5、10、20、30、40和50个突变)上评估了八种模型,每个组合进行了至少500次设计运行。
实验验证:通过高通量实验验证,简单模型(LR和FCN)在设计高适应性蛋白质方面表现优异,而复杂模型(CNN和GCN)设计的远离野生型序列功能性有所下降。
集成模型:集成模型(EnsM和EnsC)表现出更高的设计稳定性和性能。
研究贡献:展示了不同神经网络架构在蛋白质适应性景观中的独特学习方式,强调了集成方法在蛋白质设计中的潜力,助力新型蛋白质的高效设计和开发
-END-
文字丨本人编写,如有补充,请随时告诉我
(点击左下角“阅读原文”即可获取全文)