Nature| 解密蛋白质稳定性的遗传架构

文摘   2024-09-26 23:16   新加坡  

背景

       蛋白质,作为生命活动的核心分子,其稳定性直接影响着其功能与活性。而一个由100个氨基酸组成的蛋白质,其潜在的氨基酸序列组合数量是惊人的20^100,远超宇宙中的原子数量。这种庞大的序列空间使得全面分析蛋白质的所有可能变体几乎是不可能的。传统的实验和计算技术,仅能在有限的范围内探测蛋白质的序列空间,而这也成为理解蛋白质遗传架构的主要障碍。

      近年来,深度神经网络被广泛应用于蛋白质研究中,尤其是在预测蛋白质突变的功能影响时取得了重要进展。然而,尽管这些深度学习模型具有强大的预测能力,它们的架构往往过于复杂,难以解释其背后的生物学机制。科学家们意识到,仅依赖复杂模型并不能提供对蛋白质遗传架构的清晰理解。于是,许多研究开始探讨能否通过简化的模型,更直观地揭示蛋白质序列与表型之间的关系。

       在蛋白质的序列空间中,突变之间的相互作用,尤其是成对的能量耦合,对蛋白质的折叠与功能起着至关重要的作用。然而,如何从海量的突变组合中识别这些关键的能量耦合仍然是个重大挑战。于是,许多研究者开始探索能否通过简化的能量模型,来解读蛋白质的基因型与表型之间的复杂关系。这篇文章由The Barcelona Institute of Science and Technology的Andre J. Faure等人发表的研究——“The genetic architecture of protein stability蛋白质稳定性的遗传架构”,正是致力于揭示蛋白质稳定性的遗传架构,并通过实验提出了一个相对简单且可解释的能量模型。

文章解读

总结

     这篇文章通过实验探讨了蛋白质稳定性的遗传架构,研究表明至少某些蛋白质的遗传架构是相对简单的。研究者们在超过10^10的序列空间中采样,提出了一个可解释的能量模型,该模型捕捉了自由能与表型之间的非线性关系,但主要由可加性的自由能变化构成,且只有少量的成对能量耦合。这些耦合关系稀疏且与蛋白质的三维结构有关,表明蛋白质的遗传架构是简单且可理解的。

蛋白质突变组合的实验难度

     蛋白质的突变组合空间是巨大的,特别是当涉及多个氨基酸位点的突变时,组合数呈指数增长。例如,对于一个包含34个突变位点的蛋白质,突变的组合数约为2^34,即约为1.7×10^10。而现有的技术仅能分析约10^6 的序列空间,这种技术瓶颈极大限制了我们对蛋白质突变影响的理解。

    此外,随机突变组合的多数情况会导致蛋白质失去功能。例如,在一个小蛋白质结构域中,只有2%到8%的5氨基酸变体和少于0.2%的10氨基酸变体能够保持正确折叠。这也意味着,随机生成的大部分突变体对于遗传架构的探索几乎无用。

深度学习与复杂模型的局限

    尽管深度神经网络在预测蛋白质突变效果上表现出色,但其架构极其复杂且难以解释。这类模型虽然能处理大规模的突变数据,但并不能提供遗传架构的深层次理解。研究者提出,蛋白质的基因型-表型图景是否真的如深度模型所暗示的那样复杂,还是能通过简单的能量模型来解释?

实验设计与发现

     为了验证蛋白质遗传架构的简易性,研究者设计了实验,重点在于富集功能性蛋白质序列,从而探索多维序列空间中的遗传架构。通过分析超过30个维度和超过10^10 个基因型,他们发现蛋白质的遗传架构实际上可以通过可加性的能量模型来很好地预测。这种模型能够量化突变之间的成对能量耦合,进一步提高了预测的准确性。

能量耦合与蛋白质三维结构的关系

      研究表明,虽然突变间的成对能量耦合能够提高预测精度,但这些耦合关系是稀疏的,且主要与蛋白质的三维结构相关。这意味着,在蛋白质的遗传架构中,除了少量的能量耦合外,大多数能量变化都是可加性的。这一发现打破了人们对蛋白质基因型-表型复杂性的传统认知,表明至少某些蛋白质的遗传架构是相对简单的。

小结与展望

    本文通过实验验证了蛋白质稳定性的遗传架构,并提出了一种基于能量模型的简化理论。研究者发现,虽然蛋白质的序列空间庞大且复杂,但其遗传架构却相对简单,主要由可加性的能量变化主导。未来的研究或许可以进一步拓展这一模型的应用范围,用于更广泛的蛋白质家族以及更复杂的表型预测。

文字写作:浊涂
责任编辑:er不er
文章编号:239
论文链接:https://www.nature.com/articles/s41586-024-07966-0

胡纯一实验室 Hu lab
新国大胡纯一实验室Hu Lab (2023~)的官方公众账号。实验室宗旨是文体艺术不分家,科研科普两开花。加油加油!欢迎访问www.chunyihulab.org获取更多信息。
 最新文章