蛋白质口袋是蛋白质上适合与特定分子结合的点位。在“定制”蛋白质的过程中,蛋白质口袋设计是重要的方法之一。
中国科学技术大学及合作者设计了深度生成算法PocketGen,实现了AI驱动的蛋白质口袋生成。研究成果发表于《自然·机器智能》。
▲课题组使用AI生成工具设计的实验场景概念图
01
蛋白质口袋的智能生成
自然界中的蛋白质功能受天然结构限制,难以满足人类在医药和工业领域的需求。因此,科学家通过设计与改造赋予蛋白质新功能。
蛋白质口袋,是蛋白质结构中适合与特定分子结合的空腔或凹陷,可以看作是生命活动中一把独特的“锁”。当“小分子”这把“钥匙”精准插入“锁孔”后,会引发蛋白质的形态变化,从而激活或调节其功能。这种巧妙的“锁钥机制”正是许多药物研发的理论基础。
要想生成与小分子结合的蛋白质口袋序列和空间结构,传统的方法是通过能量优化和模板匹配,但存在计算慢、成功率低的问题。
近年来,人工智能为蛋白质设计领域带来了革命性的进展。然而,大多数基于深度学习的模型并非专门针对蛋白质-小分子相互作用设计。这导致它们难以精准捕捉蛋白质与小分子结合口袋的区域特征,无法充分反映分子间复杂的物理化学规律。
因此,发展高效、高成功率且准确反映物理化学规律的蛋白质口袋生成算法是该领域的急切需求。
此次研究设计的PocketGen主要由双层图Transformer编码器和蛋白质预训练语言模型两个部分组成,通过两个部分同时进行信息处理和不断迭代,最终生成所需要的蛋白质口袋。
▲(a)用PocketGen进行蛋白质序列-结构共同设计;(b)双层图Transformer编码器;(c)蛋白质预训练语言模型用于序列预测及高效微调技术。
双层图Transformer编码器就像一位熟练的建筑师,能够细致地分析蛋白质结构的“骨架”,并像搭建“3D小屋”一样处理空间信息。编码器不仅能观察到“小屋”的内部细节,还能把新的“房间”拼接到既有结构中,构成完整的蛋白质形状。换句话说,这部分算法专注于解析和生成蛋白质的三维结构信息,确保生成的蛋白质口袋具备精准的形态和化学结合能力。
预训练蛋白质语言模型则像是一部“蛋白质字典”,通过学习已知蛋白质的语言规则,帮助我们预测蛋白质口袋中哪些氨基酸可以替换,并智能完成“选词填空”任务。也就是说,这一部分算法聚焦于蛋白质的序列信息。
02
高效算法重塑蛋白质设计
PocketGen在计算效率方面表现亮眼,是目前全球最高效的蛋白质口袋设计算法之一。团队将其与新晋诺贝尔奖得主David Baker实验室生成的模型RFDiffusion、RFDiffusionAA等进行了比较,PocketGen在计算蛋白质口袋的效率方面提高约10倍。
▲PocketGen示意图
在蛋白质口袋设计的成功率方面,PocketGen也有突出表现。蛋白质口袋的亲和力是评估蛋白质与小分子结合成功率的重要指标。小分子和蛋白质就像是两块吸铁石,亲和力越高,意味着它们结合得越紧密、稳定。PocketGen在亲和力指标上,超过传统方法5个百分点。
PocketGen推进了深度生成模型用于功能蛋白质设计,为进一步理解蛋白质设计规律并开展生物实验验证奠定了基础。这种跨领域、跨技术的协同创新,不仅为生物工程和药物研发提供了全新思路,也展现了人工智能与自然科学融合的无限可能。
未来,PocketGen有望成为连接科学研究与实际应用的重要工具,为解决更多生物医学难题带来创新思路。