蛋白质作为最重要的生命构建单元之一,其序列和功能之间的映射(适应性景观,Fitness landscape)的针对性研究对于蛋白质理性设计以及工程应用都有极大的意义。目前人们只能对于蛋白质序列-功能关系进行少量低纬度的点采样,例如深度突变搜索(DMS),单位点饱和突变等,或是利用随机建库等方式以极低概率捕获序列与功能耦连的关键信息。一些更高效的定向进化工具如PACE,OrthoRep等会使得蛋白质空间的搜索深度加深,但由于其专注于产生高适应性突变体的特征使得其对于蛋白功能的全局认知不足。一些计算方法成功构建起序列-结构之间的精确关联,例如2024年诺贝尔化学奖获奖者开发的AlphaFold、RoseTTAFold等结构预测或设计算法,并进一步试图利用深度学习构建序列和功能的映射关系,但由于缺乏高质量大规模的序列-功能映射数据,计算方法的可延展性始终有所限制。总之,受限于蛋白质序列空间的高维度与复杂性(例如,100个氨基酸的蛋白质设计空间达到10130,远超宇宙中的原子数目~1080),我们对这个空间及其映射规律的理解尚浅,亟待丰富与完善。2024年11月11日,清华大学张数一团队在 Nature Methods 期刊发表了题为:EvoAI enables extreme compression and reconstruction of the protein sequence space 的研究论文。该研究提出了对蛋白质序列-功能空间进行压缩的概念,开发了进化扫描系统,可以高效获取空间压缩后的锚点(Anchor),并开发了相应的EvoAI系统,实现了对蛋白质序列-功能空间的进化压缩和AI重构,压缩比可以达到1048,对于理解蛋白质序列-功能空间映射关系引入了新的视角。
研究团队首先构建了进化搜索系统(Evolutionary Scanning,EvoScan)用以对蛋白进行分区域定向进化,如图一所示。该系统改造了噬菌体辅助的连续定向进化系统(PACE)。其中,突变体系来源EvolvR系统中enCas9-PolIM5复合蛋白,通过构建其诱导表达体系来创建靶向分区域突变质粒(TP)。为了测试系统的可行性,研究人员先后利用了绿色荧光蛋白EGFP的纳米抗体突变体的回复突变实验测试蛋白-蛋白相互作用的靶向进化,以及利用SARS-CoV-2主蛋白酶Mpro蛋白对其抑制剂的逃逸效应的进化测试蛋白-配体相互作用的靶向进化,证明该系统可以对gRNA覆盖的上下游约30bp的区域进行靶向进化并得到功能提升的突变体。随后,研究团队利用EvoScan进化了转录因子AmeR对于特定DNA序列的抑制能力,设计了13条gRNA对于蛋白进行区域分割,最终在8个区域中找到氨基酸突变。研究人员对这些区域进行随机排序,构建了8个不同的进化路径,使进化过程可以遍历以上8个区域,最终产生了82个功能提升,维度各不相同的锚点,并对上述锚点进行基于流式荧光的功能测试,系统生物学分析以及上位效应(Epistasis)的分析与计算等。其结果显示,尽管绝大多数突变对于蛋白功能都有不同程度的提升,但不同的单点突变对于不同的突变组合而言,产生的功能效应并非都是提升,一些突变位点能够提升蛋白功能,但会干扰其他的突变位点的效应,这反映了蛋白质序列空间的高复杂度。图一. EvoScan系统构成和蛋白质序列-功能空间压缩为了理解和重构这个高纬度复杂空间,研究团队设计了与EvoScan配套的深度学习算法,并命名为EvoAI,如图二所示。该方法结合了预训练的GeoFitness模型和蛋白质语言模型(ESM-2),加上多层感知器(MLP),以提高预测蛋白质突变效应的准确性。在该研究中EvoAI利用AmeR蛋白82个突变体的序列-功能映射信息对模型加以训练,并生成了不同于上述突变体的共1093个新蛋白,通过对于预测强度的排序,研究人员测试了预测强度最高的10个突变体,并将其与仅利用传统DMS方法预测得到的10个具备相同突变数量的,强度最高的10个突变体进行强度对比,结果显示,通过EvoAI预测得到的突变体均有显著的功能提升,而DMS方法得到的突变体多数均无显著功能提升,甚至某些突变体不再具备明显的抑制功能。这表明EvoAI系统识别到了通过信息压缩得到的高维度蛋白信息,并有效地生成了具备功能的突变体。图二. EvoAI原理示意图和蛋白质序列-功能空间重构与现有方法相比,该方法有几个重要优势。首先,它实现了序列空间的广泛,均匀且精确的采样,这可以快速探索高维并生成更多样化和功能性的突变体,并提供有关序列-功能映射的更丰富信息。其次,该方法整合了基于经验的进化扫描和深度学习模型,充分利用了这两种不同方法的优势。研究人员可以使用深度学习得到的关键特征来动态地指导扫描过程。可解释性深度学习在未来的进一步发展可能会揭示潜在的进化规则,并为蛋白质如何适应和克服进化限制提供见解。第三,该方法可以进化和研究缺乏结构信息或涉及具有挑战性的相互作用的蛋白质。EvoScan可以针对不同的蛋白质相互作用捕获蛋白质锚点,如蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸相互作用。文章中提出的蛋白质序列-功能空间压缩的概念也有望应用于不同种类的蛋白质,并对自然界如何在有限时间内完成蛋白质空间的搜索和物种的高效进化产生一定的启发作用。清华大学药学院博士生马梓源、李文杰、沈运浩及清华大学生命学院博士生徐运昕为论文共同第一作者,清华大学药学院/北京生物结构前沿研究中心张数一为论文通讯作者。清华大学生命学院/北京生物结构前沿研究中心龚海鹏老师与清华大学药学院田博学老师为该研究提供了极大帮助。该研究项目得到国家科技部重点研发计划,国家自然科学基金,清华大学笃实专项基金和北京生物结构前沿研究中心的资助。张数一,清华大学药学院副教授,博士生导师,清华大学合成与系统生物学研究中心PI,分子肿瘤学全国重点实验室PI,入选国家高层次人才计划青年项目。长期致力于合成生物学和关键生命过程的研究,相关论文发表在Science、Nature Methods、Nature Biotechnology等。基于“还原论”的研究思路,聚焦在代谢通路、能量摄取、调控网络等领域,研究生物结构的多样性潜力和进化可能性,有些研究成果已经改写并被收录世界经典教科书。目前有机结合“重构论”的思路进行生物学研究,从而突破“还原论”研究思路的局限。侧重在优良蛋白质元件的计算机辅助从头理性设计、自动化平台赋能的高通量表征、连续定向进化系统辅助的快速精准优化等,实现蛋白质序列-结构-功能映射的建立;以及将这些设计和改造后的元件有机耦合基因线路和调控网络,从头搭建能自我复制的生命系统,从而实现对生命的重构理解和认知,并有效地应用于疾病诊断和治疗等领域。课题组长期招聘相关方向博士后,有意者请投递简历。https://www.nature.com/articles/s41592-024-02504-2
为促进前沿研究的传播和交流,我们组建了多个专业交流群,长按下方二维码,即可添加小编微信进群,由于申请人数较多,添加微信时请备注:学校/专业/姓名,如果是PI/教授,还请注明。