针对蛋白质结构骨架的序列设计是全新蛋白质设计中的关键问题之一。近年来,随着深度学习方法和技术的发展,全新蛋白质序列设计取得了重要进展。其中代表性的工作包括ProteinMPNN,ABACUS-R,ProDesign-LE等,都在序列设计中取得了重要进展,并进行了相应的实验验证。然而,这些代表性的方法均没有考虑蛋白质侧链的原子细节信息。一方面,蛋白质侧链构象对蛋白质执行功能具有重要作用。另一方面,大量的序列设计算法依赖结构预测来评估设计序列的可靠性,而单序列结构预测依旧是一个非常大的挑战。近期,北京大学来鲁华/张长胜团队发展了全原子蛋白质序列设计的深度学习算法GeoSeqBuilder,这一成果近期发表于Angewandte Chemie [1],文章初稿2024年3月以预印本形式发表 [2]。GeoSeqBuilder在生成序列的同时,也给出了高精度的侧链构象,可以更直接给出原子之间的相互作用,不需要进行单序列结构预测。GeoSeqBuider在天然蛋白质结构、全新设计结构和酶的序列设计中获得了高实验成功率,解析出来的晶体结构与设计结构模型的原子细节高度吻合。GeoSeqBuilder主要包含三部分:(1)多尺度图卷积网络用于学习中心残基周围5阶邻居的环境信息;(2)三角网络用于表示学习残基水平的二体和三体相互作用;(3)迭代模块用于更新序列使其收敛。最后,GeoSeqBuilder给出设计序列对应的蛋白质全原子模型。具体见图 1.GeoSeqBuilder在CATH4.3数据集上进行训练,序列恢复率达到了52%,与ProteinMPNN等方法类似。此外,GeoSeqBuilder设计出来的残基类型和野生型保持相似的物理化学性质。GeoSeqBuilder生成的残基分布与天然蛋白类似。GeoSeqBuider对侧链构象预测的结果也远优于基于传统能量函数的方法FASPR和Scwrl4(见图 2)。图 2. GeoSeqBuilder的序列和侧链构象预测结果在实验验证部分,先选择了两个蛋白,包括硫氧还原蛋白(1FB0)和全新幻想的螺旋束骨架(0705)。作者分别为其设计了9条和6条序列,这些序列均可以在大肠杆菌中以可溶形式表达。对天然硫氧还原蛋白重新设计的序列热稳定性较野生型蛋白提高了40摄氏度,X-射线晶体学结构解析表明设计的全原子模型与所解出的晶体结构高度吻合,虽然重设计序列蛋白的疏水核心堆积与野生型蛋白相比有较大变化。具体见图 3。图 3. GeoSeqBuider成功为靶标1FB0和0705设计了序列,设计模型与晶体结构高度一致以上研究表明GeoSeqBuilder可以在保持蛋白质折叠结构正确性的同时设计出新的疏水核心。一般认为疏水核心在蛋白序列的自然进化过程中是比较保守的,那疏水核心重新设计后的蛋白是否还会保持原有的功能是一个很有趣的问题。作者选择细胞铁死亡中的关键蛋白谷胱甘肽过氧化物酶(gpx4, PDB代码2obi)作为研究对象,固定gpx4的溶剂暴露残基位点,只设计gpx4的核心区域,最终选择5条序列进行实验验证,其中4条序列可以测出gpx4酶活性,3条活性高于野生型蛋白的酶活。作者随后解出了这4条有活性的序列对应蛋白的高分辨晶体结构,所有计算设计的结构模型具有高度一致性(图 4)。图 4. 应用GeoSeqBuilder为靶标gpx4设计了5种新的疏水核心堆积方式,其中3条序列对应蛋白的酶活性有显著提高该工作发展了一种基于蛋白质骨架结构和全原子模型的序列设计方法GeoSeqBuilder。该方法所设计的蛋白质可溶性好、表达量和热稳定性高,可以折叠成预设计的蛋白质结构。值得注意的是,GeoSeqBuilder不仅提供了与实验结构一致的侧链构象,新设计的序列还提供了多样化的疏水核心堆积方式,从而扩大了序列景观。GeoSeqBuilder不仅在蛋白质序列从头设计中具有重要意义,而且为蛋白质工程和蛋白质序列结构关系研究中提供了新的视角。GeoSeqBuider目前已开源(https://github.com/PKUliujl/GeoSeqBuilder)。该工作的第一作者为北大-清华生命科学联合中心2020级研究生刘佳乐,通讯作者为北京大学化学与分子工程学院/前沿交叉学科研究院定量生物学中心/北大-清华生命科学联合中心/北京大学成都前沿交叉生物技术研究院来鲁华教授和北京大学化学与分子工程学院张长胜副教授。北大-清华生命科学联合中心研究生郭政、北京大学化学与分子工程学院博士后由瀚天对该工作的完成做出了重要贡献。相关工作得到了国家重点研发计划(2022YFA303700)和国家自然科学基金委员会项目(21977007, 22237002,
T2321001)的资助。[1] Jiale Liu, Zheng Guo, Hantian You, Changsheng Zhang*, and Luhua Lai*.
All-Atom Protein Sequence Design Based on Geometric Deep Learning. Angew. Chem. Int. Ed. 2024, e202411461.
[2] Jiale Liu, Zheng Guo, Changsheng Zhang*, and Luhua
Lai*. All-atom protein sequence design based on geometric deep learning. bioRxiv (2024):
2024-03.