Green Carbon文章 | 剑桥大学苏林博士和中国科学院微生物研究所崔颖璐副研究员:人工智能推进蛋白质结构预测与设计

文摘   2024-10-10 19:15   山东  


Green Carbon

Open access


Green Carbon is an interdisciplinary journal promoting cutting-edge science and technology developments of green resources, green conversions, green processes and green products leading to low, zero or negative carbon emissions.


Advancing AI protein structure prediction and design: From amino acid “bones” to new era of all-atom “flesh”

作者:Senbiao Fang, Ren Wei, Yinglu Cui*, Lin Su*



01


背景介绍


Background



随着人工智能技术的快速发展,以AlphaFold2RoseTTAFold为主的蛋白质结构预测方法,彻底颠覆了人们对蛋白预测结构的理解与应用。然而,当前方法往往聚焦于预测蛋白质单体三维结构,而蛋白往往通过与其他生物分子(包括核酸、多糖、金属、小配体等)形成各种复杂的生物分子“组装体”来执行生理功能。不同分子单元之间的复杂结合机制——从共价和非共价结合到金属螯合作用等——在维持“组装体”生物活性方面起着至关重要的作用。因此,有效预测蛋白质与其他生物分子间的结合相互作用和整体三维结构,是一个极具挑战性的科研难题,具有重大的科学研究意义。

近日,中国科学院青岛能源所房森彪助理研究员、德国格瓦大学韦韧博士、中国科学院微生物研究所崔颖璐副研究员和剑桥大学苏林博士Green Carbon上发表题为“Advancing AI Protein Structure Prediction and Design: From Amino Acid ‘bones’ to New Era of All-Atom ‘flesh’”的文章,针对Baker等人在Science上发布的RoseTTAFold All Atom (RFAA)RFdiffusion All-Atom (RFdiffusionAA)全原子生物分子“组装体”结构预测深度学习工具https://doi.org/10.1126/science.adl2528,进行了系统性分析和点评。

1


02


文章简介


Introduction

1

Baker等人在Science上发布的RFAARFdiffusionAA两个升级版深度学习工具,极大地扩展了生物分子聚合体的计算预测广度,使研究人员能够更加深入的探索复合物分子间的复杂相互作用。在该开创性工作中,Baker等人将基于序列的建模方法与共价修饰的原子图谱相结合,有效地标记了同一生物分子“组装体”中的不同单元成分。具体而言,对小分子图,采用有效图遍历方法编码重原子,从而得到基于元素类型标记顺序的一维表达元素。此外,连接节点之间的二维化学键类型信息被用以代表成对近距关系的2D/3D轨道中,并基于1D2D表达旋转不变性,Baker等人利用周围指定手性中心原子间角度,进一步将立体化学信息整合到了2D/3D轨道结构中。整个网络的优化过程主要采用FAPE全原子损失函数。此外,RFAARoseTTAFold2RF2)蛋白质结构预测网络的基础上,对网络架构进行了重塑,无缝整合了分子相关信息。RFAA算法不仅显示出与 AlphaFold2(AF2)相当的蛋白质结构预测准确性,更擅长于生物分子“组装体”结构进行高精度预测。

RFdiffusionAA方法能够直接围绕给定小分子和其它非蛋白分子结构,进行结合口袋结构预测。RFdiffusionAA扩散模型是通过使用RFAA结构预测权重训练去噪扩散概率模型DDPM来开发的。该模型旨在仅考虑小分子和其他生物分子成分的情况下,对受损的蛋白质结构进行去噪。尽管RFdiffusionAA只能产生主链,Baker等人随即使用LigandMPNN进行了蛋白质结构的序列设计,并利用Rosetta GALigandDock能量计算来达到最终预测和评估设计蛋白质-小分子界面的目的。最终预测结果表明,在给定的非蛋白质分子条件下,RFdiffusionAA方法对蛋白质结构从头设计具有显著的增强作用。更为重要的是,Baker等人选择了三种不同的小分子用于结构设计,通过后期湿法实验进一步证实了RFdiffusionAA预测具有特定构象结合口袋新型蛋白质的有效性。

虽然RFAARFdiffusionAA方法取得了巨大的突破,然而人工智能模型的准确性本质上取决于其训练数据集的质量和多样性,而这些数据集通常来源于RCSB PDB蛋白质晶体数据库中公布的现有晶体结构。尽管RCSB PDB数据库为结构信息提供了重要资源,但现有晶体结构并不包含尚未被表征的新型或独特蛋白质结构,有限数量的晶体结构偏向于某些类型的蛋白质,缺乏代表结构的多样性。此外,目前无法获得能够显著影响蛋白质功能的翻译后修饰及动态多变构象,因此在AI训练数据集中也未得到充分考量。与单个蛋白质结构相比,解析生物分子组装体的晶体结构确实是一个更复杂的挑战,在人工智能模型构建过程中并不包含有效的结构训练模型。因此,上述人工智能领域常见问题,也理所当然的限制了RFAARFdiffusionAA方法预测可靠性,严重阻碍了两种模型预测的有效性。因此,未来获取更加可靠的训练模型并相应地调整模型预测算法,能够明显提RFAARFdiffusionAA预测的准确性。

1


总结及展望

1

随着人工智能技术的迅猛发展,RAFFRFdiffusionAA方法使得对小分子和大生物分子“组装体”的建模预测进入“全原子建模”时代。不久的未来,多种生物分子组合体和各类功能蛋白质将融入到所有研究领域中。这些工具将在阐明生物分子组合体机制、设计抑制剂、预测特定功能目标、探索变构调控以及促进基于结构的设计等方面发挥关键作用。


03


作者


 Author


房森彪 助理研究员

房森彪,博士,2022年毕业于中南大学计算机学院,获得博士学位。毕业后加入中国科学院青岛生物能源与过程研究所。从事生物信息学和计算生物学研究,主要研究基于物理学原理的计算化学理论和分子模拟技术,指导生物酶蛋白质结构和功能的改造,加速酶的设计与开发。近年来相关研究成果发表在Briefings in Bioinformatics、Nano Letters、IEEE/ACM Transactions on Computational Biology and BioinformaticsEuropean Journal of Medicinal Chemistry、Angewandte Chemie和ACS Applied Materials & Interfaces等杂志上。


韦韧 博士

韦韧,博士,德国格赖夫斯瓦尔德大学生物化学研究所塑料生物降解研究组负责人,Green Carbon青年编委。2007年硕士毕业于德国海德堡大学;2012年博士毕业于德国莱比锡大学。主要从事塑料和相关污染物的酶解和微生物降解相关研究工作。近年来相关研究成果发表在Nature Catalysis、Nature Communications、Angew. Chem. Int. Ed.等国际知名杂志上。


崔颖璐 副研究员

崔颖璐,中国科学院微生物研究所,副研究员,博士。主要研究方向为基于人工智能的微生物催化元件挖掘、机理解析、酶工程改造等。发表40余篇SCI文章,其中第一/通讯作者论文16篇,包括Nature Catalysis,Nature Communications,ACS Catalysis等高水平国际期刊。累计引用880余次,他引770余次,第一作者论文单篇最高他引276次。主持国家自然科学基金面上项目、中国科学院战略生物资源能力建设项目、北京市自然科学基金项目、福建中烟工业有限责任公司企业合作项目等项目,2022年入选中国科学院青年创新促进会,2023年获中国微生物学会酶工程专业委员会“青年酶工程学家奖”荣誉,科研成果获2022年度河北省科学技术进步奖一等奖。目前担任中国毒理学会计算毒理学专业委员会委员,中国化工学会生物化工专委会-青年学者工作委员会委员,Green Carbon期刊青年编委。


苏林 博士

苏林,博士,出生于中国江西省鹰潭市,2010年毕业于南京农业大学并获得学士学位。硕士和博士就读于东南大学生物科学与医学工程学院,师从付德刚教授。博士期间曾在劳伦斯伯克利国家实验室,莱斯大学进行联合培养,师从Caroline Ajo-Franklin教授。毕业后于2021年加入剑桥大学化学系Erwin Reisner教授课题组。现任剑桥大学Leverhulme Early Career Fellow,Lucy Cavendish 学院Research Fellow。主要从事微生物胞外电子传递过程的研究和应用,构建微生物-材料混合体系用于太阳能转换及二氧化碳固定等。先后在在Nature(2022;2018),Biosensors & Bioelectronics(2020),eLife(2019),Current Opinion in Biotechnology(2019)等国际期刊上发表论文20余篇。目前担任Green Carbon青年编委。

相关论文信息


本文为开放获取文章

扫描二维码或点击左下角“阅读全文”可查阅全文



论文信息


S.B. Fang, R. Wei, Y.L. Cui, et al. Advancing AI protein structure prediction and design: From amino acid “bones” to new era of all-atom “flesh”[J]. Green Carbon, 2024.


论文网址


https://doi.org/10.1016/j.greenca.2024.05.001






供稿:房森彪 助理研究员

(中国科学院青岛生物能源与过程研究所

编辑:Green Carbon 期刊中心

审核:Green Carbon 期刊中心

//////////

关于

Green Carbon

1



Green Carbon(绿碳,ISSN 2950-1555)是由中国科学院青岛生物能源与过程研究所创办、与科爱集团联合出版的开放获取英文学术期刊,聚焦绿色碳资源的开发与利用、化石碳资源的绿色转化与利用、排放碳资源的固定与利用,以及多尺度碳循环的分析与管理等主题,推动可持续发展领域的科技创新,打造多学科融合的国际一流学术交流平台。期刊将发表原创性研究论文、综述类文章、社论、简短通讯、观点和专题类文章。

官方网站


https://www.keaipublishing.com/en/journals/green-carbon/


联系方式


greencarbon@qibebt.ac.cn




欢迎访问期刊主页






扫码进入文章投稿






编辑部联系方式




邱翔  博士

电话:(0532)58261072;15640526517

邮箱:qiuxiang@qibebt.ac.cn;

greencarbon@qibebt.ac.cn

路帅敏 博士

电话:(0532)58261072;13210205278

邮箱:lusm@qibebt.ac.cn;

greencarbon@qibebt.ac.cn

地址:山东省青岛市崂山区松岭路189号,266101


长按关注

欢迎您的投稿!





往期经典回顾

向上滑动阅览

第二卷第二期

<<向右滑动查看更多精彩

向上滑动阅览

第二卷第一期

<<向右滑动查看更多精彩

向上滑动阅览

第一卷第二期

<<向右滑动查看更多精彩

向上滑动阅览

第一卷第一期

<<向右滑动查看更多精彩

向上滑动阅览

Green Carbon


Green Carbon
中国科学院青岛能源所主办的国际学术期刊,以创办绿碳领域国际一流学术期刊为目标,聚焦绿色碳资源的开发与利用、化石碳资源的绿色转化与利用、排放碳资源的固定与利用以及多尺度碳循环的分析与管理等主题,打造跨学科融合的学术交流平台和学术共同体。
 最新文章