结构生物学“去污名化”:AI虽好,也不能贪杯喔

文摘   2024-09-19 12:15   中国香港  

引言

       结构生物学是一门古老而传统的学科,许多结构生物学家通过几十年的努力成功解析出数以万计的高分辨率结构。然而,近年来,强大的AI工具如AlphaGo、AlphaFold、ChatGPT、Gemini等不断涌现,并在生活与科研中展现了其强大的能力。特别是AlphaFold在短短一年时间内预测出超过两亿个蛋白质结构,这引发了大众对传统结构生物学家的质疑:AI是否能取代结构生物学?结构生物学的工作是否含金量低?”本文将揭开结构生物学的神秘面纱,全面地探讨AI在结构生物学领域的作用、潜力与不足



结构生物学是什么?

结构生物学是一门通过解析生物大分子的三维结构来理解其功能和作用机制的科学。其核心在于通过实验手段(如X射线晶体学、核磁共振光谱学、冷冻电镜等)获取分子结构数据,并利用这些结构数据揭示生物大分子的功能,进而揭示生命的微观秘密。简而言之,它把看不见摸不着的蛋白质、DNA等分子变得触手可及。


结构生物学的工作流程就像一条生产线,从蛋白质纯化、样品制备、数据收集、数据处理到最终的结构解析,每一步都需要精密的操作和高度的专业知识。解析结构就好比拍照,普通人与专业摄影师的拍照效果自然不同,选景、光线、构图、色彩、角度等一切细节都会影响最终的成像结果。对外行人来说,这项工作看似流水线作业,而对内行人而言,每一步都蕴含着“结构人”数以年计的经验和教训,以确保获得高分辨率的“清晰”结构图像。


 人工智能的发展

近年来,人工智能(Artificial Intelligence, AI)迅猛发展,尤其是像AlphaGo和ChatGPT这样的突破性技术,让人们看到了AI的巨大潜力。在结构生物学领域,AlphaFold2和AlphaFold3更是引起了学术界的轰动。AlphaFold好比一位学会全世界编织物样貌的工艺大师,将毛线状的氨基酸序列穿针引线,折叠成漂亮的毛衣。人工智能相对“人工”的最大优势在于其速度,AI能夜以继日地“工作”,具有人类不可比拟的计算能力。


目前,AlphaFold的数据库已经预测了超过2.17亿种蛋白质序列的结构。如此宏大的数字是结构生物学家几十年都不敢设想的。然而,预测并不等同于正确。大约35%的预测结果高度准确,45%的结果有一定偏差,而剩下的20%几乎无法准确预测。这也为人工智能在结构生物学领域的应用提出了新的挑战。


结构生物学家几十年的工作是否会被人工智能在几天内完成?蛋白质结构解析的流水线作业是否会被AlphaFold结构预测完全取代?AI的出现让不少人对结构解析工作产生了强烈质疑:“流水线工作有什么含金量?”“杰出科学家只是有钱购买冷冻电镜,电镜拍出的结构谁都能看。”这些质疑在相关视频和推文下争论不休。

这些质疑并非毫无根据,因此,本文期望向读者展示结构生物学的特殊性和不可替代性,以回应这些质疑。

不可替代性在哪?
药物研发少不了结构生物学

结构生物学家常常自嘲自己是“拍照片的”,但其中的学问可不少。样品纯化方法、结晶条件的探究、电镜样品的制备,以及结构与功能的对应关系……每个步骤都蕴含着人工智能无法替代的人类智慧。结构解析的一项重要应用是针对特殊的结构靶位点开发新型药物,进而服务于人类健康。准确的结构是药物研发的出发点,如果结构不精准,数以亿计的投资可能会付之东流。因此,深入解析药物与靶点的相互作用过程,挖掘药物机制的结构基础,是推动药物研发的重要动力。

目前,学界公认的金标准仍然是通过冷冻电镜和晶体衍射等方法获得的结构,这些通过湿实验(实验室中的化学实验)得到的结构是人工智能所无法替代的。



例如,2023年11月发表在《Cell》上的一项研究表明,钙通道蛋白抑制剂通过与钙通道蛋白结合并促使其构象(形状和结构)动态变化,导致通道开放活性被抑制。具体来说,通过冷冻电镜解析通道蛋白结合抑制剂后的构象发现,当结合二氢吡啶(Dihydropyridine,DHP)或匹维溴铵(Pinaverium bromide, PIN)等抑制剂时,通道边缘的电压传感结构域(VSD,Voltage Sensing Domain)会发生上移(Up)或下移(Down),进而推动整体构象变化,导致钙通道无法正常通过钙离子,从而起到抑制通道蛋白活性的效果。



动态结构少不了结构生物学

生物大分子在特定位置和状态下发挥特定功能,这些特点往往在静态结构的解析中无法完全展现。生物大分子的功能受其动态变化的影响,但由于技术限制,许多关键蛋白的动态变化过程目前仍难以捕捉。举例来说,虽然血红蛋白的协同效应已广为人知,且现有假说认为它有紧张态(T态)和松弛态(R态)两种形式,但血红蛋白亚基如何从紧张态“协同”变化为松弛态的动态过程仍是未解之谜。



这启示我们,在结构生物学领域,如何捕捉瞬时的微观动态过程,并将现有的“摄影机”进化为“录像机”,是现有人工智能方法无法替代的。这也需要众多研究者不断努力与探索,因为正是在这些动态过程中,可能蕴藏着生命的真正奥秘。


人工智能发展少不了结构生物学

人工智能的结构预测方法的训练数据依赖于高质量的结构解析数据。换句话说,结构生物学产生的数据是推动人工智能方法进步的基石。虽然存在许多数据增强等训练技巧,但人工智能方法的开发者依然希望能够获得更多高质量的训练数据。

例如,目前的预测方法在处理“孤儿”生物大分子(即与已知生物大分子几乎没有同源结构)时表现不佳,主要原因之一就是缺乏相关分子的高质量训练数据。要知道,我们目前已知的蛋白质结构只有几十万个,而一条由一百个氨基酸组成的序列就可能有多达1.3×10¹³⁰种不同的组合。尽管其中一些组合是不合理的,但如此悬殊的数量对比表明,我们已知的结构信息数量依然非常有限。因此,结构生物学的高质量数据产出是人工智能发展的坚实基础。


未来方向:干湿结合

如今,AI for Science的浪潮正在席卷各个研究领域,结构生物学也不例外。无论如何,我们要始终明白,AI是研究者的强有力工具。有效、快速的干实验建模和计算模拟,能为湿实验结构解析提供许多灵感与帮助,提高结构解析的准确性,也在一定程度上让原来不可能解决的问题变为可能。AI的强大计算能力也衍生出众多结构组学方向,能够从已知结构中比较相似与差异,得出更多重要结论。

干湿结合的实验路线是未来的研究策略。研究者既需要强大的干实验建模能力,也不能缺少湿实验的金标准。结构生物学不会被人工智能取代,而是在人工智能赋予的动力下腾飞。

Reference:[1] Bryngelson J D, Onuchic J N, Socci N D, et al. Funnels, pathways, and the energy landscape of protein folding: a synthesis. Proteins, 1995, 21: 167-195
[2]Varadi M, Bertoni D, Magana P, et al. AlphaFold Protein Structure Database in 2024: providing structure coverage for over 214 million protein sequences. Nucleic Acids Res. 2024;52(D1):D368-D375. doi:10.1093/nar/gkad1011
[3]Gao S, Yao X, Chen J, et al. Structural basis for human Cav1.2 inhibition by multiple drugs and the neurotoxin calciseptine. Cell. 2023;186(24):5363-5374.e16. doi:10.1016/j.cell.2023.10.007
[4]Aithani L, Alcaide E, Bartunov S, et al. Advancing structural biology through breakthroughs in AI. Curr Opin Struct Biol. 2023;80:102601. doi:10.1016/j.sbi.2023.102601

关注我!不错过任何AIMShare学术资讯!!

【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!

AIMShare课代表咨询

童鞋,看这里

目前已有1000+人关注加入我们

       

       



推荐阅读
 high-quality content 



申请季前谈:如何选择适合自己的课题组



从小白到Nature子刊发表,AI forBiology/Science学习路径


如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?

AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章