人工智能重构的何止蛋白质结构预测——浅谈AI应用对生物医药体系的冲击 | 李旭

科技   2025-02-01 20:01   安徽  
■ 导读
人工智能在近三年来,一而再、再而三地重构了与蛋白质结构预测相关的诸多科学研究领域,并且斩获了2024年的诺贝尔化学奖。但这项工作的影响,绝不局限于科学界,它所辐射的边界已经触及我们每个人的健康与未来!

2024年10月9号,诺贝尔化学奖被颁发给了一项用来解决生物学问题的人工智能技术。这个奖项包含两个部分,一半奖励给华盛顿大学戴维·贝克(David Baker)教授的“蛋白质从头设计”,另外一半奖励给谷歌DeepMind的戴密斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper)的“蛋白质结构预测”。实际上这两项工作解决的是同一个问题的两面,它们讲述的都是和蛋白质结构有关的故事。

就在化学奖颁布的前一天,2024年的诺贝尔物理学奖刚刚颁发给了“神经网络和机器学习”,当时就有人在惊呼“物理学不存在了”。而化学奖的颁布,让大家再次炸锅,有很多人在问,是不是化学也不存在了?
但是作为一个生物化学出身、自己就做结构生物学的科研工作者,我对于诺贝尔化学奖会授予刚刚讲过的三位获奖者,一点都不意外。其实在2024年诺奖颁布之前,我就已经在各大社交平台发布过化学奖的预测视频并且完美命中(预测视频链接:https://v.douyin.com/ifs1hF1F/ 04/02 e@O.xS Cus:/)。
但想要让更多的朋友明白,为什么一项生物学突破,足以拿到诺贝尔化学奖,我们就必须先搞清楚什么是蛋白质结构。

什么是蛋白质结构

蛋白质作为支撑整个生命世界的四大基础物质之一(另外三个是核酸、糖类还有脂质),是我们身体里绝大多数生命活动的具体执行者。
蛋白质是由二十几种基本氨基酸组成的。我们可以把每一种氨基酸想象成一颗美丽的珍珠,不同的蛋白质会按照不同的顺序将这些珍珠串成一条珍珠项链。不同种类的珍珠有自己的脾气和特点,所以靠的比较近的那些珍珠,会按照它们的本性聚拢或者疏远,从而形成一些特殊的局部小结构。
而所有这些局部小结构通过互相吸引、彼此排斥之后,会最终调整坍缩到一个在能量上相对稳定的状态。这时候它呈现出来的就会是这根珍珠项链、也就是这个蛋白质应该有的样子。
刚刚我们讲的这个过程,有个很专业的名字叫做“蛋白质折叠”(protein folding)。关于它还有一个非常有名的理论,叫做安芬森法则(Anfinsen's Dogma)。20世纪50年代末,美国生物化学家克里斯琴·安芬森(Christian Boehmer Anfinsen,1916 - 1995)提出假说,认为蛋白质的氨基酸序列包含了其天然结构的全部信息。这里的核心是“全部”,也就是说,单纯由氨基酸序列就能完全决定蛋白质的天然结构,与历史无关。这是为什么呢?因为蛋白质的天然结构就是它能量(专业说法是“自由能”)最低的状态,即热力学最稳态。
如何证明这个假说呢?安芬森通过实验证明,天然结构被破坏的蛋白质,不需要外部能量输入又会自发变成天然结构。他因此获得了1972年的诺贝尔化学奖,他的假说也升格成为生物化学领域的重要法则之一。

但是,单一蛋白质的折叠还不算完,当很多功能相关的蛋白质分别完成折叠之后,还可以进一步组装在一起,形成更加复杂的生物大分子机器。这些生物大分子机器可以像我们熟悉的宏观世界里的那些机器一样,帮助生物体完成更加复杂的生命活动。

所以说蛋白质的折叠决定了它的结构,而它的结构决定了它的功能。我们只要搞清楚蛋白质的结构,是不是就可以知道每一个生命过程是怎么运作的?疾病和衰老又是怎么发生的?

如何获得蛋白质结构

为了掌握这把能通往健康和长寿的钥匙,科学家们一直在努力寻找各种方法。在实验层面上,我们可以用X射线晶体衍射、核磁共振波谱学,还有冷冻电镜三维重构等方法,去解析蛋白质的真实三维结构。但是缺点就在于,它们又贵又慢。搞定一个蛋白质结构,平均需要花费10万美元以及一个熟练科研工作者几个月到几年的时间。所以即使经过四五十年的积累,全世界科学家解析的结构总数也只达到23万余条,而且其中还有很多是重复或者是相似的结构。
但是根据我们刚才提过的安芬森法则,在给定的条件下,蛋白质折叠之后的三维结构是完全由氨基酸序列决定的。所以从理论上来说,只要找到了正确的方法,并且有足够的算力,蛋白质的结构是完全可以通过计算得到的。
怀揣着美好的理想,一代又一代的计算生物学家,做出了大量的尝试。有的采用的是同源结构比对的策略,简而言之就是照猫画虎,通过和已有结构比较,来推测一个新的蛋白质大概会长什么样子。但这种方法的缺点在于,对于没有参考答案的、全新的蛋白质结构就无能为力。
而另外一些科学家追求的是完全依照物理学的定律和公式,去计算清楚每一个原子在整个折叠过程中的所有动态变化。这样的好处是可以真正理解蛋白质折叠背后的原理,但坏处就是计算量极度庞大。
斯坦福大学的维贾伊·潘德(Vijay Pande)教授为了能够汇集算力,曾经发起过一个叫做 Folding@home的科学合作项目,希望利用所有项目参与者电脑中的冗余算力,一起来计算全新蛋白质的折叠过程。如果你下载了他们的软件,那么当你的电脑熄屏的时候,你的电脑就在悄悄运行蛋白质折叠的计算。但哪怕汇集了数以百万计的人的算力,真正在论文致谢中提到了Folding@home的也只有不到200篇文章,对整个结构生物学领域产生的影响微乎其微。
这种停滞不前的局面,直到谷歌公司的AlphaFold系列软件横空出世,才终于被打破!

AI重构蛋白质结构预测

在蛋白质结构预测领域,有个非常著名的比赛叫做“结构预测关键评估竞赛”(Critical Assessment of Structure Prediction,英文缩写是CASP)。其实早在2018年的时候,AlphaFold第1代软件就已经参加了比赛,当时他们拿到了第一名。但是因为和第二名戴维·贝克研究组的软件RoseTTA Fold差距并不是太大,所以并没有引来太多的关注。但是到了2020年第14届关键评估比赛上,AlphaFold第2代软件以不可阻挡的姿态横扫所有其他对手,单个蛋白质的预测结果和实际实验结果之间的吻合度高达92.4%。更关键的是,这个软件在极短的时间内,先后完成了100万个和2亿个蛋白质结构的预测解析,让人们第一次意识到计算真的有可能取代结构实验。
更加横扫的是在2024年,DeepMind小组发布了AlphaFold第3代软件。这一次他们的结构预测范围进一步涵盖了蛋白质、核酸、还有小分子,更解决了以前所有预测软件都无能为力的生物分子之间的相互识别问题。一时之间不只是科学界,整个产业界都开始为之疯狂。
而DeepMind小组之所以能够取得如此大的成功,和2024年诺贝尔化学奖的两位得主,有着最直接的关系。
2018年时候的第1代AlphaFold软件,虽然已经开始采用神经网络,但是用的整体策略还是科学界最传统的那些思路。直到2018年John Jumper入职谷歌,大刀阔斧的推翻了原有的整个架构,这才通过深度卷积神经网络和注意力模型,让第2代AlphaFold软件获得了翻天覆地的提升。在此之后,随着transformer和diffusion模型的不断成熟,AlphaFold再次完成迭代,这才有了第3代软件能够在2埃实验误差范围内准确预测80%蛋白质和配体复合物结构的超强实力。两埃有多大?它只有一个纳米的20%,基本上就是一个钠原子的半径。这种准确率,不管是做科研还是做药物研发,都够用了。在这个过程中 DeepMind的领导者Demis Hassabis也绝对不能忽略,他不但本人就是人工智能方面的天才,还是搭建了整个AlphaFold 19人团队的灵魂人物。
随着AlphaFold在蛋白质结构预测方面取得巨大成功,他们的老对手华盛顿大学的戴维·贝克教授,通过在自己搭建的、被誉为全世界最懂生物学的RoseTTA Fold软件系统里边引入了transformer和diffusion模型,让他们在蛋白质折叠的反向问题即蛋白质设计领域取得了举世瞩目的成功。蛋白质折叠是给定氨基酸序列,预测空间结构,而蛋白质设计是希望获得某种结构,寻找相应的氨基酸序列。戴维·贝克第一次实现了可以按照人类的需要,无中生有设计出全新蛋白质分子。这些设计出来的分子不但能进入生物体发挥各种预设的功能,甚至能够像积木一样实现自我组装,在体内体外拼出各种各样的形状。

值得注意的是,中国科学家虽然是蛋白质领域的后来者,但已经做出了重要的贡献。例如我的同事、中国科学技术大学生命科学与医学部刘海燕教授,早在2022年就率先利用神经网络能量函数,搭建了可以按指定主链结构给出具体氨基酸序列的SCUBA模型(Nature 2022),成为最早把人工智能引入蛋白质设计的先驱之一。2024年,通过引入深度学习算法,该模型升级为SCUBA-D(SCUBA-diffusion)模型,不但在扩散模型训练中引入了对抗损失(adversarial loss), 能有效避免出现物理上不可行的结构,还因为不需要使用已有结构预测网络进行降噪,让这个模型能跳出对已知天然结构的偏好,更有机会设计出自然界中尚未发现的全新功能和结构。这个领域目前发展十分蓬勃,各国科学家交替领先,中国大有可为。

而这两大类技术带来的震撼,其实才刚刚开始,因为它们已经引领着整个生命健康领域进入了一个端到端的全新时代。

人工智能制药新时代

首先,随着技术突破,大量最新的蛋白质预测数据库还有设计软件已经准备就绪。由谷歌主导的结构数据库,已经公开释放了大概2亿个蛋白质的结构模型。而扎克伯格的Meta公司推出的esm-fold软件,直接向全世界免费提供了超过6亿个蛋白质的三维结构数据。在蛋白质设计工具方面,无论是戴维·贝克的RoseTTA Fold、还是第3代AlphaFold软件,还有国际蛋白质数据库PDB提供的全新服务,都能为准备入场的玩家助上一臂之力。而已经入场的玩家,主要集中在生物医药行业。
可能很多人都会有这样的一个感慨,那就是:好的药、新的药,为什么这么贵?原因就在于想要研发出一个全新的药物,平均需要花费26亿美元和超过15年的时间。在这其中发现药物的靶点,并且找到那个可能有效果的药物分子,大概就需要消耗超过10亿美元和8年时间。但是人工智能的出现、还有蛋白质预测领域的突破让我们突然意识到,对于像药物开发这种长周期的复杂问题,其实我们不需要在每一个环节都得到确切的结论。对于这种很难证实、但是容易证伪的工作,我们完全有希望通过人工智能的介入,把找到候选药物分子这个环节的成本缩减到几百万美元,把时间缩短到一两年之内。如果能够做到这一点,我们完全可以把药物的研发成本降低40%~60%。

就在最近,不断有好消息传来。Iambic制药公司借助人工智能工具和思路,只花了9个月时间,就开发出了一款全新的药物候选分子,并且在24个月内进入了临床实验。我国复旦大学郁金泰教授团队联合冯建峰/程炜团队运用人工智能技术,成功筛选出了一种叫做YWHAG的新型阿尔兹海默症标志物,这种标志物在老年痴呆早期筛查中的准确率高达85 - 96%。
在医学影像方面,人工智能技术也展现出了巨大的潜力。在2024年的联合国人工智能峰会上,有这样一则病例,一位咳嗽患者只是去做了一次常规的CT,但是人工智能图像识别系统非常敏锐地发现,他很有可能患上了早期胰腺癌。正是通过人工智能提醒,这位患者及时确诊并通过手术被治愈了。除此之外,在人类历史上大概有30%的高质量数据都是和健康医疗有关系的,但是这些健康医疗数据里仅仅只有5%得到过有价值的深入分析,而处理和分析数据正是人工智能最擅长的事情!通过对这些沉睡中的金矿进行挖掘,很多以前我们束手无策的健康和长寿问题,说不定就能找到答案。
面对如此喜人的形势,商业机构预测,在人工智能医疗领域,每年的增长速度将超过29%。到2032年的时候,产值将达到700亿美元。所以一时之间,人工智能医疗领域成为了全球投资界的新热点。像是大家都熟悉的英伟达公司,它投了14家制药企业。而亚马逊公司和4家全世界知名的制药巨头合作,建立了两家大型的人工智能服务企业。谷歌公司开始和insmed深度合作。而我们国内的科技巨头,无论是腾讯、阿里、百度还是华为,都已经深度介入人工智能医疗领域。
但在我看来,现在已经发生的一切,其实只是人工智能对于这个世界重构的开始。

AI重构生命健康研究范式

首先我们必须要认识到,现阶段,人工智能仍然很不完美。
华人数学家陶哲轩不断在提醒我们,人工智能其实被我们高估了。因为它依然还只是一台基于数学的猜测机,人工智能本身还不够智慧。
我国著名药学家徐华强教授最近发表的工作也在提醒我们,哪怕是已经被吹到神乎其神的第3代Alpha Fold,它给出的疾病相关复合物预测结果和实验结果之间相差甚远,而这种误差在制药领域是完全无法接受的。
虽然人工智能依然还有很多的不足,但是截至2024年5月的一组数据告诉我们,人工智能生成的药物分子,在一期临床实验里的成功率达到了80%~90%。而传统方法的总体成功率只有50%。在进入2期临床试验以后,人工智能药物的成功率大概是40%,这和整个制药界的历史水平是相当的。所以从现有数据来看,人工智能的药物开发成功率已经不比人类差了。
而且大家不要忘了2024年刚刚拿了诺贝尔物理学奖的Hinton老爷子的那句话,人工智能现在还只是一头年幼的狮子,谁也无法预料它长大以后会变成什么样子。对于人工智能,我们既需要提防、小心、但同时也可以满怀期待。

最后我还想聊几句可能有点务虚的问题。
随着人工智能的高速发展,很多人都在焦虑该如何与人工智能相处。这里我想借一个例子,来说一下我的观点。DeepMind最早开发的一款软件叫做AlphaGo,它曾经打败过全世界最强的两位围棋选手,韩国的李世石和中国的柯洁。但是人工智能的介入并没有毁掉围棋这项运动,现在的围棋比赛依然精彩,并且发展到了一个更高的维度。现役世界第一棋手申真谞曾经说过这么一段话:在AI时代以前,人类自我筑成藩篱,躲在里面把“未知”当成“艺术”,而AI恰恰向人类展示了藩篱之外有更深奥的艺术。所以我个人非常希望能够借助人工智能的帮助,看到更广阔的真实。
英伟达公司的老总黄仁勋,坚信未来的生物学必然是数字化和工程化的。但是这种数字化和工程化,难道就只是在旧有的科研流程和范式的基础上,用人工智能去进行修补和辅助吗?
有没有可能,我们可以更大胆一点?用纯粹的人工智能的视角去重构我们的科研流程和范式,用一个更大的视野,去重新认识生命的奥秘?


■ 扩展阅读

我本来谈的是诺贝尔物理学奖为什么发给AI,结果连化学奖都预测了 | 袁岚峰

关键技术的原始创新!中国建立新的蛋白质从头设计方法 | 科技袁人

为什么诺贝尔化学奖又被人工智能学者拿了:阿尔法折叠,蛋白质结构预测易手 | 张军平

人工智能喜提诺奖,科学是否已经Next Level了?| 墨子沙龙

人工智能未来会完全取代人类科学家吗?何川教授:目前还没看到这种可能性 | 墨子沙龙


■ 作者简介

李旭

中国科协科普专业研究员,中国科学技术大学副教授、生命科学与医学部党委委员、生命科学学院副书记、国家级生命科学实验教学示范中心副主任、安徽省生物化学与分子生物学学会秘书长、科普中国专家。长期从事生物化学和微生物学教学科研工作,发表相关研究论文70余篇,获安徽省教学成果一等奖及安徽省杰出青年科学基金资助。2021年开始开展大众科普工作,发表科普短视频600余部、科普短文数十篇,举办科普讲座百余场;任中国生物化学与分子生物学学会、中国生理学会科普专家;作品入选 “典赞·2023 科普中国”百大科普短视频,获中国科学院科普讲解大赛金奖、科普中国2023年度典型创作者代表、2023搜狐视频十大播主、百度2023百大影响力作者、2024百度创作者“知识先锋奖”、2023/2024搜狐视频百大播主等称号。




风云之声


科学 · 爱国 · 价值

风云之声
科技与战略风云学会,科学素养,家国情怀,横跨文理,纵览风云。《周易·文言》:“九五曰:飞龙在天,利见大人,何谓也?子曰,同声相应,同气相求。水流湿,火就燥。云从龙,风从虎。圣人作而万物覩。”
 最新文章