五战蛋白质结构预测风向标CASP,南开大学郑伟:竞争性与难度提升,关注实际生物问题

科技   2025-01-02 12:12   北京  

作者:李宝珠

编辑:十九、李姝

本文由郑伟教授授权发布,转载请联系本公众号获得授权


HyperAI超神经有幸与南开大学郑伟教授进行了一次深度访谈,透过具有行业风向标意义的国际大赛 CASP,他为我们剖析了当下蛋白质结构预测领域的发展趋势。


「CASP14 赛前,很多课题组看到 DeepMind 来参赛,觉得他们带来的成果可能和上次 (CASP13) 差不多,大家都没太当回事」,南开大学郑伟教授彼时正在密西根大学张阳教授实验室交流学习,先后 3 次随团队参赛的他,见证了初代 AlphaFold 的崭露头角,以及 AlphaFold 2 的一战成名。


正所谓「外行看热闹,内行看门道」,当媒体铺天盖地宣传 AlphaFold 夺冠时,与其在 CASP13 同场竞技的参赛者们,其实并不似外界那般惊诧狂热。郑伟回忆道,当时的 AlphaFold 仍然没有跳脱出「Distance 预测」的框架,大家一致认为「我们做一做,可能几个月就能反超 AlphaFold」,同时也感觉到,短期内行业很难涌现方法上的创新了,甚至进入了「瓶颈期」。


也正因如此,大家最初对于 DeepMind 在 CASP14 中的表现并没有过高的期望。


2020 年 11 月的最后一天,CASP14 揭晓结果,郑伟及团队在服务器组的竞赛中夺魁,而组委会通知结果时,还带来了另一个引人深思的消息:「有一组的表现是 excellent,和别人非常不一样,远远超过其他参赛团队」。他很快意识到可能是 DeepMind「搞了一个大东西出来」。


结果无需赘述,AlphaFold 2 堪当 excellent。「确实让我们感到吃惊,他们做的确实挺好」,郑伟等人当时分析道,「AlphaFold 2 很好地整合了学术界课题组过往的优质成果与经验,并且投入更大精力进行模型训练,找到了最优解决方案,AlphaFold 2 的表现真的让人眼前一亮」。


随后的 CASP15 被称为「后 AlphaFold 2 时代」的重量级赛事,伴随 AI 革新蛋白质结构预测的热度高涨,参赛队伍大幅增多,竞赛也得到了更加广泛的关注,从基础研究到应用研究,从学术界到工业界,都期待着更多惊喜。而这也是郑伟第 4 次参加 CASP,经历了从结构优化到结构预测的转变,积累了丰富的经验,在更加激烈的竞争中,他主持开发的 D-I-TASSER 算法和 DMFold-Multimer 算法在不同的赛项中斩获多项冠军。


CASP15中,郑伟教授团队的预测结果
及AlphaFold 2预测结果与实验结构(真实结构)的对比


时间来到 2024 年,CASP16 如约而至,已经回到南开大学的他再度带队参赛,涉猎的赛道、赛项更加广泛,加之恰逢 AlphaFold 3 开源,他仍然选择「坚守本源」,依旧在多个赛道中拔得头筹。


赛果公布后,HyperAI超神经有幸与郑伟教授进行了一次深度访谈,透过这个具有风向标意义的国际大赛,他为我们剖析了当下行业发展趋势,并基于个人经历帮我们总结了 AI for Science 研究人员的成长路径。


此外,郑伟教授还将于 1 月 15 日 19:00,以线上直播的形式为我们深度分享其成果——基于深度学习的生物大分子及其互作的三维结构预测,欢迎预约观看直播 ⬇️




入门 CASP,从优化到预测


郑伟的本科、硕士、博士均毕业于南开大学,最初就读于数学院的信息方向,但学院当时便开设了生物信息学,同时也有多位老师一直在深耕蛋白质结构相关的工作,所以在决定从基础数学研究转向应用时,他便选择了这个方向。「我是先接触的问题,才接触的工具」,他硕士期间便开始专注于蛋白质结构领域的研究了,当时 AI 在该领域的应用远不似当下这般广泛,所以他当时接触到的工具「比较杂」,包含了统计工具、传统算法、机器学习、深度学习等等。


和所有的毕业生一样,他硕士学习接近尾声时也有过犹豫挣扎——是着手准备就业还是继续读博?「在日本庆应义塾大学进行交流学习期间,感受到了浓郁的学术氛围,坚定了想要继续往科研道路走的想法」,如今想起,在日本及美国的两次学习交流对他影响颇深。


2015 年,博士最后两年,他远赴美国密西根大学进行联合培养,在张阳教授实验室快速成长。


「感谢张阳老师,带我入了结构预测的门」,正如前文所述,郑伟曾先后 3 次跟随张阳教授实验室参加 CASP,在这个被誉为「蛋白质结构预测的奥林匹克竞赛」上,他在实战中积累了大量经验。


初到美国几个月后,他懵懵懂懂地参加了 CASP12 蛋白质结构优化 (refinement) 赛道的比赛,初出茅庐,成绩并不理想,但却足以令他看清自己的兴趣所在——如果能够将别人预测结构的精度提升,为何自己不直接做蛋白质结构预测呢?


「我当时就是基于这么一个朴素的逻辑想法,决定直接做结构预测」,所以在 CASP13 时,他便跟随张阳教授,面向结构预测,从模板比对、模板检索做起,进而基于模板的结构预测构建了一个算法 CEthreader,并与其他团队成员协作开发了算法服务器 C-I-TASSER,取得了服务器组的第一名。


这次在行业大赛中的初露锋芒也给他带来了不少信心:「我觉得结构预测还不错,有点可做,所以后来陆陆续续围绕这个方向开始深耕」。


回望从结构优化到结构预测的跨越,郑伟坦言,「挑战是有的,但也有共通点」。首先,两个方向的方法论是两套体系, 无法相互借鉴或直接迁移经验,其中「优化」需要面对初始模型质量参差不齐的难点,可能鲜有提升空间,甚至可能存在错误,而「预测」则是从零开始,难度可想而知。其次,二者都是锚定原子层面的空间坐标,在空间移动或变换上是有共同之处的,所以「也没有想象的那么难」。


确定在结构预测领域深耕后,郑伟又参加了 CASP14 及 CASP15。在 CASP15 中专注于蛋白质单体与蛋白质复合物这两个方向,并在蛋白质复合物预测中,以远高于其他参赛团队的成绩夺冠。


CASP15中,郑伟教授团队的预测结果
及AlphaFold 2预测结果与实验结构的对比



行业风向标:注重解决实际问题


作为每两年才举办一次的国际赛事,始办于 1994 年的 CASP,在 30 年中见证了无数行业重要成果,很好地反映了生物学领域的发展趋势。五战 CASP 的郑伟教授介绍道,CASP 的题目及比赛模式设定不是组委会拍脑袋想出来的,而是成员集中讨论而来,并且还会召集参赛团队听取建议,了解当下行业比较关注的问题。


毫无疑问,参与到这个高水平竞赛中的团队也均是在领域内深耕多年的资深专家学者,无不在各自的研究方向上拥有独到见解,正如郑伟所言,「大家坐在一起讨论提出的这些方向,可能正是计算结构生物学当下比较热门的,或者说是亟待解决的、与生物学联系比较紧密的方向」。

换言之,CASP 一直在为解决行业热点问题出谋划策。


回顾不久前结束的 CASP16,他认为「整体竞争性、难度相较之前都有所上升」。首先是参赛团队比历届明显增多,「今年应该是比赛举办以来参赛团队数量最多的一届,并且主要集中在学术界,很多参赛经验丰富的老 CASPer 出席,所以整体竞争非常激烈」。同时,据他观察,近年来有越来越多的国内团队参与到了 CASP 竞赛中,并且取得了不俗的成绩,此外亚洲团队比例也在提高,其中韩国生物信息学领域受益于几位业内大佬的「空降就职」,参赛团队规模有明显变化。


其次,比赛难度增强,一方面象征着蛋白质结构预测领域的整体技术提升,另一方面也印证了行业需求更加清晰,所以本次竞赛「更加倾向于实际生物学问题」。


谈及 CASP 难度上升、出题类型更加广泛的趋势,郑伟教授分析主要有两方面原因。一方面,学术界与工业界在蛋白质预测精度上整体是在不断提高的,在 2015 年至 2020 年间,蛋白质单体结构预测精度就已经在快速上升,学术界的硕果累累,「把单体结构预测问题做的很接近极限了」。尤其是在 AlphaFold 2 面世后,综合了工业界的优势,模型能力更强,从而将精度又提升到了一个新的高度。


可以说,「蛋白质单体预测精度在某些领域上已经很难再有所精进了,所以大家开始转向其他新问题的研究,例如蛋白质复合物、蛋白质变构等等」,而这一趋势也直接体现在了竞赛题目上,但新领域的前期研究较少,所以可能导致大家觉得题目难度增大。


另一方面,在过往的十余次竞赛中,组委会给出的题目已经包含了些许生物学信息与背景,「其实有点脱离生物学实际问题」,同时这一类题目参赛团队普遍已经完成的很出色了。以蛋白质复合物结构预测为例,其中包含 A、B 两种蛋白,往届比赛会公开 A、B 的含量与占比,从而降低结构预测难度,但在实际应用中显然是无法明确知晓这些信息的,所以本次竞赛也是一改以往的题目设置,贴近实际情况,要求参赛团队从头预测完整结构。


而这其实也给了包括郑伟在内的参赛选手一个「惊喜」,他介绍道,组委会在周三时通知,从次周开始释放 0-base 题目,满打满算也只有 5 天的时间准备新的 pipeline 参赛,团队「没日没夜、不眠不休」地开发了一个小算法,并联系相熟的生物学家「顾问团队」,结合生物学文献帮我们进行了推断校准。


此外,CASP16 还在原有的蛋白质单体结构预测 (REGULAR)、蛋白质复合物结构预测 (MULTIMER)、准确性评估 (EMA)、核酸结构预测 (RNA)、配体复合物结构预测 (LIGAND) 赛道之外,新增了大分子多构象预测 (ENSEMBLES),这 6 大赛道之中还分列了很多细分项目,相互之间也有交叉。


尽管如此,郑伟「带队出征」仍然取得了亮眼的成绩。他及团队不仅参加了除小分子绑定外的 5 个赛道,同时还面向不同赛道构建了单独的算法来应战,并在蛋白质单体单结构域课题组排名第二,在核酸多聚体方面 (z-score>-2.0) 服务器组排名第一,在复合物整体折叠精度估计方面排名第一,在蛋白质-核酸复合物预测方面排名第一,在多构象预测方面 TM-score 排名第一。


值得关注的是,5 月 8 日,CASP16 开赛一周后,AlphaFold 3 服务器上线,随即便有参赛团队开始尝试用其替代自己的算法。「而我们当时比较自信,就没怎么用 AlphaFold 3」,也是在与团队商议后,他们决定「坚守本源」,并且成为了蛋白质复合物结构预测 Top 排名中唯一一个没有用 AlphaFold 3 的团队。


郑伟教授及其他 CASP16 参赛代表队
与 CASP 组委会主席 John Moult 合照


虽然现在谈起,郑伟教授笑言:「目前来看,我们可能有点太自信了」,但在笔者看来,在当时的高压竞赛环境下,面对竞争者都「叠加 buff」的情况,作出这样的决定,并取得如斯成果何尝不需要魄力与实力。



厚积薄发,AI4S 的入门与积累


诚然,郑伟团队在 CASP16 中寻求生物学家技术支持一举,也是 AI for Science 领域中常见的合作模式。


所谓的 AI for Science 旨在利用 AI 的优势在传统科研领域上进行难点攻关,或是提升效率与准确率,既要理解研究领域的需求与痛点,也要掌握 AI 技术。显然,拥有上述交叉学科背景的人才难能可贵,而在此大趋势下,很多科研人员也开始自学 AI,同样地,专注于 AI 或计算领域的研究人员也越来越多地将目光投向了生物医药、材料化学、地理信息科学等领域。


从信息方向入门的郑伟教授分享道,生物信息学的特点是「入门很快,但中间的积累过程其实是比较漫长的,厚积薄发,积累过后的爆发也是比较快的,但是随即会进入瓶颈期,进一步向上提升时可能又需要很长时间的积累」。


郑伟教授绘制的「积累曲线」


具体而言,蛋白质相关的研究对于生物学背景的要求其实相对比较宽松,「摸清楚 20 种氨基酸,可能个把月就能入门」,随后便是针对实际问题研究算法的开发应用,这个过程需要一定时间的积累,他回忆道:「整个硕士学习期间,我都在积累算法的基础工作」。


而蛋白质结构预测则成为了他跨越瓶颈期的突破点,也正是在密西根大学张阳教授实验室交流学习期间,他开始进一步深耕 AI 辅助蛋白质结构预测等相关研究,「在博士后期间才算是在这个方向上积累了一点心得,并陆陆续续产出了成果」。


而随着研究的深入、覆盖领域的拓宽,单向的从「计算」的视角看待问题很难面面俱到,有时甚至会遇到难以通行的情况,同时,AI 算法或模型也需要经过实际生物问题的淬炼,才能更好的迭代升级,切忌闭门造车。在这一点上,郑伟也在不断与生物学家及相关团队、机构合作交流。


有意思的是,他一直在给生物团队灌输——不要对 AI 期待太高,可能我们的错误率也蛮高的。正是怀揣着对于科研的敬畏之心,在面向可落地的实际问题时,他十分注重「干湿结合,双方互相提供信息,进行互补,这样才能把落地做的更扎实」。



团队合力,多领域发展


在本次访谈中,郑伟教授为我们分享了在 CASP 中的经验与行业观察,从 CASP12 到 CASP16,跟随他的一路征程,笔者仿佛也看到了他多年来的蜕变,从最初懵懂地选择了结构优化,到毅然转向结构预测,再到发现其中乐趣,进而完成一次次积累与突破。


如今,南开大学中有更多老师加入了 CASP 的参赛队伍,郑伟教授表示,「我们需要更多赛道,或者说更多方向来让大家一起使力,结合团队的兴趣点来合作」,也正因如此,在 CASP16 中,团队并没有将精力集中在传统的优势赛道上,而是着眼于整个领域进行分散展开,「有得有失,可能整体来看我们的成绩不如 CASP15,但是团队学习到了经验」,而这也是「积累曲线」中的必经之路,让我们共同期待南开大学团队在 CASP、以及整个生物信息学领域的更盛大爆发!



arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章