近日,年仅25岁的姜凯议以第一作者的身份发表了他的第二篇Science论文。其所在的研究团队开发出了高效蛋白进化方法EVOLVEpro。这项跨学科研究将人工智能(AI)与生物工程紧密结合,大幅提高了生物实验效率,推动了AI模型在生物领域的应用。
近些年,谷歌DeepMind开发的AlphaFold在解决蛋白质折叠问题上有了质的飞跃。但是,人体每个细胞内有超过4000万个蛋白正在表达,它们往往协同工作,而非单独完成任务。
“这些蛋白质之间如何协同决定生物现象?它们碰到之后折叠会发生什么变化?这些问题是目前的AI算法没法解决的。”姜凯议表示。
他意识到,如果从折叠变化入手,可能要耗费十年甚至更长时间才能找到答案。与其停留在这个“卡点”,不如干脆跳出传统思维框架,跳过折叠变化,一步看到最后。
因而,在这项最新发表的研究中,姜凯议开发了AI算法驱动的蛋白质进化框架EVOLVEpro。它结合蛋白质语言模型(PLMs)和回归模型,可通过少量实验数据快速改进蛋白质活性。
EVOLVEpro采用模块化设计,PLMs负责对蛋白质序列进行编码,将其映射到一个连续的潜在空间,以便优化蛋白质活性;顶层回归模型从少量数据中(低样本数场景中)学习潜在空间与活性之间的映射关系。
EVOLVEpro进化方法示意图
大语言模型(LLMs)以“预测下一个词”为核心,即根据已有的文本信息预测下一个最有可能的词语。因此,AI工程师在开发蛋白质的生物大模型时,会借鉴这一逻辑预测下一个最可能的氨基酸。
然而,在姜凯议看来,这一逻辑在生物进化中并不适用,因为进化不追求个体蛋白质的最优解,而是群体适应性的平衡。“过于‘优秀’的蛋白质可能消耗更多能量,反而不利于整个群体生存。好的预测结果未必真的好,坏的预测结果也未必真的坏。”
传统路径使用LLM将氨基酸序列投射到高维空间后,试图将其解码回氨基酸序列,以便预测蛋白质的“好坏”。但在这项研究中,研究团队放弃了解码,选择直接在高维空间中进行线性回归,利用高维空间中的信息推测并寻找更高活性的蛋白质。
最终,研究团队通过对6种蛋白质进行测试,验证了EVOLVEpro在RNA生产、基因组编辑和抗体结合应用中的表现和有效性,真正实现了诸如抗体进化效率提高40倍等实验成果,证明EVOLVEpro优于当前的方法。
高效进化RNA聚合酶是这项研究的亮点之一。
起初,姜凯议的目标很简单,用算法进化出比自然界的RNA聚合酶更好的版本即可。然而,他的导师却将实验要求推向了一个更具野心的高度——直接对标美国生物技术企业莫德纳公司花费数年时间精心优化的蛋白酶突变体。
姜凯议
“我的博导认为,要使这篇文章有影响力,就要证明你的算法能设计出比现有市面上最好的RNA聚合酶还要好的突变体。”姜凯议说,“相当于我要用这个算法PK人类最聪明的一群生物工程师花了三四年工夫想出来的解决方案。”
尽管在接受挑战后,姜凯议仅用一个月就开发出了在各个维度上都“吊打”自然界的RNA聚合酶,但距离突破目标还有很长的一段路要走,这其中涉及非常多的挑战。
例如,为掌握工业级别性能表征方法,比如RNA的免疫反应、RNA的原性,他不得不从头开始、逐步攻克这些复杂且超出他原本研究领域的难题。
此外,在进行RNA聚合酶的进化实验时,培养细菌、表达酶、纯化蛋白……每一步都极其耗时且繁琐。“一个博士生努力一周,可能也只能纯化两到三个蛋白,工作量非常大。”姜凯议说。但在这项研究中,他用时两个多月共纯化了60个蛋白。
为避免偏差,在每一轮进化筛选后,姜凯议都会挑出最佳突变体,用繁琐的传统方法再次进行纯化,然后在正常的镁离子和盐浓度环境中重新表征。“如果没有这些校准工作,那么这个实验可能就彻底跑偏了。”
严谨的科研态度,使实验数据在面对工业级突变体时,拥有了足够的竞争力和可信度。最终,历时5个月,他和团队利用EVOLVEpro成功进化出了一种比莫德纳公司突变体性能更优的RNA聚合酶。
这是一项贯穿姜凯议整个科研生涯的研究。
2017年,他进入美国莱斯大学攻读生物工程专业,并遇到了科研生涯的启蒙导师Caleb Bashor。自那时起,姜凯议便成了Bashor实验室的常客。除了课业之外,几乎所有的时间都泡在实验室,周末也不例外。
因此,诸如纯化DNA等基础性和机械性的工作任务,构成了他日常的一部分。尽管内容枯燥乏味,但姜凯议总会耐心做完。“本科做科研,就是要从最基本的事情学起,该学的时候就要低头好好学,不能心气太高。”
姜凯议积极的学习态度和用心投入,引起了Bashor的注意。他很喜欢和这个踏实勤奋的年轻人聊天,也看到了他在生物研究领域的发展潜力。在Bashor的指导下,姜凯议进行了非常传统的数学和物理建模训练,运用百年前物理学家对蛋白质的猜想预测蛋白质行为。然而,他发现,这些基于旧理论的模型难以全面解释碳基生物的复杂运行,需要频繁地调整参数,甚至与物理学家合作修改公式才能更贴近现实。
这促使他重新审视自己的研究方向。相比不断完善理论模型,他更渴望利用高效准确的工具预测实验结果,从而推动科研成果的实际应用。正是在这样的背景下,开发EVOLVEpro的想法悄然萌芽。
2021年8月,本科毕业的姜凯议进入MIT攻读生物工程博士学位,并加入哈佛大学医学院助理教授Jonathan Gootenberg和Omar Abudayyeh的实验室,开启了科研生涯新篇章。
姜凯议(第二排右5)与博导的课题组成员
同年,美国互联网公司Meta的AI蛋白质团队ESM也在美国《国家科学院院刊》发表了首个生物的大语言模型ESM1b。紧跟AI研究发展的姜凯议敏锐地嗅到,机会来了。
这篇论文发表后不到三个月,姜凯议就测试了该团队发布的第一代小型大语言模型ESM1。“尽管实验效果并不理想,但已经能初步验证如今研究思路的可行性。”然而,由于模型表现不佳、AI风潮仍未兴起,他的这项研究并未受到两位导师的支持。
是在他博三那年,随着AI研究领域迎来井喷式发展,AlphaFold、ChatGPT相继问世,这个曾被搁置的小课题才再次被提上日程。
这一次,姜凯议终于得以全身心投入这个项目,将多年的研究构想付诸实践。当然,坚持和追求高效执行力,带来的不仅是持续产出的科研硕果,还有丰厚的奖励回报。
2023年,两位博导共同成立了基因编辑初创公司Tome Biosciences,并于同年获得2.13亿美元投资。姜凯议虽未入股,但以技术顾问的身份参与了公司的研发工作。他与两位导师共同分享的7项专利为Tome Biosciences的产品开发提供了重要支持。
来源:中国科学报
▼
携手诺奖教授及20+业内顶尖专家
建立院士工作站,赋能医学科研服务
耗资1亿,打造5000㎡独立实验中心
下设分子、微生物、细胞、病理实验室
以及SPF级动物房
拥有国内高等院校合作基地等多项资质
涵盖人体八大系统及肿瘤专项
已建立500+实验SOP,可覆盖99%的实验需求
✅100%留样:原始数据、图片、试剂、仪器、蜡块等数据真实有效可溯源。
有实景!有真相!
犹豫就会败北
现在扫码!帮你轻松换上副高胸牌!
▼