专访智峪生科王晟博士:AI造物,智造未来 | 再创

学术   2024-12-30 23:26   广东  
2024 年 12 月 5 日,上海智峪生物科技有限公司(简称:智峪生科)宣布,其位于江苏省常州市的绿色制造工厂暨百吨级合成天然香料生产中心正式落成。这一里程碑标志着智峪生科在将人工智能技术应用于工业化生产方面取得了重要进展,成功推动了从计算研究向实际应用的转化。凭借“三板斧”战略(寻路-挖酶-改酶),智峪生科展示了其在生物智造领域的技术能力和应用潜力,并为类似方法在其他代谢途径中的推广提供了参考。
作为一家以人工智能推动合成生物学发展的生物智造企业,智峪生科是行业探索创新路径的典范之一。在生命科学快速发展的背景下,人工智能正以前所未有的速度深刻影响着这一领域,越来越多的科研团队和企业致力于通过 AI 实现突破性成果。然而,随着这股科技浪潮的推进,多样化的观点与声音也逐渐显现。恰逢第五届合成生物产业大会召开之际,智峪生科的 CEO 王晟博士接受了再创的专访,就公司技术与行业发展进行了深入交流。再创将本次访谈内容整理,与读者一同分享。

王晟

智峪生科创始人、CEO & 董事长。王晟博士本科就读于上海交通大学生物系,并于中国科学院理论物理所获得博士学位,主要研究方向是使用统计物理的方法研究蛋白质结构。博士后跟随蛋白质结构预测先驱芝加哥大学许锦波教授,使用深度学习对蛋白质结构进行预测,参与开发了 RaptorX[1] 等工具。后于 2019 年加入腾讯 AI Lab,领导团队开发了 tfold 项目。现任智峪生科 CEO、董事长。曾连续两年入选“全球前 2%顶尖科学家”榜单,并于 2022 年被评为 “中国智能计算科技创新人物”。


张馥淳/采访
张馥淳、宋子昊/整理
范锐/审校





01

蛋白质/RNA 结构预测的现在与未来

再创:您认为近年来蛋白质预测和设计领域有哪些关键进展和挑战?

王晟博士:近年来,蛋白质结构预测领域取得了显著进展,尤其是 AlphaFold2 和 AlphaFold3 的推出,可以说解决了单体蛋白预测中 85%-90% 的难题。我们目前能精确预测许多蛋白与小分子的相互作用,极大推动了药物设计和功能性蛋白的研究。然而,这一领域仍然面临几大挑战:
1.动态变化的模拟:现有工具主要预测蛋白质的静态结构,但生物系统中的蛋白质是动态变化的。如何通过 AI 模拟动态折叠过程,是未来的重要研究方向。
2.大型复合体的建模:像剪接体或核孔复合体这样的大型分子机器,因其结构复杂、动态灵活,目前的工具还难以建模。
3.此外,蛋白设计领域也需要突破当前“玩具模型”的局限性。工业落地要求设计的蛋白具有明确的生物功能,例如催化特定反应的酶或调控代谢的蛋白,这对 AI 驱动的蛋白设计提出了更高要求。

再创:对于 RNA 结构预测领域,您认为目前的挑战是什么,未来该方向的进步会对合成生物学有什么帮助?

王晟博士:目前来说,核酸的结构预测还不够准确。主要的问题是数据稀缺:蛋白质的 PDB 数据库中有超过 10 万条结构数据,而 RNA 的高质量非冗余结构可能只有几千个。因此 RNA 数据量的不足使得其 AI 模型的训练更加困难。其次,体内 RNA 的结构更加多变,我们对其功能的理解尚不够深入;此外,在蛋白质中经常提到的“内源无序区域”这类不规则结构,RNA 分子里也存在,而且在 RNA 中出现的这种无序或不规则情况往往比蛋白质中更为普遍。
再者,RNA 结构预测的实际意义更多体现在与蛋白质的相互作用上。例如核糖体的研究、RNA 疫苗的设计等,都需要精准的 RNA-蛋白质相互作用模型,而这种复合体结构可能是高度动态的,所以其预测更为困难。
因此,我们团队布局了两种方法,第一种就是基于 AI 的全自动方法—— RhoFold,我们这个方法是基于 Transformer 架构构建的,现在已发表于 Nature Method。其次,我们还布局了一种手动方法,就是构建能量函数去进行预测,这个方法也就是 AICHEMY-RNA2,在两年前 CASP 15 拿到了 RNA 预测的第一名。即便 Alphafold3 在自动方法层面已经超过了我们的 RhoFold, 但是 Alphafold3 对于那些依然困难的 RNA 的预测依旧束手无策。
因此,我认为目前 RNA 结构预测到真正应用依然有很大距离,所以我可能会更加专注于蛋白质设计,这个领域更大的突破可能要等到 RNA-蛋白质复合物预测达到新的正确率后再进行。
02

AI 赋能合成生物学开启未来新篇章

再创我们了解到智峪生科将 AI 融入到合成生物学 DBTL 过程中,并有相应的 AI 赋能方案,请问能介绍一下这一系列方案及其优势吗?

王晟博士:在这之前我首先要说一下我的动机,我本科学的生物,但我后面进行了大量统计物理和深度学习的工作,我这么做的目的是什么?因为我认为生命科学一定要和计算、理论、数学、物理深度结合,从而真正地变成一门科学,而不是经验学或分类学。但是由于之前计算生物学方法的精度普遍不高,所以大家普遍不把“计算”当回事,甚至觉得“计算”就只是打杂、做做数据分析。AlphaFold2 的问世,使所有人都认识到,通过 AI,通过计算,我们能够实现计算机预测结果逼近甚至超越实验获得的预测精度。
有了精准的蛋白质结构预测,我们对酶的改造也成为可能。智峪生科成立之初,选择的是技术壁垒高的计算平台层面的工作。在今年 8 月 9 日,我们相关的模型工作也发表在 Nature Biotechnology 上[2],在 AlphaFold2 的基础上,该方法能提高蛋白质结构预测的速度,并保持和 AlphaFold2 类似的精度。这也意味着,在这个技术基础上,智峪生科可以实现在进一步优化酶之后,用其进行大规模发酵生产。
在中国,使用酶工程发酵生产各种医药中间体等产物已经有多年历史,在技术上已经很是成熟,但中国现阶段还差点什么呢?如果要合成一个产物,我们能不能很快地确定从底物到产物的合成路线?在有了合成路线的前提下,我们能不能快速找到相关的酶,再针对性地对其进行优化?这就是智峪生科的“三板斧”战略——寻路,挖酶,改酶。以酶法香兰素为例,该项目于 2023 年 6 月立项,很快找到了相关路线,并挖到了两个全新的酶,通过反向虚拟筛选的方法,快速对其进行迭代与优化,优化后的酶相比于野生型,转换率得到了极大的提升,这也降低了后续分离纯化步骤的复杂性。整个产品从路线打通到中试完成仅花了 8 个月时间,而中试完成到厂房落地,开始量产,更是只花了不到 6 个月的时间。我们公司用这个案例来证明了我们的战略变成实体的能力。香兰素项目是这一策略的成功实践。从逆合成路径设计到酶的筛选和优化,再到工业化量产,仅用了一年多时间。我们通过 AI 显著提升了转化率,大幅降低了后处理成本。可以说,这不仅是一项技术突破,也是对合成生物学产业化模式的验证。

再创:在 AI 与合成生物学都飞速发展的趋势下,您对于智峪生科未来的发展方向有没有新的思考?或者说,可否分享一下未来智峪生科的重点布局或战略规划?

王晟博士:作为一家生物制造公司,产业化、商业化十分关键。这只是万里长征的第一步,成本、原料、生产工艺、客户等,都是需要考虑的因素,还有很多需要去面对的挑战,还有很多需要去学习的知识,一家公司想要良性地成长,一定需要商业化,并且通过商业化,反作用于技术研发,从而不断地提升,实现可持续发展。

再创:对于生命科学类专业的学生,您有什么想对他们说的话吗?

王晟博士:在现在这个大变革的时代,我们已经清楚地看到 AI 可以并正在深刻地改变生命科学和生物制造。在这样的背景下,学生们更应该有自己的思考,不要人云亦云,要努力把自己提升为一个 IT 和 BT 都懂的人才,这是一件很难的事情,但是这就是未来的趋势。这个行业的发展需要越来越多这样的全面人才。
References
[1]Källberg, M., Wang, H., Wang, S. et al. Template-based protein structure modeling using the RaptorX web server. Nat Protoc 7, 1511–1522 (2012).
[2]Hong, L., Hu, Z., Sun, S. et al. Fast, sensitive detection of protein homologs using deep dense retrieval. Nat Biotechnol (2024).
END \


再创丨Regenesis
机器,正在生物化;而生物,正在工程化。
 最新文章