诺奖史上,AI+生命科学浓度极高的一年

健康   2024-10-17 06:30   上海  

2007年7月,时任普林斯顿大学终身讲席教授的施一公,正站在清华大学礼堂讲台上,面向300多位世界知名的华人生物学家发言:我相信,21世纪是生命科学的世纪。


这话常被调侃为刻意的鼓舞人心。这与中国生命科学领域“朴素”的外身有关:比起互联网、半导体、新能源,热钱似乎并不同等青睐生物制药,更难普遍地流向身处生命科学领域的每一个小人物。

但科技革命的车辙不会说谎。今年,诺贝尔奖多个奖项暗示了人工智能技术和生命科学学科的潜力价值。

物理学奖奖项,授予了John Hopfield和Geoffrey Hinton,以表彰他们 “为推动利用人工神经网络进行机器学习作出的基础性发现和发明”。该研究溯源人工智能:科学家们设想模仿大脑的神经元通过计算节点的方式进行重现,这些节点通过类似神经突触的连接传递信息。以此建立处理复杂数据时具备学习与记忆能力。

化学奖授予美国华盛顿大学西雅图分校的David Baker,以及谷歌旗下DeepMind的Demis Hassabis和John Jumper。他们实现了科研界的共同梦想:通过人工智能预测蛋白质三维结构,设计全新蛋白质为人类所用。

突破了传统物理、化学理论区域之后,科学该如何纵向延伸?回问从何处来,向前到何处去,这正是AI+生命科学独特的时代意义。

在下文中,我们将先介绍今年诺贝尔化学奖背后的故事。然后,继续探讨生命科学公司要如何驾驭AI浪潮,以及关于最热门的生成式AI,需要了解哪些真相?




1
计算和AI揭示蛋白质奥秘

今年诺贝尔化学奖得主有三位。一半奖项授予Demis Hassabis和John Jumper,另一半奖项授予David Baker。

三位研究者实现了一个长达70多年的科学理想。20世纪50年代,研究人员才开始依靠相对精确的化学工具详细探索蛋白质——剑桥大学的研究人员John Kendrew和Max Perutz成功使用X射线晶体学的方法,展示了蛋白质的第一个三维模型。

这一发现获得了1962年的诺贝尔奖,一场科学接力就此展开。

基于上述“开山”研究,研究者门使用X射线晶体学陆续成功制作了约20万种不同蛋白质的图像,这成为2024年诺贝尔化学奖研究的必要基础。

十年后,1972年诺贝尔化学奖颁给美国科学家Christian Anfinsen。他将现有蛋白质展开再折叠发现,蛋白质的三维结构完全由氨基酸序列决定。另一位研究者Cyrus Levinthal补充研究推导,折叠是一个预先确定的过程,关于折叠的信息必须都存在于氨基酸序列中。

一切开始指向预测问题。1994年研究人员启动了一个名为“蛋白质结构预测关键评估”(CASP)的竞赛项目,每两年中,参赛者需要根据已知的氨基酸序列预测蛋白质结构。项目启动多年来,预测准确率最高达到40%,并未取得突破性成果。

转折在2018年发生,一位棋坛大师、神经科学专家和人工智能先驱加入了该竞赛。他就是今年的诺贝尔化学奖获得者之一——Demis Hassabis。

他是DeepMind的创始人之一,其团队通过AI模型AlphaFold意外取得了CASP竞赛的胜利,此时预测准确率达到了60%。但还不够,John Jumper的出现使第二代AlphaFold的表现极其出色,几乎与X射线晶体学结果一样。

另一边,早在1998年就使用Rosetta计算工具在CASP竞赛中亮相的David Baker,在“定制蛋白质”的研究上也迎来了关键胜利。

研究小组绘制一种具有全新结构的蛋白质,然后让Rosetta计算哪种氨基酸序列可以生成所需的蛋白质。Rosetta搜索所有已知蛋白质结构的数据库,寻找与所需结构相似的蛋白质短片段。利用蛋白质能量分布的基础知识对这些片段进行了优化,提出氨基酸序列。

Baker的研究小组将建议的氨基酸序列的基因引入细菌中进行试验,最终得到了所需蛋白质,并确定了其结构。

竞赛之后,DeepMind公开了AlphaFold2的代码,任何人都可以访问。直到2024年10月,AlphaFold2已被来自190个国家的200多万人使用。David Baker也意识到了AI模型的潜力,其实验室已将AI工具用于设计制造蛋白质。


2
速度与流程

蛋白质的关键科研进展,为制药行业提供了更广阔的药物可能。视线放回到制药产业界,生成式人工智能的潜在用例多得令人眼花缭乱,但行业对它最原始的期待往往是:缩短药物发现和开发周期,拓展已上市药物的适应症。

新药的成功与否,取决于速度快慢和流程的畅通程度。海外制药公司通常需要5~8年的时间来收回将新药推向市场的发现和开发成本,并为下一个新药提供资金。对于生成式人工智能,推动上述的“速度和流程”是取得竞争优势的关键。

有报告称,AI可以药物发现和临床前阶段用时缩短到2~3年(此前需4~7年),临床开发可能只需3~5年(此前需7~9年)

已有一些相关的合作案例。比如,安进与英伟达的合作,通过应用先进的模型快速评估分子或促进硅学临床试验,从而简化发现和开发阶段。今年,双方还宣布合作建立一个名为Freyja的AI模型平台,帮助安进将训练AI药物发现模型的时间从几个月缩短到几天,继续提升流程效率。

在商业拓展方面,生成式人工智能也是一种宝贵的工具,可帮助医疗保健专业人员、医院、支付方、保险公司甚至患者了解治疗的价值,从而帮助公司利用有限的市场增长阶段。在全球领域推动商业增长,可以采取推出微品牌、精准定位医疗保健专业人员、优化合同和定价策略、更个性化的客户和患者参与和/或提高现场团队效率等方式。

归根结底,核心的商业目标是“让所有符合条件的患者更快地获得治疗和护理”。

图1 海外市场生物制药开发投入与商业产出(图源:Cognizant)


3
数据“公”与“私”

武田制药从美国初创公司Nimbus Therapeutics收购的实验性牛皮癣药物,就是基于人工智能算法发现的一种化合物。该模型仅用6个月就确定了该化合物,比通常长达2年的发现期快了近3倍。

生成式AI背后,真正的无名英雄是模型所使用的数据。但产业界与科研界面临的问题并不完全相通。

与任何系统一样,“入之不精,出之不粹”也适用于生成式AI工具。生命科学公司正培育人工智能工具时,必须对自己的数据资产进行长期、谨慎的审视:是否已经拥有支持和扩展用例所需的准确、完整、及时和相关的数据?还是应该花费更多时间和资源建立至关重要的坚实数据基础?

无论如何,时间都是关键。只有建立了强大的数据通路,公司才能开始获得竞争优势。有海外学者建议,在整个生命科学生态系统中(或某区域内)实现数据访问的民主化,实现数据基础设施的自动化并建立稳固的管理框架。

从头开始建立一个公共的大语言模型(LLM)显然不够快。

另一种方法是使用许多现有的公共模型,但这些模型都有其局限性。虽然开箱即用的解决方案可能是启动生成式AI的最快方法,尤其是对于商业应用而言,但这可能会增加利用专有数据的难度,而专有数据是许多高级用例的关键壁垒。

不仅如此,关于商业人工智能模型在训练过程中,是否以及在多大程度上可以使用受版权保护的信息,目前还存在着激烈的争论。虽然这一法律问题的解决仍悬而未决,但企业在制定基因人工智能战略时,尤其是在依赖公共模型时,应将其视为所谓“公共”LLM的潜在弊端。

对于许多组织而言,最佳解决方案介于两者之间:所谓的检索增强生成(RAG)是一种利用来自私人权威知识库的数据优化商业LLM的方法。无论如何,如果这种组合成功,那么输出结果就应该具有很高的透明度,并需说明生成特定响应所使用的信息资源。

因此,企业可以通过“建立合作伙伴关系”来展开试验和探索。合作伙伴可以帮助企业对现有模式进行微调,以满足其特定需求,使其能够快速构建功能强大的定制应用程序,同时确保安全使用专有数据。


— 结语 

近半年来,“AI+生物制药”话题热度虽有所降低,这并不意味者不重要或不关心。而是行业更感兴趣的是可量化的结果,以次证明后续投资的合理性。

值得注意的是,规模化的生成式AI的使用,正在重新定义所有的岗位工作。但至少在目前和可预见的未来,AI的应用还需要人类的监督——尤其是在高风险的医疗保健和制药领域。

所有人都在关注人工通用智能(AGI)的发展——人工智能系统能够以类似人类的方式跨领域学习、推理和适应。但是,在AGI出现之前,并不能完全信任或依靠生成式人工智能驾驭复杂的医疗生态系统,尤其是在市场环境更为复杂的区域(比如中国)。即便有了AGI,也不可能改变对患者治疗结果的最终责任。此外,还有更多重要而复杂的问题需要回答,如伦理界限、法规和其他管控等等。

参考文献:

1.As AI transforms drug development, biotechs might not need as much Big Pharma support;PharmaVoice
2.The Nobel Prize in Chemistry 2024;The Nobel Prize
3.Gen AI for biopharma: 5 less obvious truths;Cognizant

4.New work,new world;Cognizant


公众号内回复“肿瘤免疫”或扫描下方图片中的二维码免费下载《小药说药肿瘤免疫全集》的PDF格式电子书!



公众号已建立“小药说药专业交流群”微信行业交流群以及读者交流群,扫描下方小编二维码加入,入行业群请主动告知姓名、工作单位和职务。



小药说药
姓药的来说药,带你进入最深层次的医药领域,把握医药动态,了解最新前沿!
 最新文章