人工智能(AI)用于生物技术,尤其是药物研发领域,无论成功与否,已开展了十多年。不过,在基础模型(foundation model)纪元,我们或已经历了一场重大变革。
多年前,Recursion公司致力于利用AI进行药物研发,通过识别细胞显微图像中的遗传疾病表型,筛选出可以使细胞“看起来更健康”的药物,以期其有效缓解疾病症状。
大约在2016年,Recursion开始转为新兴的“深度学习”范式,采用更大规模的神经网络取代传统的基于特征工程的机器学习。
如今,情况已发生变化。更大规模且功能更强大的模型已被广泛应用于生物技术领域,正逐渐改变着药物及生物制剂开发的最新格局。是时候认真审视现有技术的能力和局限性了。
对生物技术领域不熟悉的AI乐观主义者,很容易对AI工具能起到的最大作用有所误解。
AI无法直接“设计一种药物”立即应用于患者,制药公司需要进行大量的动物和人体试验。在美国,一款获批药物的平均研发经费高达8.793亿美元(包括失败药物的成本),其中近90%用于临床试验上[1]。在生物技术中,AI主要应用在占研发经费10%的药物发现和临床前研究环节中,以推进自动化并优化特定问题。虽然并不简单,但如果AI能够辅助开发出前所未有的新类型药物,其意义重大。然而,这也引发了有关AI的炒作。
一个AI模型对药物发现的贡献,仅限制于:
节约手动流程所需的劳动成本
替代了某些实验并降低了成本
避免可能失败的实验以节省成本
推动那些如果没有AI模型就不会尝试的新疗法的成功开发
如果模型给出的建议只是你本来会做的事,它的价值不大;如果它能替代手动完成的任务,它有一定的价值;如果它提高了研发出成功疗法的概率,它极具价值;而如果它推动了新的成功疗法,那将是颠覆性的。
在理解了这个框架后,就可以深入研究一些具体细节。下文概述了部分大型的、有影响力的热门模型,并对其用途做了简单总结。
目录
类型一:结构预测模型
1. AlphaFold2
2. ESM3
3. Evo
类型二:蛋白质和肽结合模型
1. RFDiffusion
2. RESP AI
类型三:分子结合模型
1. AlphaFold3
2. BioSimDock
3. MoLFormerXL
4. BELKA(Big Encoded Library for Chemical Assessment)
类型四:细胞模型
1.CZI的虚拟细胞
2.Phenom-Beta
3.VISTA-2D
类型五:靶点发现模型
1. PandaOmics
类型一:结构预测模型
结构预测模型是一类在生物技术应用中广泛使用的AI模型,致力于解决计算生物学中最经典且复杂的问题之一:“一个给定的序列(如RNA、DNA或蛋白质)如何折叠成三维结构?”
从制药的角度来看,我们关心这个问题,因为大多数药物通过与蛋白质(有时是DNA/RNA等核酸)发生化学相互作用而起效,并且相互作用取决于所讨论的生物大分子的结构。此外,一些药物本身就是生物大分子(蛋白质、肽、核酸序列等),了解它们的结构对于预测它们在体内的作用非常重要。
从基础研究的角度来看,结构生物学有助于我们了解生物分子机制的工作原理。结构阐明功能,就像DNA双螺旋结构的发现,揭示了遗传信息在细胞中的编码和复制机制。目前,大多数人类蛋白质的结构仍未通过实验确定,新的折叠RNA类型及其独特的细胞功能也还在不断发现中。
AlphaFold2
产品介绍
AlphaFold2是由DeepMind于2022年发布的蛋白质结构模型,给定一段蛋白质的氨基酸序列,该模型可以预测其结构。(这是一个免费平台,可用于非商业研究。)
该模型经过数十万个已知蛋白质序列和结构的训练,计划预测43.8%人类蛋白质序列中超过四分之三的结构[2]。AlphaFold2不是第一个蛋白质结构预测模型,但在最近的蛋白质结构预测竞赛(CASP14)中,它的准确率远超其他任何竞争对手[2]。
▷Alphafold2的最佳预测中位准确率遥遥领先, 图中的柱形表示了这些团队在比赛中取得的最佳五次预测中的最高准确率。图源:[3]
实际用途
通过蛋白质结构预测,了解蛋白质的构型,可以帮助我们了解其工作原理。
可用于合理化药物设计。只要知晓一种蛋白质的结构,就可以开始研究哪些类型的分子可与其相互作用并改变其功能。
但它的预测结果真的足以代替实验确定的蛋白质结构吗?
这很难说。一方面,如果以模型预测的结构为起点,使用配体结合计算模型来预测哪些药物会与它们结合,“每个受体的许多已知配体都未显示命中”[4]。换句话说,筛选“针对”模型预测的结构而非实验确定的结构,会产生大量假阴性。另一方面,无论所用的蛋白质结构是“真实”实验得出的还是AF2预测的,在实验中与靶标配体实际结合的概率,计算下来约为50%[5]。换句话说,如果你根本没有确定实验结构,那么使用人工智能的猜测将获得同样多的初始匹配,这可能有助于开发针对难以确定结构的蛋白质的药物。
ESM3
产品介绍
ESM3是由一家新成立的前沿人工智能公司Evolutionary Scale创建的大型(98B 参数)语言模型,该模型基于来自27.8亿种天然蛋白质的蛋白质序列、结构和功能数据进行训练[6]。输入一段给定的序列,它可以输出预测的蛋白质结构;输入一个结构,它可以预测匹配的序列。(于2024年6月25日正式发布,第一个兼具预测蛋白质序列、结构和功能的生物学生成模型,可实现生物学编程,使科学家能够理解和创造新的蛋白质,可通过ESM3的API平台获得封闭测试版。)
该团队在论文中演示了ESM3“创造”绿色荧光蛋白(GFP)新变体的过程:研究人员输入一些要求后,让ESM3填补蛋白质的其余部分,最终产生了一些与天然GFP序列完全不同但仍能产生荧光效应的新变体[6]。(而在自然进化过程中,蛋白质变体可能需要超过5亿年才能进化出来。)
▷基于序列的想法生成一种新的荧光蛋白. 图源:[6]
实际用途
想要“定制”蛋白质以产生某种特定效果,且已确切了解实现该效果所需的结构层面特性,ESM3可以辅助提出一些想法(仍需要实验测试)。
ESM3也能通过功能预测蛋白质结构(不过其准确性尚未与其他前沿方法进行比较)。
通过使用ESM对抗体进行“突变”,使AI优化的抗体在性能上显著优于目前临床批准使用的人类抗体,使抗体更“正常”(相对于训练数据)以更好地发挥作用。抗体是最常用的蛋白质类药物类型之一,这具有重要的实际应用意义。实际上,已经有一些公司专门生产“AI设计的抗体”[7]。
不过,ESM3通常并不能解决“我需要一个在特定波长下发光的蛋白质”或“我需要一个针对某个特定蛋白质的抗体”这类问题。在生成“按要求定制”的蛋白质时,必须对“要求”有足够的了解,模型才会尝试给出答案。
Evo
产品介绍
Arc Institute开发的Evo是一种能够理解生物学三大基本语言(DNA、RNA、蛋白质)的长上下文生物基础模型。规模略小于ESM3(7B参数),基于80,000 种细菌和古细菌的基因组训练得到[8]。它能够在给到提示后“自动补全”DNA、RNA和蛋白质序列的剩余部分。(可以通过Github获取,并直接在浏览器中使用。)
▷Evo对蛋白质、非编码RNA和调控DNA进行零样本功能预测。图源:[8]
实际用途
显然,越有可能由模型自动生成的序列,其在许多方面的表现就越“优越”——例如,携带“更可能”突变的E. coli细菌的生存能力更强,“更可能”突变的非编码RNA在各类“适应性”评分中表现更好,等等。
实际应用中,Evo可用于了解一个序列的正常程度或生物学合理性。想要“正常”序列总体上能更好地工作,Evo也可以成为合成生物学的一个筛选步骤。同样,它不能取代物理实验,但可以加快成功进程,例如基因编辑创建新的CRISPR变体时。
类型二:蛋白质和肽结合模型
RFDiffusion
产品介绍
RFDiffusion由华盛顿大学David Baker实验室开发,是一种基于此前RoseTTAFold结构预测模型建立的蛋白质生成模型(免费且开源)。
该模型在蛋白质数据库上进行训练,允许用户围绕特定的功能区域(如小分子结合位点或酶活性位点)生成蛋白质。例如,当模型被要求生成能结合镍离子的候选蛋白质时,模型生成的44种蛋白质中有37种(84%)在物理实验中确实成功结合了镍离子[9]。
实际用途
设计定制蛋白质的能力很有价值。定制设计的酶可以催化工业过程或分解环境毒素;为特定靶点设计的抗体,可以成为药物、诊断生物传感器,或者用于基础研究的标记工具。例如,RFDiffusion已用于生成与某些肽结合的蛋白质[10]。
▷RFdiffusion可以产生与靶分子结合的新蛋白质。视频来源:[11]
RESP AI
产品介绍
RESP由加州大学圣地亚哥分校的研究人员开发,是一种针对抗体的特异性模型,经过超过30亿个B细胞受体序列的训练,能够为一种明星抗癌抗体药物(Atezolizumab,或抗PD-1)提出改进建议,使新抗体与靶标的结合力提高17倍(该模型仅发表论文)[12]。
RESP并非纯粹的计算,而是AI和实验流程的结合。每个靶标都会进行酵母实验,观察各种抗体变体与靶蛋白的结合程度。之后,基于这些实验数据生成模型,用于预测抗体序列的结合亲和力。最后,这个模型会“反向运行”,生成预测亲和力最高的抗体。
▷RESP管线示意图 图源:[12]
实际用途
最传统的抗体制造方法是将抗原注射到动物体内,然后收集该动物免疫系统产生的抗体。这种方法效率低、成本高。更现代的抗体发现方法使用高通量筛选,测试大量候选变体,确定其与靶标结合的效力和特异性。
RESP系统并未完全摆脱实验筛选,但它确实使筛选更加高效。与盲目试错不同,RESP提供经过预测具有高表现潜力的建议,进而筛选这些候选抗体。这有可能缩短成功抗体的发现时间,提高发现概率;或者优化候选抗体,使其在进入临床试验时更加有效,并减少潜在的副作用。
类型三:分子结合模型
预测分子之间化学相互作用强度是药物研发的关键。理想情况下,小分子药物能与其靶标(通常是蛋白质)紧密结合,但又不会干扰体内其他分子的功能。
用于预测分子相互作用的计算方法,并不是从AI或机器学习开始的。几十年来,药物化学家一直使用基于电化学相互作用的确定性模型来预测结合亲和力。然而,这些模型的准确性并不高,因此药物设计仍然在很大程度上依赖于实验和领域知识。
制药公司押注人工智能方法会发挥更好的作用。例如,默克公司已经发布了基于人工智能的药物研发软件AIDDISON,该软件在其专有实验数据上进行训练[13]。
AlphaFold3
产品介绍
AlphaFold3于2024年5月8日发布,相比AlphaFold2具有更广泛的应用,能够从DNA、RNA和蛋白质的序列中预测其3D结构。它能够预测蛋白质和核酸如何结合形成复合物,甚至预测蛋白质和小分子之间的配体结合。它在预测蛋白质-配体和蛋白质-蛋白质相互作用方面的准确率高达近 80%,远远优于竞争对手的模型[14]。(免费平台,可用于非商业研究。)
▷7R6R-DNA结合蛋白: AlphaFold 3对一种分子复合物的预测,其特征是一种蛋白质(蓝色)与DNA的双螺旋结构(粉红色)结合,这与通过艰苦实验发现的真实分子结构(灰色)近乎完美地匹配。图源:[15]
实际用途
AlphaFold3可以完成AlphaFold2的所有功能,此外还可以帮助筛选潜在药物、抗体和其他生物制剂,以评估其对靶标的作用。它还不够准确,无法完全取代实验,但它可以加速寻找早期成功药物的过程,通过筛选来决定哪些候选药物需要进行实验测试。
BioSimDock
产品介绍
BioSimDock由Deep Origin公司开发,是一种预测小分子与蛋白质结合亲和力的专有模型。该公司没有透露太多有关其架构的信息(可在官网申请使用测试版),但BioSimDock被观察到能够在10万个分子库中正确检测到13个“真实”结合分子中的6个,预测的结合亲和力与实际值的相关性达到了0.89,远远优于其他基于计算的配体结合预测模型[16]。
实际用途
虚拟分子筛选大大扩展了小分子药物候选物的范围。当下最大的实体筛选库包含大约一百万个分子,而基于AI的模拟筛选可以在几天内筛选超过百亿个分子。先筛选出计算得分高的分子,再进行实验测试,可以将命中率提高数倍。
MoLFormerXL
产品介绍
MoLFormerXL由IBM研究院开发,经过超过十亿个分子的训练,可根据分子结构预测各种化学特性,包括毒性、水溶性和对某些靶标的结合亲和力[17]。它是一个预先训练的化学语言模型,就像通用语言模型可以处理多种语言任务,但如果想在特定任务上表现得更好(如文本分类)需要进一步微调,同样,MoLFormerXL在执行化学任务时也需要针对不同的化学属性进行调整和优化。(该模型在平台注册后即可使用。)
实际用途
从论文中,无法确定MoLFormerXL的结合亲和力预测与其他分子结合模拟(包括更确定性、非机器学习的预测)相比如何。一般来说,来自非常大数据集的良好通用嵌入,通常可以改进各种专用预测模型。但如果没有更多信息,很难说能改进多少。
MoLFormerXL的主要应用,像其他计算机模拟筛选模型一样,是提供一个初步的分子库,提供预测为"优质"的分子,供实验进一步验证和筛选。
BELKA
产品介绍
在最近一次针对大型数据集BELKA(Big Encoded Library for Chemical Assessment,BELKA是地球上最大的公开分子-蛋白质相互作用数据集,它是针对3种蛋白质靶标筛选的1.33亿分子的集合)的Kaggle竞赛中,任务是预测哪些小分子能够与哪些蛋白质结合。没有任何参赛者能够从基于一个核心分子结构的训练集,成功推断出不同化学结构的测试集结果。即使是竞赛获胜者,在处理新结构时的表现也不过与随机猜测相当[18]。
实际用途
虽然负面结果令人失望,但它们依然具有重要价值。如果现有的AI模型无法准确预测小分子与靶点的结合,这意味着我们需要更大、更好的数据集,包含更多样化的分子,才能有希望预测任何小分子药物候选物的行为。
小分子结合最终可能比蛋白质-蛋白质或蛋白质-核酸结合更难。虽然生物大分子都来自地球上同一组生命的祖先,但所有可能的化学物质的组合要多样化得多。
类型四:细胞模型
CZI的虚拟细胞
产品介绍
Chan Zuckerberg Initiative(CZI)正在开发一种被称为“虚拟细胞”的项目[19]。虽然他们尚未发布相关论文,但其方法似乎是基于显微镜细胞成像以及单细胞RNA、DNA和蛋白质数据,构建一个基础模型。
实际用途
推测而言,细胞数据的基础模型将能够做到以下几点:
根据细胞的嵌入相似性,将细胞聚类为“相似”,使“细胞类型”的判定更加客观;
根据细胞的一些特征生成“典型”数据,比较细胞的异常程度与其“应该”的表现,为疾病表型提供可能线索。
Phenom-Beta
产品介绍
Phenom-Beta是Recursion的细胞显微镜图像生成模型,它是一种视觉转换器,经过训练可以从不完整的图像块中“自动完成”图像[20]。它提供了细胞图像的自然嵌入,使得嵌入中“相似”的细胞在沿生物学相关途径的基因表达方面也相似。(目前,该模型可通过API获得,并将通过BioNeMo Beta申请。)
▷Phenom-Beta利用RxRx3 Cell Paint图像进行训练以及vit功能的说明性示例. 图源:[20]
实际用途
细胞图像的良好嵌入,是表型筛选的重要工具。表型筛选的基本思路是,筛选那些影响疾病状态的药物,比寻找与单一靶标相互作用的药物更有效。然而,由于无法在数以百万的患病小鼠上进行数百万种化合物的测试,研究人员通常依赖基于细胞培养的实验模型来代表疾病状态。
最传统的表型筛选方法是癌症研究领域。可以跳过寻找与假设与癌症有关的单个靶分子相互作用的药物环节,同时测试大量药物,观察它们是否能够杀死或抑制癌细胞的生长,且不会伤害健康细胞。
而一种更细微的表型筛选方法则是,通过识别病变细胞与健康细胞的差异,并筛选能够使病变细胞看起来更像健康细胞的药物。
要实现这一目标,需要一种对“相似性”进行计算的定义。简单的像素值比较并不足够,图像中大部分信息是冗余的,因此需要一种能够压缩和提取重要信息的方式。基于Transformer的嵌入技术,非常擅长找出直观上相似的图像,因此可用于识别相似的细胞。
这对干细胞和发育生物学也可能非常有用。如果希望诱导干细胞分化为“更像”某种目标细胞类型,基于图像的相似性测量可以告诉你是否走在正确的轨道上。
VISTA-2D
产品介绍
NVIDIA于2024年4月22日发布的基础模型。VISTA-2D解决了生物学中一个出乎意料的难题——细胞分割,即在显微镜图像中自动绘制每个细胞的边界。
虽然人眼很容易看出细胞的位置,但让图像处理系统准确地计算样本中的细胞数量,且在准确性和成本上与手动计数相竞争,仍然极为困难。如今,最先进的分割模型在基准数据集上的准确率可以超过90%,而且大多数分割模型都通过结合像VISTA-2D这样的预训练基础模型略有提升[21]。(在NVIDIA官网可申请访问早期模型。)
▷与基线性能相比,VISTA-2D使TissueNet(TN)、LIVECell (LC)、Cellpose、Omnipose和DeepBacs等多种专业模型的平均精度得到了提高. 图源:[21]
实际用途
如果要对大量细胞显微图像进行自动分析(例如,表型筛选或脑图谱绘制),那么首要任务就是对细胞进行分割。
类型五:靶点发现模型
“靶点发现”是药物发现的第一阶段,也是最接近基础研究的阶段。靶点发现即确定一种疾病的良好药物靶点——例如,了解靶向GLP-1受体的药物可对糖尿病产生影响。一般需要长年的实验,才能建立对疾病有足够的了解,从而确定一个可靠的靶点。研究一个特定的靶点或分子途径上,可能会耗尽研究者的整个职业生涯。因此,虽然AI模型自动完成所有这些工作的想法有点荒谬,但值得尝试。
PandaOmics
产品介绍
PandaOmics 平台由 Insilico Medicine 开发,计划从“组学”数据以及数据库、出版物等中的文本信息中推断出靶点。(该模型公开平台注册即可使用。)
测试这样一个高度灵活的平台的性能是非常困难的。Insilico Medicine在一篇验证PandaOmics在ALS(肌萎缩侧索硬化症)研究中的有效性的论文中提到[22]:
这为潜在的“选择性偏好”敲响了警钟。28个候选基因中,9个基因在ALS果蝇模型中敲除后显示出“强效救治”效果,且所有这些基因都曾在已发表的ALS荟萃分析中得以确认。(这些结果可能不是新发现,而是基于已知的信息进行的验证,缺乏真正的创新性。)
实际用途
使用软件平台整合已发布的信息和“组学”数据,根据公正的算法标准对疾病目标进行排序,这种做法似乎很有用。然而,InSilico并没有尝试证明他们的软件优于显而易见的比较点——即由领域专家手动挑选靶点。
显而易见的是,由于依赖于他人的实验报告,它并不能取代这些实验。如果使用大型语言模型(LLM)来分析科研文献,虽然能加快你对这些文献的理解,但最终还是需要有人亲自进行这些实验。
总结
在生物技术领域,AI被大肆炒作,质疑之声虽更为低调,但仍然存在。
问题的一部分在于,AI的应用有时很容易被过度夸大,甚至没有取得什么显著的成果就宣称胜利。只要在药物开发过程中某一环节使用了AI,即便在没有AI的情况下也能取得类似的结果,就可以声称是“AI发现的药物”。通过仔细调整训练和测试数据,甚至可以声称AI模型“成功预测”了一些东西。
一些在生物学中研究充分的问题,例如蛋白质结构预测,有着严格的基准测试比赛,因此开发出一个获胜的模型是一项实质性的成就。我们知道AlphaFold确实“表现优异”,因为它在公开的基准测试中击败了多年来用于蛋白质结构预测的其他模型。然而,常见的宣扬AI的生物应用的论文(更不用说新闻稿),并没有达到这个标准。
尽管如此,很明显,在某些情况下,大型生成式AI模型的预测能力确实优于随机猜测以及早有的计算模型。
其重要性何在?
•自动化劳动:药物发现/开发的AI模型,将自动化许多繁琐的手动流程。
•模拟实验:我们很难相信“AI预测的结果足够可靠,甚至不需要通过物理实验来检验”。
•实验优先排序:这是一个关键的问题。如果AI模型能够有效地按质量排序候选药物,这是否会比传统筛选方法更快获得成功?这一点在蛋白质(包括抗体)研究中有其可行性。一位阿斯利康的药物发现研究人员估计,若能将药物开发初期的成本降低20%,每种药物的节省可达到约1亿美元[23]——尽管与提高临床成功率的影响相比这只是一个小数目,但仍足以让AI药物发现工具变得非常有价值。
•创造新类型药物成为可能:这是最有价值的应用。但到目前为止,我们还没有看到AI方法在开发新药类别或解决“不可成药”靶点方面的强有力案例。不过,已有了一些早期的积极迹象,例如一个图形网络模型识别出了此前未发现药物结合位点的蛋白质“隐秘口袋”[24]。而最终的相关性检验,仍是能否发现新的成功药物类别或靶点。
一些对AI在生物技术领域的能力抱有不切实际期望的人,似乎认为一款计算机程序能够设计出药物分子,患者马上就能开始服用。实际上,没有内行人会试图跳过动物实验或人体临床试验,因为未知因素实在太多,靠计算机模拟来预测药物在生物体内的效果是不切实际的。
不过,在生物技术中AI着实取得了一些进展,尤其是在预测蛋白质结构和蛋白质-蛋白质相互作用方面。像AlphaFold这样的工具现在被广泛应用,并且短期内不会消失。
预测小分子结合目前还不那么可靠,但如果我们开始生成更好的实验数据集,这一领域也并非根本无法取得突破。
至于靶点发现、毒性预测以及预测药物对生物体健康影响的其他应用,基础还很不稳固。生物体远比溶液中的分子复杂,实验成本也高得多。对于那些声称能够通过AI普遍解决这些问题的人,我仍然持怀疑态度,尽管可能在某些特定的子问题上更具可行性。
尝试用AI模拟细胞及其健康状况,规模介于分子与整个生物体之间,虽然还处于起步阶段,但我认为这是一个值得关注的领域,尽管它与药物开发的直接关系不如分子结构模型那么密切。
总的来说,尽管AI炒作不断,但这个领域的前景仍然值得期待。考虑到药物开发的速度,现有工具的全面临床影响,还需要几年时间才能显现,更不用说未来的创新了。
原文链接:
https://www.lesswrong.com/posts/CGegZveogJRGCK3LA/ai-for-bio-state-of-the-field
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。如果您有进一步想要讨论的内容,欢迎评论区留言,或添加小助手微信questionlab,加入社群与我们互动。
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
TCCI与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了TCCI加州理工神经科学研究院。
TCCI建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括学术会议和交流、夏校培训、AI驱动科学大奖、科研型临床医生奖励计划、特殊病例社区、中文媒体追问等。