Nature 观点:通过人工智能实现生物学的可编程化丨再创

学术   2024-09-04 16:15   广东  

引言 /Introduction

2024 年 8 月 9 日,来自哈佛大学医学院的 Omar O. Abudayyeh 和 Jonathan S.Gootenberg 在 Nature Method 发表了题为⌈Programmable biology through artificial intelligence: from nucleic acids to proteins to cells⌋ 的评论文章。作者认为,人工智能驱动的计算工具不仅帮助我们更好地理解生物过程,还让我们能够通过分子和细胞工程对生物进行精准的控制和设计--“编程”生物走进现实。


Omar O. Abudayyeh&Jonathan S. Gootenberg / 作者

锐锐 / 整理

孟凡康 / 审校




// 作者介绍

Omar Abudayyeh

哈佛医学院和麻省总医院 Brigham & Women's Hospital 研究员、Abudayyeh-Gootenberg 实验室 PI、多家基因编辑和诊断领域公司和初创企业的联合创始人和技术创新者,博士毕业于 Broad 研究所张锋实验室。他专注于开发下一代基因编辑、基因递送和合成生物学技术,并将这些技术应用于新疗法和抗衰老研究。


Jonathan Gootenberg

哈佛医学院助理教授、Beth Israel Deaconess 医疗中心和哈佛大学疫苗与病毒学研究中心研究员、Abudayyeh-Gootenberg 实验室联合 PI。他的实验室正在探索如何在生物学各个层面上利用可编程性,并将这些技术应用于基因疾病、癌症和衰老的新疗法开发。



// 一作有话说

Jonathan Gootenberg: 

机器学习的重大进展通常依赖于大量的数据,例如 Meta 的 Llama 3.1 模型,就用了 15 万亿个 tokens 进行训练。目前来看,蛋白质结构预测领域的数据已经足够丰富,使得模型可以精确地预测蛋白质的三维结构,从而达到理想的性能和准确性。但对于虚拟细胞这类更复杂的模型来说,若想要达到理想的效果(像蛋白质结构预测模型那样的优异效果),我们还需要更多的数据,尤其是涉及实验中的各种调控因素的数据。这些额外的数据能够帮助模型更好地模拟虚拟细胞的行为和反应,从而提升模型的准确性和性能。

传统的大型语言模型(LLMs)通过使用强化学习+人类反馈(RLHF)和强化学习+人工智能反馈(RLAIF),如今已经得到了显著的优化。而在生物学模型领域,我们可以通过在计算机模型和实际实验(湿实验室)之间不断进行迭代和反馈的方式,显著提高模型的性能。我们近期上线的预印本中提到了更多的相关内容。

 原文链接:https://doi.org/10.1101/2024.07.17.604015

我们预计,未来将会有更多的“Lab in the loop” 方法出现,并最终发展成为自动化实验室(SDLs:Self-driving lab)。(再创推荐阅读:SDLs (自动化实验室)在合成生物学中的前景展望丨再创


通过人工智能实现生物学的可编程化:从核酸到蛋白质再到细胞

人工智能驱动的计算工具不仅帮助我们更好地理解生物过程,还让我们能够通过分子和细胞工程对生物进行精准的控制和设计--“编程”生物走进现实。在过去的一个世纪里,我们对生物学的理解已经从现象学(Phenomenology)转变为可编程性(Programmability)。

换句话说,过去,我们只能观察生物,如今,我们能够主动操纵和设计生物了。

这种转变源自几次巨大的生物学革命:我们揭示和理解了分子生物学中的基本原理与机制、我们开发了高通量的生物样本分析方法(如单细胞测序),我们开发和设计了新型的精密生物学工具(如 CRISPR)。特别是新的分子技术(如 RNA 调控和基因组编辑方法)使我们能够在关键的中心法则(DNA、RNA 和蛋白质)范围内进行操作。这不仅为基础生物学带来了重要的洞见,还推动了多种疾病新疗法的开发。

现在,我们看到了另一场即将到来的革命:我们将运用 AI,解锁从核酸到蛋白质再到细胞的生物编程新能力(图 1)。

 图1:AI方法在生物学编程中的应用

得益于当前庞大的基因组、蛋白质和细胞数据规模,以及这些数据在开发新型蛋白质工具中的重要作用,基于人工智能的方法在提升生物编程能力方面发挥了显著作用。例如,目前在 NCBI(美国国家生物技术信息中心)上已有超过 200 万个原核生物基因组和 4 万个真核生物基因组被测序,并且在人类细胞图谱(Human Cell Atlas)中,已经对超过 6000 万个细胞进行了单细胞测序。这些数据量前所未有,为构建模型提供了庞大的数据库。像 CRISPR 这样的方法就是基于我们对自然系统的了解而开发的。随着真核生物和原核生物数以百万计的基因组测序和 pb 级的数据积累,我们现在有机会从这些数据中学习和扩展,创建新的细胞调控方式。

然而,AI 在生物编程中的潜在应用远远超出了工具开发的范围:新的研究计划正通过这些工具对细胞进行调控,并收集多种模式的细胞数据。最终在整合这些资源后,我们将极有可能实现基于 AI 的全细胞建模,从而在计算机中预测和编程细胞命运及其响应。

从根本上说,我们对细胞进行编程的能力取决于我们所拥有的精确扰乱细胞的工具。这些工具包括小分子、抗体、转录因子和可编程的核酸靶向酶,为人工智能辅助方法发现、工程化和创造新方法提供了丰富的进化空间。基因组编辑领域正在率先应用这些方法:多功能新工具的发现和生成有望产生新的酶,进一步丰富 CRISPR 工具箱!

基因编辑工具如 CRISPR 效应蛋白,传统上是利用微生物多样性,通过两种方式获得的:一是采用常规的生物信息学方法进行识别和筛选;二是微生物学专家通过他们对微生物的深入理解和过往丰富经验,识别和获取这些具有潜在应用价值的基因或蛋白质。这种方法产生了多种编辑蛋白,从常用的 Cas9(来自 Streptococcus pyogenes)到大量的 Cas9 同源蛋白,再到完全不同的 CRISPR 效应蛋白家族(包括 Cas12、Cas13 和 Cas7-11)。

虽然这些方法已经投入到应用中,但其实这些方法也仅仅是初步探索了微生物的多样性。同时,随着所需处理的基因组组数据激增,不同蛋白质家族呈现出了很大的差异性(异质性),导致这些方法的进一步发展和应用受到了极大的限制。

基于前沿的 AI 方法,深度神经网络(大型语言模型)在成千上万个基因组数据训练之后,它将学习并理解多样化的蛋白系统,并且有望发现这些蛋白质工具的远亲,这些远亲可能具备新的基因编辑功能。这些由 AI 增强的搜索策略不仅能用于发现 CRISPR 相关工具,还可以用来发现任何你感兴趣的系统中的天然工具。

发现像 CRISPR 酶这样的新分子工具只是一个开始,因为天然酶的活性往往不足以直接应用于基因编辑。为了提高效率、特异性或灵活性,通常需要使用酶工程方法,如理性诱变或定向进化。然而,由于潜在突变的可能性非常多,这个过程常常非常繁重,甚至无法完成。人工智能辅助的蛋白质优化方法通过蛋白质结构建模或机器学习指导的诱变和定向进化,可以更快地优化这些酶的功能,这在需要整合多个酶域的高级基因编辑技术中尤其重要。

随着基因组数据的不断增加以及我们在发现新蛋白质能力上的提升,酶工程化过程不再仅限于优化现有的蛋白质,而是可以从头生成全新的酶和调控工具。生成模型通过在基因组和宏基因组多样性数据上训练,学习不同蛋白质类别的特征表示,将能够创造出新的功能性蛋白质序列。这些由 AI 生成的蛋白质可以与经过训练的启发式函数结合,从而优化其特性,如特异性、效率和分子大小。AI 方法不仅可以生成新蛋白质,还能够进行复杂的设计,创造出自然界不存在的基因编辑功能。

除了可编程的基因编辑系统(如 CRISPR 效应蛋白及其衍生物)之外,基于机器学习的蛋白质发现与工程技术还可以开发其他细胞调控工具(如转录因子)。基于转录因子的细胞命运重编程是一种快速发展的方法,旨在通过新的组合筛选方法和分析技术来塑造新的细胞状态和细胞类型转换。借鉴 Aldesign 在基因编辑工具中的思路,我们可以对转录因子蛋白进行工程化改造,以改进其重编程能力。

AI 设计的转录因子蛋白有望实现对细胞命运的全新控制(包括过往难以实现的细胞转换或衰老组织的再生),从而扩展不断增长的调控工具库。然而,虽然 AI 设计的蛋白质工具在许多方面取得了重大进展,但这些计算方法并非普遍适用,仍需要针对特定蛋白质类别进行大量的预训练和微调。未来的架构和不断增加的数据量有望产生真正通用的体系结构,从而充分发挥 AI 辅助酶的潜力。随着未来架构的改进和数据量的增加,有望产生真正通用的体系结构,从而充分发挥 AI 辅助酶的潜力。

细胞调控工具的出现大大增强了我们研究和操控细胞的能力。当这些调控技术与高内容单细胞检测方法(如 RNA 测序,即 Perturb-seq、ATAC-seq(转座酶可及染色质的测序分析)、成像或空间测序)相结合时,它们可以为我们提供前所未有的见解,揭示细胞环境中的新功能和相互作用。这些数据的整合暗示着构建“虚拟细胞(virtual cells)”的可能性,这些虚拟细胞是基于人工智能模型(通常是大型语言模型)构建的,能够模拟细胞生物学并预测细胞反应。

然而,目前这些方法的准确性还处于初级阶段,它们缺乏对差异基因表达变化的预测能力,或者无法重建预测细胞中的基因表达分布。作者认为,通过将改进的基因编辑或调控工具与高内容筛选方法相结合所产生的更优模型,将能够预测真实细胞在类似调控下的反应,并且可以自动化地生成见解、提出假设,并设计实验。

虚拟细胞模型最具影响力的应用之一是新型治疗药物的发现和开发。

通过模拟候选化合物在虚拟细胞上的作用,研究人员可以有效识别新的药物靶点,或预测分子或抗体的疗效和副作用。这种计算机模拟筛选方法,能够在进行昂贵且耗时的体外和体内研究之前,识别目标基因或优先选择候选分子,大大加快了药物开发进程。特别是当 AI 支撑的筛选方法与基因编辑和其他核酸调控工具协同工作时,这一进程得到了进一步的加速。作者预计,虚拟细胞引领的全新生物学理解范式将在如衰老等挑战性领域产生深远影响,因为这些领域中的许多未解答的生物学问题,至今仍阻碍着有效治疗药剂的开发。随着计算机模拟细胞模型的不断完善,它们有望突破现有的技术局限,为科学研究和治疗应用开辟全新的可能性。

AI 与基因组工具的结合预示着一个新的发现和创新的时代将至,它将通过提升基因编辑工具的设计和效率,来推动复杂虚拟细胞模型的创建。数据的可获取性是推动这个人工智能驱动的未来的关键因素,而整合了“lab in the loop”AI 模型的方法将有助于集中数据采集,帮助我们更快地改进这些模型。

“Lab in the loop” 是一种结合了实验室实验和计算机模型的实时反馈系统。在这种系统中,实验室的实验和计算机模拟(通常由人工智能或机器学习驱动)之间形成一个闭环。实验数据会实时输入计算机模型,模型根据数据进行更新或优化,随后模型的预测结果可以进一步指导新的实验。这种循环能够不断提高实验的效率和精度,并且加速科学发现的过程。

重要的是,当我们在如此基础的层面上创造和操控生命时,必须认真思考这些行为可能带来的影响,以确保我们的科学进步能广泛而公平地造福人类。尽管这条路上充满了挑战,但它证明了将生物学与新的 AI 工具结合的巨大潜力。未来,生物和数字之间的界限将会越来越模糊。


END \


再创丨Regenesis
机器,正在生物化;而生物,正在工程化。
 最新文章