Nature 观点：通过人工智能实现生物学的可编程化丨再创

学术 2024-09-04 16:15 广东

引言 /Introduction

2024 年 8 月 9 日，来自哈佛大学医学院的 Omar O. Abudayyeh 和 Jonathan S.Gootenberg 在 Nature Method 发表了题为⌈Programmable biology through artificial intelligence: from nucleic acids to proteins to cells⌋ 的评论文章。作者认为，人工智能驱动的计算工具不仅帮助我们更好地理解生物过程，还让我们能够通过分子和细胞工程对生物进行精准的控制和设计--“编程”生物走进现实。

屏幕截图 2023-08-23 101713.png

Omar O. Abudayyeh＆Jonathan S. Gootenberg / 作者

锐锐 / 整理

孟凡康 / 审校

// 作者介绍

Omar Abudayyeh

哈佛医学院和麻省总医院 Brigham & Women's Hospital 研究员、Abudayyeh-Gootenberg 实验室 PI、多家基因编辑和诊断领域公司和初创企业的联合创始人和技术创新者，博士毕业于 Broad 研究所张锋实验室。他专注于开发下一代基因编辑、基因递送和合成生物学技术，并将这些技术应用于新疗法和抗衰老研究。

Jonathan Gootenberg

哈佛医学院助理教授、Beth Israel Deaconess 医疗中心和哈佛大学疫苗与病毒学研究中心研究员、Abudayyeh-Gootenberg 实验室联合 PI。他的实验室正在探索如何在生物学各个层面上利用可编程性，并将这些技术应用于基因疾病、癌症和衰老的新疗法开发。

// 一作有话说

Jonathan Gootenberg:

机器学习的重大进展通常依赖于大量的数据，例如 Meta 的 Llama 3.1 模型，就用了 15 万亿个 tokens 进行训练。目前来看，蛋白质结构预测领域的数据已经足够丰富，使得模型可以精确地预测蛋白质的三维结构，从而达到理想的性能和准确性。但对于虚拟细胞这类更复杂的模型来说，若想要达到理想的效果（像蛋白质结构预测模型那样的优异效果），我们还需要更多的数据，尤其是涉及实验中的各种调控因素的数据。这些额外的数据能够帮助模型更好地模拟虚拟细胞的行为和反应，从而提升模型的准确性和性能。

传统的大型语言模型（LLMs）通过使用强化学习+人类反馈（RLHF）和强化学习+人工智能反馈（RLAIF），如今已经得到了显著的优化。而在生物学模型领域，我们可以通过在计算机模型和实际实验（湿实验室）之间不断进行迭代和反馈的方式，显著提高模型的性能。我们近期上线的预印本中提到了更多的相关内容。

▲ 原文链接：https://doi.org/10.1101/2024.07.17.604015

我们预计，未来将会有更多的“Lab in the loop” 方法出现，并最终发展成为自动化实验室（SDLs：Self-driving lab）。（再创推荐阅读：SDLs （自动化实验室）在合成生物学中的前景展望丨再创）

通过人工智能实现生物学的可编程化：从核酸到蛋白质再到细胞

人工智能驱动的计算工具不仅帮助我们更好地理解生物过程，还让我们能够通过分子和细胞工程对生物进行精准的控制和设计--“编程”生物走进现实。在过去的一个世纪里，我们对生物学的理解已经从现象学（Phenomenology）转变为可编程性（Programmability）。

换句话说，过去，我们只能观察生物，如今，我们能够主动操纵和设计生物了。

这种转变源自几次巨大的生物学革命：我们揭示和理解了分子生物学中的基本原理与机制、我们开发了高通量的生物样本分析方法（如单细胞测序），我们开发和设计了新型的精密生物学工具（如 CRISPR）。特别是新的分子技术（如 RNA 调控和基因组编辑方法）使我们能够在关键的中心法则（DNA、RNA 和蛋白质）范围内进行操作。这不仅为基础生物学带来了重要的洞见，还推动了多种疾病新疗法的开发。

现在，我们看到了另一场即将到来的革命：我们将运用 AI，解锁从核酸到蛋白质再到细胞的生物编程新能力（图 1）。

▲ 图1：AI方法在生物学编程中的应用

得益于当前庞大的基因组、蛋白质和细胞数据规模，以及这些数据在开发新型蛋白质工具中的重要作用，基于人工智能的方法在提升生物编程能力方面发挥了显著作用。例如，目前在 NCBI（美国国家生物技术信息中心）上已有超过 200 万个原核生物基因组和 4 万个真核生物基因组被测序，并且在人类细胞图谱（Human Cell Atlas）中，已经对超过 6000 万个细胞进行了单细胞测序。这些数据量前所未有，为构建模型提供了庞大的数据库。像 CRISPR 这样的方法就是基于我们对自然系统的了解而开发的。随着真核生物和原核生物数以百万计的基因组测序和 pb 级的数据积累，我们现在有机会从这些数据中学习和扩展，创建新的细胞调控方式。

然而，AI 在生物编程中的潜在应用远远超出了工具开发的范围：新的研究计划正通过这些工具对细胞进行调控，并收集多种模式的细胞数据。最终在整合这些资源后，我们将极有可能实现基于 AI 的全细胞建模，从而在计算机中预测和编程细胞命运及其响应。

从根本上说，我们对细胞进行编程的能力取决于我们所拥有的精确扰乱细胞的工具。这些工具包括小分子、抗体、转录因子和可编程的核酸靶向酶，为人工智能辅助方法发现、工程化和创造新方法提供了丰富的进化空间。基因组编辑领域正在率先应用这些方法：多功能新工具的发现和生成有望产生新的酶，进一步丰富 CRISPR 工具箱！

基因编辑工具如 CRISPR 效应蛋白，传统上是利用微生物多样性，通过两种方式获得的：一是采用常规的生物信息学方法进行识别和筛选；二是微生物学专家通过他们对微生物的深入理解和过往丰富经验，识别和获取这些具有潜在应用价值的基因或蛋白质。这种方法产生了多种编辑蛋白，从常用的 Cas9（来自 Streptococcus pyogenes）到大量的 Cas9 同源蛋白，再到完全不同的 CRISPR 效应蛋白家族（包括 Cas12、Cas13 和 Cas7-11）。

虽然这些方法已经投入到应用中，但其实这些方法也仅仅是初步探索了微生物的多样性。同时，随着所需处理的基因组组数据激增，不同蛋白质家族呈现出了很大的差异性（异质性），导致这些方法的进一步发展和应用受到了极大的限制。

基于前沿的 AI 方法，深度神经网络（大型语言模型）在成千上万个基因组数据训练之后，它将学习并理解多样化的蛋白系统，并且有望发现这些蛋白质工具的远亲，这些远亲可能具备新的基因编辑功能。这些由 AI 增强的搜索策略不仅能用于发现 CRISPR 相关工具，还可以用来发现任何你感兴趣的系统中的天然工具。

发现像 CRISPR 酶这样的新分子工具只是一个开始，因为天然酶的活性往往不足以直接应用于基因编辑。为了提高效率、特异性或灵活性，通常需要使用酶工程方法，如理性诱变或定向进化。然而，由于潜在突变的可能性非常多，这个过程常常非常繁重，甚至无法完成。人工智能辅助的蛋白质优化方法通过蛋白质结构建模或机器学习指导的诱变和定向进化，可以更快地优化这些酶的功能，这在需要整合多个酶域的高级基因编辑技术中尤其重要。

随着基因组数据的不断增加以及我们在发现新蛋白质能力上的提升，酶工程化过程不再仅限于优化现有的蛋白质，而是可以从头生成全新的酶和调控工具。生成模型通过在基因组和宏基因组多样性数据上训练，学习不同蛋白质类别的特征表示，将能够创造出新的功能性蛋白质序列。这些由 AI 生成的蛋白质可以与经过训练的启发式函数结合，从而优化其特性，如特异性、效率和分子大小。AI 方法不仅可以生成新蛋白质，还能够进行复杂的设计，创造出自然界不存在的基因编辑功能。

除了可编程的基因编辑系统（如 CRISPR 效应蛋白及其衍生物）之外，基于机器学习的蛋白质发现与工程技术还可以开发其他细胞调控工具（如转录因子）。基于转录因子的细胞命运重编程是一种快速发展的方法，旨在通过新的组合筛选方法和分析技术来塑造新的细胞状态和细胞类型转换。借鉴 Aldesign 在基因编辑工具中的思路，我们可以对转录因子蛋白进行工程化改造，以改进其重编程能力。

AI 设计的转录因子蛋白有望实现对细胞命运的全新控制（包括过往难以实现的细胞转换或衰老组织的再生），从而扩展不断增长的调控工具库。然而，虽然 AI 设计的蛋白质工具在许多方面取得了重大进展，但这些计算方法并非普遍适用，仍需要针对特定蛋白质类别进行大量的预训练和微调。未来的架构和不断增加的数据量有望产生真正通用的体系结构，从而充分发挥 AI 辅助酶的潜力。随着未来架构的改进和数据量的增加，有望产生真正通用的体系结构，从而充分发挥 AI 辅助酶的潜力。

细胞调控工具的出现大大增强了我们研究和操控细胞的能力。当这些调控技术与高内容单细胞检测方法（如 RNA 测序，即 Perturb-seq、ATAC-seq（转座酶可及染色质的测序分析）、成像或空间测序）相结合时，它们可以为我们提供前所未有的见解，揭示细胞环境中的新功能和相互作用。这些数据的整合暗示着构建“虚拟细胞（virtual cells）”的可能性，这些虚拟细胞是基于人工智能模型（通常是大型语言模型）构建的，能够模拟细胞生物学并预测细胞反应。

然而，目前这些方法的准确性还处于初级阶段，它们缺乏对差异基因表达变化的预测能力，或者无法重建预测细胞中的基因表达分布。作者认为，通过将改进的基因编辑或调控工具与高内容筛选方法相结合所产生的更优模型，将能够预测真实细胞在类似调控下的反应，并且可以自动化地生成见解、提出假设，并设计实验。

虚拟细胞模型最具影响力的应用之一是新型治疗药物的发现和开发。

通过模拟候选化合物在虚拟细胞上的作用，研究人员可以有效识别新的药物靶点，或预测分子或抗体的疗效和副作用。这种计算机模拟筛选方法，能够在进行昂贵且耗时的体外和体内研究之前，识别目标基因或优先选择候选分子，大大加快了药物开发进程。特别是当 AI 支撑的筛选方法与基因编辑和其他核酸调控工具协同工作时，这一进程得到了进一步的加速。作者预计，虚拟细胞引领的全新生物学理解范式将在如衰老等挑战性领域产生深远影响，因为这些领域中的许多未解答的生物学问题，至今仍阻碍着有效治疗药剂的开发。随着计算机模拟细胞模型的不断完善，它们有望突破现有的技术局限，为科学研究和治疗应用开辟全新的可能性。

AI 与基因组工具的结合预示着一个新的发现和创新的时代将至，它将通过提升基因编辑工具的设计和效率，来推动复杂虚拟细胞模型的创建。数据的可获取性是推动这个人工智能驱动的未来的关键因素，而整合了“lab in the loop”AI 模型的方法将有助于集中数据采集，帮助我们更快地改进这些模型。

“Lab in the loop” 是一种结合了实验室实验和计算机模型的实时反馈系统。在这种系统中，实验室的实验和计算机模拟（通常由人工智能或机器学习驱动）之间形成一个闭环。实验数据会实时输入计算机模型，模型根据数据进行更新或优化，随后模型的预测结果可以进一步指导新的实验。这种循环能够不断提高实验的效率和精度，并且加速科学发现的过程。

重要的是，当我们在如此基础的层面上创造和操控生命时，必须认真思考这些行为可能带来的影响，以确保我们的科学进步能广泛而公平地造福人类。尽管这条路上充满了挑战，但它证明了将生物学与新的 AI 工具结合的巨大潜力。未来，生物和数字之间的界限将会越来越模糊。

\ END \

http://mp.weixin.qq.com/s?__biz=MzA3OTQzMDYyMQ==&mid=2449655961&idx=1&sn=0ca8b8c051591ec7cab65d0b8593bc99

再创丨Regenesis

机器，正在生物化；而生物，正在工程化。

诚邀赴会，深圳相聚｜第五届合成生物制造产业大会将于12月5日盛大开幕！

Natural Product Reports封面文章 | 石一鸣课题组：自然“战场”启发活性分子的发现和改造

合成生命设计新路径，《科学》发表 Evo 生物大模型丨再创

EP00 - AI 与合成生物学丨再创 Podcast 试录播

深圳先进院合成所，荷兰瓦赫宁根大学，慕尼黑工业大学...博士/博士后丨再创·人才

RNA 介导的核酸/蛋白质组装及应用丨再创

iDEC 2024 圆满结束，NEFU_China（东北林业大学）、Evolution Suisse（苏黎世联邦理工学院）夺金

iDEC 2024首日（26日）现场报道

iDEC 2024 第二日现场报道

合成生物学产品登上《时代》封面丨再创

专家点评Nature | 胡政/贺雄雷/何真团队合作揭示早期肿瘤从多克隆至单克隆转变的演化新模式

合成生物学与天然产物化学：用植物的力量开启药物合成的新未来

合成细胞国际联盟成立

中国科学院合成细胞国际科学计划启动

直播预告丨前沿讲堂第五期—iDEC 闭幕式演讲

精准操控细胞命运：将合成生物学应用于细胞重编程｜再创

硬核！iDEC Festival 本月举行，重磅演说预告！丨再创同步直播

第四届国际定向进化大赛 iDEC Festival 即将开幕！

在DNA上对信号和顺式调控元件活性进行符号记录丨再创

深圳理工大学2024年副院长，博士后，研究助理招聘信息整理合集丨再创·人才

Build-A-Cell Workshop 波士顿站回顾丨再创

直播预告丨再创合成生物学前沿讲堂：酵母工程生物学和合成生物学（YESBio）平台

诺奖得主 David Baker 与合成生物学丨再创

达特茅斯学院，上海交大，麻省理工，哈弗，德克萨斯大学达拉斯分校，弗吉尼亚理工大学...博士/博士后招聘丨再创·人才

达特茅斯学院廖辰(Chen Liao)实验室诚聘博士后丨再创·人才

通过物理信号对哺乳动物细胞行为进行编程（上）

通过物理信号对哺乳动物细胞行为进行编程（下）

合成生物学挖比特币？丨再创

Peter Schultz：化学与生物交汇处的开拓者丨再创

上海交大，浙大，帝国理工，普林斯顿大学，温哥华不列颠哥伦比亚大学，剑桥医学研究委员会...博士后/博士/研究助理招聘丨再创·人才

阅读推荐：合成基因组学作为合成生物学的关键领域，将带来新的机遇丨再创

工程生物学与自动化——以可重复性为设计准则丨再创

Nature 观点：通过人工智能实现生物学的可编程化丨再创

北京大学、上海交大、牛津、布大、帝国理工学院、慕尼黑工业大学、VIB鲁汶微生物中心...博士/博士后丨再创·人才

自动化体内酶工程加速生物催化优化策略丨再创

Nature Chemical Biology | “活”塑料：合成生物学助力塑料降解新解法

直播预告：基于三态逻辑的多层基因网络设计丨合成生物学前沿讲堂 003

直播预告丨国际定向进化大赛夏季研讨会

中山大学、曼大、剑桥、马普所...博士/博士后/科研助理招聘丨再创·人才

直播预告丨再创·合成生物学前沿讲堂：改造人体共生菌精准给药肿瘤细胞

以青年之光点燃创新之火，第三届合成生物学创新赛在深圳成功举办！

深圳先进院合成所、根特大学、IC、牛津、Penn...博士/科研助理/研究员/博士后/终身教职招聘

深圳续篇第18届Q-Bio会议：全球学者共探定量生物学新前沿

中科院天津所、天津大学、帝国理工、UCL、UCberkeley...终身教职/博士后/助理教授/科研助理招聘丨再创·人才

Nat Rev Bioeng丨刘陈立/赵国屏：开拓“定量合成生物学”新范式，驱动复杂生物系统的理性设计

如何培养一名合成生物学家？丨再创

曼彻斯特、帝国理工、斯坦福...技术员/博士后/研究助理/研究员招聘丨再创·人才

再创小伙伴集结啦！（此条招募信息长期有效）丨再创

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉