Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

学术 2024-11-16 09:00 北京

众所周知，生命的基本指令都包含在所有生物体的DNA序列中。理解这些指令可以帮助我们更深入地了解生物学过程，并开辟新途径，将生物学转化为有用的技术。然而，即便是最简单的微生物基因组也极其复杂，例如被人类研究的最为透彻的大肠杆菌，其基因组包含数百万碱基对，用于编码DNA、RNA和蛋白质之间的相互作用，而这三者是细胞功能的关键参与者，它们之间的信息流动构成了生命的“中心法则”。基因组的这种复杂性存在于多个尺度上，从单个分子到整个基因组，代表着在进化过程中经过功能选择的庞大的遗传信息景观。

人工智能（AI）的快速发展使得大语言模型（large language model，LLM）能够在大量数据的训练下展现出越来越先进的多任务推理和生成能力。如果开发出一种能够在大基因序列上保持单核苷酸分辨率的模型，就可能提取出关于嵌入在自然进化变异模式中的复杂分子相互作用的功能信息。

2024年11月15日，Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为：Sequence modeling and design from molecular to genome scale with Evo 的研究论文【1】，该论文还被选为当期的封面论文。

该研究开发了从分子到基因组尺度都能进行预测和生成任务的基因组基础模型——Evo模型。这是第一个在全基因组规模上以单核苷酸分辨率预测和生成DNA序列的模型。

通过对整个基因组信息进行学习，Evo模型能够学习微小的核苷酸序列变化如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要，还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列。研究团队还使用Evo模型生成了CRISPR-Cas分子复合物和IS200/IS605转座子，并验证了它们的功能活性，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

在生物中，一切都从DNA开始，基因组携带构成完整生命体的一整套DNA（遗传密码），这是世代进化的结果，反映了生命对不断变化的环境的适应。其他复杂的生物语言则是从DNA衍生而来，包括蛋白质和RNA，蛋白质负责执行生命功能，RNA帮助DNA传递信息并帮助蛋白质执行功能。尽管这三者看起来是多层次的，但它们都被“中心法则”统一在基因组中。

人工智能基础模型的出现，为生物序列建模指明了一条有前景的道路，但尚未实现全基因组水平的建模。DNA序列非常长，例如我们人类有着30亿碱基对，简单如大肠杆菌也有这数百万碱基对。要想充分理解进化的影响，需要具有单个核苷酸分辨率的分辨率，这些问题使得大规模预训练特别具有挑战性。

到目前为止，还不清楚人工智能（AI）模型是否能够在这么长的基因组序列中有效地学习其复杂模式。因此，现有的利用AI建模生物序列的突破主要集中在短上下文、特定任务和单模态能力，例如AlphaFold、ESMFold、Nucleotide Transformer。

因此，我们需要一个基础模型（Foundation Model），该模型可以整合长基因组序列上的信息，同时保持对单核苷酸变化的敏感性。一个有效地学习基因组的模型不仅可以理解个体的DNA、RNA和蛋白质组分，还可以理解这些成分如何通过相互作用来创建复杂系统。这有助于加速我们对生物学机制的理解，以及设计生命的能力。

Brian L. Hie（左）和Patrick D. Hsu（右）

在这项研究中，研究团队开发了一个DNA基础模型——Evo模型，旨在捕捉生物的两个基本方面：中心法则的多模态性和进化的多尺度特性。中心法则（Central Dogma）将DNA、RNA和蛋白质统一在一个编码体系和可预测的信息流中，而进化（Evolution）则将分子、通路、细胞和生物体这些在功能上极为不同的尺度统一起来。

研究团队使用主流架构进行DNA预训练后发现，Transformer模型在以单核苷酸、字节级分辨率进行训练时，可扩展性不太好，这表明自然语言中的主要架构不一定能迁移到DNA语言中。为了克服与长序列和字节级分辨率的基因组序列建模相关挑战，研究团队使用了基于深度信号处理技术的最新架构——StripedHyena，相比Transformer，StripedHyena架构将Evo的参数数量扩大到了70亿，同时在131千碱基（131kb）的上下文长度中保持了单核苷酸分辨率。

Evo模型是在270万种原核生物和噬菌体的基因组上进行训练的，它能够在DNA、RNA和蛋白质模式下实现零样本功能预测，其性能与或优于特定领域的语言模型。

基于原核生物基因组预训练的长文本基因组基础模型

基于StripedHyena的Evo模型架构

通过对整个基因组的信息进行学习，Evo能够理解微小的核苷酸序列变化（基因突变）如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要。而在实验室中进行基因必要性研究，通常需要6个月到1年时间。

由于Evo模型是在包含蛋白质编码序列的长基因组序列上训练的，因此研究团队测试了该模型是否也能很好地学习蛋白质语言，从而执行零样本（Zero-shot）蛋白质功能预测。结果显示，Evo模型优于所有其他已测试的核苷酸模型，包括仅在蛋白质编码序列上明确训练的模型，甚至可以与最先进的蛋白质语言模型竞争（例如ESM或ProGen）。值得注意的是，Evo模型能够实现非编码RNA（ncRNA）和调节性DNA的零样本功能预测，从而跨越“中心法则”的所有三种成分——DNA、RNA和蛋白质。

Evo模型的学习能力横跨蛋白质、RNA和DNA

目前，生物学的生成模型通常只关注一种模式——例如只生成蛋白质或只生成RNA。而Evo模型的一个关键突破之处在于可执行多模态生成任务，研究团队使用Evo模型生成了全新的CRISPR系统，这种由蛋白质和RNA组成的大型蛋白复合体，是现有的生成模型无法做到的。

CRISPR系统是原核生物中天然存在的免疫系统，被改造用于基因编辑。通常情况下，我们需要从自然界基因组中搜寻以发现新的CRISPR系统。而现在，Evo模型能够直接生成一个全新的CRISPR系统，让我们拥有了创造新型基因组编辑工具的能力。

设计生成新型CRISPR-Cas分子复合物

研究团队将Evo模型设计生成的EvoCas9-1与sgRNA进行重组表达和纯化，其在体外的基因编辑效率与spCas9-sgRNA相当。

Evo模型设计生成的CRISPR-Cas9系统及功能验证

此外，研究团队还使用Evo模型设计生成了IS200/IS605转座子系统，并实验验证了其功能活性。

据悉，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

能够生成超长碱基对的具有合理基因组结构的DNA序列的大规模生物序列模型的进一步发展，结合DNA合成技术以及基因组工程技术的进步，将加快我们对生命进行工程化的能力。

除了在多分子（蛋白质和ncRNA）规模上生成序列，Evo模型还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列，且生成的序列中包含了数千个潜在的蛋白质编码序列，从而让我们拥有了全基因组规模序列生成的潜力。这种大规模的序列生成是由Evo模型的长上下文功能和高效的推理模式实现的。

Evo模型，能够从单个核苷酸到整个基因组学习生物复杂性

研究团队表示，Evo模型标志着我们在模拟生物序列的一个转折点，相信这项技术有潜力加速我们科学（包括生物学、化学或材料科学）的发现和理解，以及应用于现实世界的问题（包括药物发现、农业和可持续性）。基础模型将成为越来越重要的科学工具，期待训练更大的模型，提高它们的生成能力，并将Evo预训练扩展到人类基因组。通过增强这些模型学习的生物复杂性，相信我们可以在对抗复杂疾病和改善人类健康方面取得重大进展。

最后，研究团队表示即将开源更大规模的3000亿token的训练数据集——OpenGenome，由270万个公开可用的原核基因组和噬菌体基因组组成，这是公开可用的最大的DNA预训练数据集，希望它将有助于加速DNA语言模型这个令人兴奋和有影响的领域的研究。

相关阅读：

2024年10月30日，北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为：A long-context language model for deciphering and generating bacteriophage genomes 的研究论文【2】。详情：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

该研究实现了首个生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达10万碱基对的崭新基因组片段，也就是能够像写作自然语言一样生成DNA序列。另外，该模型在学习过程中获得的深层信息（embedding），还能应用于蛋白质突变效果预测、基因调控研究，以及无标注DNA片段分类等多个下游任务，展现出良好的泛化能力。

论文链接：

1. https://www.science.org/doi/10.1126/science.ado9336

2. https://www.nature.com/articles/s41467-024-53759-4

END

关于Bio-protocol

Bio-protocol 于2011年在斯坦福大学创建，旨在提高科研的可重复性，以助力科学发现。它与 eLife、Science/AAAS等国际知名出版机构合作，致力于提升实验方案的透明度和共享。Bio-protocol是 Bio-protocol 旗下一份同行评审的国际学术期刊，专注于发表高质量的生命科学实验方案。至今，已发表来自全球两万多名科研工作者的近5000 篇文章。该期刊已被PubMed Central、Web of Science 等国际权威数据库收录,是全球为数不多的拥有影响因子的生物学实验方案期刊之一。Bio-101 是Bio-protocol旗下一个中文生命科学实验方案的共享平台，通过与上百个国内优秀科研团队的合作，已出版了多本同行评审、免费获取的中文实验方案电子书。

http://mp.weixin.qq.com/s?__biz=MzI0MzY0Njg0NQ==&mid=2247666387&idx=2&sn=c2bc3c1baecdd4a518627df8c2482168

BioscienceProtocols

作为共享科学技术的先行者，Bio-protocol同Science等多家知名杂志合作，致力于搭建全球权威的生物实验方案分享平台，提高科研的可重复性。已发表来自全球上万名优秀科研人员的近5000余篇方法。关注我们，为您分享好的方法、技术干货。

最新文章

想要健康长寿？科学家利用CRISPR/Cas9和AAV实现精确基因修复

Nature：我国学者开发通用的临床功能蛋白质组学策略——TMEPro，为胰腺癌诊断与治疗提供全面资源

口干舌燥背后的科学：干细胞揭示副交感神经与唾液腺互动

Nature Aging：人体临床试验显示，补充烟酰胺可改善衰老相关肺部

骨质疏松有救了？武汉大学朱玲新组 | 最新骨切片实验方法揭示骨吸收调控机制

Nature子刊：顾宇昂等人开发金属有机纳米颗粒，用于mRNA递送

上海交通大学医学院沈蕾组 | 肠道固有淋巴样细胞亚群分类及表型检测

Nature子刊：乳酸太毒了！导致耗竭T细胞功能障碍，促进肿瘤免疫逃逸

中科院昆明动物研究所郑萍组 | 树鼩精原干细胞系的分离和建系培养

Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

一文读懂【细菌质粒提取实验】注意事项及常见问题解决方案

Cell：徐勇团队等发现这种人体产生的天然代谢物，能够抑制食欲、帮助减肥

实验鼠戴上“迷你二维码”，帮助科学家破解睡眠难题：计算机视觉高效追踪ArUco 标记

乙肝治疗新突破：山东大学Cell子刊论文揭示益生菌及其代谢产物亚精胺促进HBV清除的机制

长期闻一种味道会影响记忆力？果蝇嗅觉习惯研究或影响记忆障碍治疗

AlphaFold3开源了！所有人均可下载代码，有望颠覆当前药物研发模式

研究揭示：泡沫细胞和脂滴微胶质细胞的关系远比我们想象的复杂，解决自发荧光干扰！BODIPY染色助力泡沫细胞精确检测

Cell子刊：柳光宇/江一舟/龚悦团队揭示三阴性乳腺癌免疫逃逸新机制，并提出潜在治疗策略

创新性荧光素染色法，提升植物淀粉颗粒成像效率

Cell子刊：肠道菌群通过昼夜节律调节身体对压力的反应

中科院生化与细胞所胡苹组 | 骨骼肌肌肉干细胞流式分选

Cell：中国博后一作，开发CRISPR-Cas13筛选技术，发现778个人类必需lncRNA

中科院昆明动物研究所郑萍组 | 树鼩精原干细胞的转基因操作

Cancer Cell：邹伟平团队揭示衣康酸转运蛋白SLC13A3赋予肿瘤铁死亡抗性，削弱肿瘤免疫治疗效果

一文读懂【真核细胞转染与蛋白质提取实验】注意事项及常见问题解决方案

Cell子刊：首都医科大学张晨/王伟/刘希成团队揭示肠道细菌通过抑制铁死亡，减轻阿尔茨海默病

细胞成像实验方案合集：汇集从细胞结构、动态过程到高分辨率观测的各类实验研究方案

山东第一医科大学周香香/解维林团队综述PROTAC和分子胶等靶向蛋白降解技术的药物发现及临床进展

Bio-protocol | 2024年11月5日最新上线实验方案目录

Cell : 刘光慧团队等构建全球首个多器官衰老时空图谱，发现衰老新标志——免疫球蛋白的积累

自动化与高通量筛选结合：提高感染病毒的检测效率与准确性

Nature子刊：抑制这个蛋白，可逆转大脑衰老，延长健康寿命

西安交通大学，从三维视角研究乳腺发育：用小鼠模型看清生理结构

中国福建海洋研究院海洋药物研发中心贾力、陈建明 | 海洋微生物数量、大小及形态的流式检测

2024诺奖得主David Baker创立新公司，AI设计全新药物形式——抗体笼，源自Science论文

中国昆明动物研究所遗传资源与进化国家重点实验室郑萍团队 | 树鼩睾丸处理诱导生精细胞死亡

Cell子刊：江南大学田培郡团队开发益生菌疗法，用于抑郁症治疗

一文读懂【细菌表达蛋白实验】注意事项及常见问题解决方案

12篇Nature系列论文齐发：全面解析肿瘤的起源、演化及细胞间相互作用

细菌菌毛分离技术升级：高效纯化，提升冷冻电镜研究效率

NEJM：陈玲玲评述，首次证实lncRNA单拷贝缺失引起人类严重大脑疾病

河南大学开发基于纳米颗粒的靶向蛋白降解通用策略，有望颠覆靶向蛋白降解工具研发格局

个性化治疗的未来：患者源性类器官模型开辟新的研究与治疗路径

Cell子刊：华科刘刚团队揭示两种饮食模式对体重和肠道菌群的影响

单细胞转录组学研究纤维组织异质性：RNA测序制备方法在糖尿病视网膜病变研究中的应用

Nature Medicine：“减肥神药”司美格鲁肽被证实对慢性肾病有效

中国中山大学中山医学院赵萌 | 小鼠骨髓红细胞分化阶段分析

Science：我国学者在河南发现水熊虫新物种，并揭开其超强抗辐射能力的分子机制

中国首都医科大学基础医学院陈振文团队 | 长爪沙鼠输精管结扎术

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉