Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

学术 2024-11-17 07:31 北京

撰文丨王聪

众所周知，生命的基本指令都包含在所有生物体的DNA序列中。理解这些指令可以帮助我们更深入地了解生物学过程，并开辟新途径，将生物学转化为有用的技术。然而，即便是最简单的微生物基因组也极其复杂，例如被人类研究的最为透彻的大肠杆菌，其基因组包含数百万碱基对，用于编码DNA、RNA和蛋白质之间的相互作用，而这三者是细胞功能的关键参与者，它们之间的信息流动构成了生命的“中心法则”。基因组的这种复杂性存在于多个尺度上，从单个分子到整个基因组，代表着在进化过程中经过功能选择的庞大的遗传信息景观。

人工智能（AI）的快速发展使得大语言模型（large language model，LLM）能够在大量数据的训练下展现出越来越先进的多任务推理和生成能力。如果开发出一种能够在大基因序列上保持单核苷酸分辨率的模型，就可能提取出关于嵌入在自然进化变异模式中的复杂分子相互作用的功能信息。

2024年11月15日，Arc研究所的 Patrick D. Hsu 和 Brian L. Hie 团队在国际顶尖学术期刊 Sciencce 上发表了题为：Sequence modeling and design from molecular to genome scale with Evo 的研究论文【1】，该论文还被选为当期的封面论文。

该研究开发了从分子到基因组尺度都能进行预测和生成任务的基因组基础模型——Evo模型。这是第一个在全基因组规模上以单核苷酸分辨率预测和生成DNA序列的模型。

通过对整个基因组信息进行学习，Evo模型能够学习微小的核苷酸序列变化如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要，还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列。研究团队还使用Evo模型生成了CRISPR-Cas分子复合物和IS200/IS605转座子，并验证了它们的功能活性，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

在生物中，一切都从DNA开始，基因组携带构成完整生命体的一整套DNA（遗传密码），这是世代进化的结果，反映了生命对不断变化的环境的适应。其他复杂的生物语言则是从DNA衍生而来，包括蛋白质和RNA，蛋白质负责执行生命功能，RNA帮助DNA传递信息并帮助蛋白质执行功能。尽管这三者看起来是多层次的，但它们都被“中心法则”统一在基因组中。

人工智能基础模型的出现，为生物序列建模指明了一条有前景的道路，但尚未实现全基因组水平的建模。DNA序列非常长，例如我们人类有着30亿碱基对，简单如大肠杆菌也有这数百万碱基对。要想充分理解进化的影响，需要具有单个核苷酸分辨率的分辨率，这些问题使得大规模预训练特别具有挑战性。

到目前为止，还不清楚人工智能（AI）模型是否能够在这么长的基因组序列中有效地学习其复杂模式。因此，现有的利用AI建模生物序列的突破主要集中在短上下文、特定任务和单模态能力，例如AlphaFold、ESMFold、Nucleotide Transformer。

因此，我们需要一个基础模型（Foundation Model），该模型可以整合长基因组序列上的信息，同时保持对单核苷酸变化的敏感性。一个有效地学习基因组的模型不仅可以理解个体的DNA、RNA和蛋白质组分，还可以理解这些成分如何通过相互作用来创建复杂系统。这有助于加速我们对生物学机制的理解，以及设计生命的能力。

Brian L. Hie（左）和Patrick D. Hsu（右）

在这项研究中，研究团队开发了一个DNA基础模型——Evo模型，旨在捕捉生物的两个基本方面：中心法则的多模态性和进化的多尺度特性。中心法则（Central Dogma）将DNA、RNA和蛋白质统一在一个编码体系和可预测的信息流中，而进化（Evolution）则将分子、通路、细胞和生物体这些在功能上极为不同的尺度统一起来。

研究团队使用主流架构进行DNA预训练后发现，Transformer模型在以单核苷酸、字节级分辨率进行训练时，可扩展性不太好，这表明自然语言中的主要架构不一定能迁移到DNA语言中。为了克服与长序列和字节级分辨率的基因组序列建模相关挑战，研究团队使用了基于深度信号处理技术的最新架构——StripedHyena，相比Transformer，StripedHyena架构将Evo的参数数量扩大到了70亿，同时在131千碱基（131kb）的上下文长度中保持了单核苷酸分辨率。

Evo模型是在270万种原核生物和噬菌体的基因组上进行训练的，它能够在DNA、RNA和蛋白质模式下实现零样本功能预测，其性能与或优于特定领域的语言模型。

基于原核生物基因组预训练的长文本基因组基础模型

基于StripedHyena的Evo模型架构

通过对整个基因组的信息进行学习，Evo能够理解微小的核苷酸序列变化（基因突变）如何影响整个生物体的适应性，从而预测哪些基因对于生物体至关重要。而在实验室中进行基因必要性研究，通常需要6个月到1年时间。

由于Evo模型是在包含蛋白质编码序列的长基因组序列上训练的，因此研究团队测试了该模型是否也能很好地学习蛋白质语言，从而执行零样本（Zero-shot）蛋白质功能预测。结果显示，Evo模型优于所有其他已测试的核苷酸模型，包括仅在蛋白质编码序列上明确训练的模型，甚至可以与最先进的蛋白质语言模型竞争（例如ESM或ProGen）。值得注意的是，Evo模型能够实现非编码RNA（ncRNA）和调节性DNA的零样本功能预测，从而跨越“中心法则”的所有三种成分——DNA、RNA和蛋白质。

Evo模型的学习能力横跨蛋白质、RNA和DNA

目前，生物学的生成模型通常只关注一种模式——例如只生成蛋白质或只生成RNA。而Evo模型的一个关键突破之处在于可执行多模态生成任务，研究团队使用Evo模型生成了全新的CRISPR系统，这种由蛋白质和RNA组成的大型蛋白复合体，是现有的生成模型无法做到的。

CRISPR系统是原核生物中天然存在的免疫系统，被改造用于基因编辑。通常情况下，我们需要从自然界基因组中搜寻以发现新的CRISPR系统。而现在，Evo模型能够直接生成一个全新的CRISPR系统，让我们拥有了创造新型基因组编辑工具的能力。

设计生成新型CRISPR-Cas分子复合物

研究团队将Evo模型设计生成的EvoCas9-1与sgRNA进行重组表达和纯化，其在体外的基因编辑效率与spCas9-sgRNA相当。

Evo模型设计生成的CRISPR-Cas9系统及功能验证

此外，研究团队还使用Evo模型设计生成了IS200/IS605转座子系统，并实验验证了其功能活性。

据悉，这也是首次通过语言模型实现蛋白质-RNA和蛋白质-DNA协同设计的实例。

能够生成超长碱基对的具有合理基因组结构的DNA序列的大规模生物序列模型的进一步发展，结合DNA合成技术以及基因组工程技术的进步，将加快我们对生命进行工程化的能力。

除了在多分子（蛋白质和ncRNA）规模上生成序列，Evo模型还能够生成长度超过百万碱基对的具有合理基因组结构的DNA序列，且生成的序列中包含了数千个潜在的蛋白质编码序列，从而让我们拥有了全基因组规模序列生成的潜力。这种大规模的序列生成是由Evo模型的长上下文功能和高效的推理模式实现的。

Evo模型，能够从单个核苷酸到整个基因组学习生物复杂性

研究团队表示，Evo模型标志着我们在模拟生物序列的一个转折点，相信这项技术有潜力加速我们科学（包括生物学、化学或材料科学）的发现和理解，以及应用于现实世界的问题（包括药物发现、农业和可持续性）。基础模型将成为越来越重要的科学工具，期待训练更大的模型，提高它们的生成能力，并将Evo预训练扩展到人类基因组。通过增强这些模型学习的生物复杂性，相信我们可以在对抗复杂疾病和改善人类健康方面取得重大进展。

最后，研究团队表示即将开源更大规模的3000亿token的训练数据集——OpenGenome，由270万个公开可用的原核基因组和噬菌体基因组组成，这是公开可用的最大的DNA预训练数据集，希望它将有助于加速DNA语言模型这个令人兴奋和有影响的领域的研究。

相关阅读：

2024年10月30日，北京理工大学邵斌教授课题组在 Nature Communications 期刊发表了题为：A long-context language model for deciphering and generating bacteriophage genomes 的研究论文【2】。详情：邵斌团队实现首个生成式DNA大语言模型——破译并生成病毒基因组

该研究实现了首个生成式DNA大语言模型——megaDNA。该模型利用无标注的噬菌体基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达10万碱基对的崭新基因组片段，也就是能够像写作自然语言一样生成DNA序列。另外，该模型在学习过程中获得的深层信息（embedding），还能应用于蛋白质突变效果预测、基因调控研究，以及无标注DNA片段分类等多个下游任务，展现出良好的泛化能力。

论文链接：

1. https://www.science.org/doi/10.1126/science.ado9336

2. https://www.nature.com/articles/s41467-024-53759-4

药渡媒体商务合作

媒体公关 | 新闻&会议发稿

张经理：18600036371（微信同号）

点击下方“药渡“，关注更多精彩内容

免责声明

“药渡”公众号所转载该篇文章来源于其他公众号平台，主要目的在于分享行业相关知识，传递当前最新资讯。图片、文章版权均属于原作者所有，如有侵权，请及时告知，我们会在24小时内删除相关信息。

微信公众号的推送规则又双叒叕改啦，如果您不点个“在看”或者没设为"星标"，我们可能就消散在茫茫文海之中~点这里，千万不要错过药渡的最新消息哦！👇👇👇

http://mp.weixin.qq.com/s?__biz=MzA5MjEzODQ3NA==&mid=2655943754&idx=7&sn=ea5cdd653386283bef538fc30dc3b9a5

药渡

药渡以自有药物大数据为依托，对上市及临床在研药物、药物研究进展和重要药物市场商业动态作出信息整合分析，传递药物创新一手资讯

最新文章

全球首个！针对肺癌脑转移的EGFR-TKI新药「佐利替尼」获批上市

国产创新药围猎十亿美元分子

“水土不服”的阿托品

牵手默沙东、阿斯利康、中生制药，礼新医药两年卖出280亿

眼科CMO l 纳米载药技术助力眼科产业提质创新

抢先剧透 | 第九届医药创新与投资大会初版日程公布

好书推荐 |《定量药理学应用》

【上海】2024结晶技术创新与过程强化研讨班

11月26日直播 | 小分子原料药和药品制剂生产中遗传毒性杂质和其他杂质的分析和结构鉴定

好书推荐 | 《有机合成工艺研究与开发（原著第二版）》

License out 不休，康诺亚坐拥“聚宝盆”

一周6笔！BD交易年底再爆发？

特朗普提名网红医生当CMS负责人

十年，K药终于即将迎来皮下给药方案！

减肥神器「司美格鲁肽」减重版正式登陆中国市场

【干货】大分子新药早研一线科学家们齐聚第三届蛋白质科学及抗体发现研讨会

双抗后，下一个国产BD风口

Q3被高瓴清仓的Biotech

国内7家公司完成新一轮融资，聚焦细胞与基因治疗领域

11月20日直播 | 聚焦“HER2 ADC药物研究进展与应用前景”

十万亿来了，生物制造大利好！

好书推荐 |《氟药与氟代制药技术》

基因疗法先驱大规模裁员，CGT公司为何财源不畅、裁员不断？

11月26日直播 | 小分子原料药和药品制剂生产中遗传毒性杂质和其他杂质的分析和结构鉴定

血液瘤王者利剑出鞘

新晋减肥Biotech：CSO此前是国内企业创始人

2.7亿元，一家国内创新药企被收购

【课程预告】细胞治疗系列公开课第4期：间充质基质/干细胞产品开发的最新进展

完全批准被拒，两家药企受伤

好书推荐 | 《精细化学品合成实用手册》

Cell：新型靶向蛋白降解技术来袭！解读TRIM21介导的多聚蛋白降解技术

不打价格战，CAR-T疗法在美国

FDA要变天！特朗普正式提名罗伯特·肯尼迪领导卫生与公众服务部

“入保”后大涨8212%，75个创新药进入快速放量期

11月20日直播 | 聚焦“HER2 ADC药物研究进展与应用前景”

综述 | E3连接酶配体化学——从基础构建到蛋白降解剂

大早上其实不宜喝咖啡？！随访17年研究：上午至中午喝茶能显著降低心血管疾病风险，但早上太早喝咖啡反增糖尿病患者心血管等疾病风险

好书推荐 | 《药物结构优化——设计策略和经验规则 (第二版)》

License in的“优等生”

【重塑焦点风云再起】2024年中国生物医药产业链创新风云榜评选征集中！

普米斯被BioNTech收购，一个“蛋比鸡贵”的时代

国产分子，又诞生了一个全球BIC

国产双抗创新药出海热潮

IgG降低超过77%！强生披露潜在“同类最佳”FcRn单抗最新2期研究积极数据

Science封面：华人学者开发AI模型，学会生命的语言，生成新型CRISPR系统乃至整个基因组

好书推荐 | 《药品说明书撰写指南》

“泰”相聚，共寻生物科技的价值创造与医健产业的价值投资

辉瑞“割肉”，拟出售170亿美元资产

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉