人工智能进军DNA编码,创建新的基因组。
ChatGPT是著名的人工智能(AI)聊天机器人,它可以总结《白鲸记》(Moby Dick),编写计算机代码,并提供炸鸡王的食谱,因为互联网上的大部分书面信息都在它的硅指尖上。如果它能对DNA做同样的事情呢?
这是发表在《科学》杂志上的一项新研究的进展。研究人员描述了一种人工智能模型,该模型基于数十亿条基因序列,可以推断细菌和病毒基因组的运作方式,并利用这些信息设计新的蛋白质,甚至是整个微生物基因组。这个被称为Evo的模型可以帮助科学家探索进化,研究疾病,开发新的治疗方法,并可能回答许多其他生物医学问题。
“这项工作非常重要,”阿贡国家实验室的计算生物学家Arvind Ramanathan说,他没有参与这项研究。他说,作者对Evo进行的测试为人工智能提供了“一个很好的应用展示”。
研究人员设计了专门的人工智能模型,可以执行与某些类型的分子相关的特定任务。一个著名的例子是AlphaFold,它可以根据氨基酸序列预测蛋白质的结构。但ChatGPT和许多其他人工智能都是通用程序,一些研究人员称之为基础模型。它们的多功能性是有利的,因为科学家不必为每项任务建立和训练不同的模型,从而节省了时间和金钱。ChatGPT被称为大型语言模型(LLM),因为它几乎适用于任何类型的包含单词的文档,无论是政府报告还是食谱。在分子生物学中,没有什么比DNA更基础的了,科学家们已经开发了一些基础模型来分析DNA序列,就好像它们是法学硕士课程中的单词一样。然而,这些人工智能只能解释和预测相对较短的DNA片段。
为了克服这些限制,斯坦福大学的计算生物学家Brian Hie和他的同事们,包括最近成立的Arc研究所的一些研究人员,开发了Evo。Arc研究所由几位慈善家资助,专注于高风险、高回报的项目。该团队的改进之一是增加了所谓的上下文长度,即模型在试图找到DNA模式时使用的搜索窗口。更大的上下文长度可以增加模型识别基因或其他DNA序列之间联系的能力。该设计还允许团队将Evo的分辨率提高到单个核苷酸(DNA的组成部分)的水平,而以前的模型只能处理核苷酸群。
一旦研究人员建立了Evo,他们给了它4周的训练,在此期间,模型自学了8万个微生物基因组,以及数百万个来自细菌靶向病毒的序列和半独立的DNA质粒。Hie说,理论上,恶意用户可以利用Evo这样的模型来设计生物武器,因此研究人员将任何攻击人类或其他真核生物(细胞拥有细胞核的生物)的病毒序列从人工智能的训练集中删除。总的来说,Evo从3000亿个核苷酸序列信息中学习。
为了测试人工智能,研究人员要求它预测突变对蛋白质性能的影响。这一知识对于理解DNA故障如何导致疾病和设计新药非常重要。该团队通过将Evo的预测与其他科学家在细菌细胞中诱导相同突变的已发表实验进行比较,验证了Evo的预测。Evo打败了之前从DNA序列数据推断突变效应的人工智能模型;它和其他依赖蛋白质序列的人工智能模型一样好。
像ChatGPT这样的人工智能模型如此有用的一个原因是它们可以创建新的内容。“我们想展示我们的模型有这种能力,”他说。所以他和他的同事让Evo设计新版本的CRISPR基因组编辑器。这项任务具有挑战性,因为CRISPR包括两种必须协同工作的组件:dna切割Cas蛋白和RNA分子,后者将酶引导到要编辑的基因组位置。
Evo首先研究了7万多个细菌DNA序列,这些序列编码Cas蛋白及其伴侣RNA。然后,该模型设计出数百万种可能的分子形式。研究人员挑选了11种最有希望的Cas9变体,并在实验室中合成了这些蛋白质。Cas9是生物技术中的主力Cas9版本。
在试管实验中,研究人员发现,Evo设计的最好的Cas9酶在切割DNA方面与商业版本的Cas9酶一样好。为了改善Cas蛋白,科学家们传统上一直在寻找具有更有效版本的酶的细菌。有了Evo, Hie说,“我们不必等待进化来创造新的Cas9。”然而,像许多法学硕士一样,Evo也“产生了幻觉”,提出了没有工作机会的Cas9。他说,尽管有幻觉,但人工智能在寻找新的分子选择方面仍然比“暴力筛选或随机猜测”要好。
在他所谓的“最具未来感和疯狂”的研究中,研究人员要求Evo生成足够长的DNA序列,作为细菌的基因组。他们发现,这些模拟基因组携带了许多细胞所需的基因,但缺少其他必需的基因。尽管如此,他相信这些结果可能是朝着人工智能设计的合成基因组迈出的一步。
基础模型很重要,因为“它们增强了我们理解和描述基因组的能力,”石溪大学的计算生物学家Ramana Davuluri说,他没有参与这项研究。“我认为这是超越现有模式的一大步。”
纽约市非营利组织塔塔生物(Tatta Bio)的计算生物学家Yunha Hwang表示,这项工作引人注目的一个原因是,研究人员在实验上证实了该模型的预测。塔塔生物专注于改进基因组人工智能模型。“能够进行实验室验证是非常强大的,”Hwang说,他没有参与这项研究。德克萨斯大学MD安德森癌症中心的统计学家Chong Wu补充说,Evo从中获得的大量数据也使这项研究与众不同。他说,模型吸收的信息越多,它就越可靠。
人工智能的许多工作都是在公司秘密进行的。但研究人员已经公开发布了Evo,以便其他研究人员可以使用它,而且他说,该团队没有将其发明商业化的计划。“目前,我认为这是一个研究项目。”
参考文献
Sequence modeling and design from molecular to genome scale with Evo