使用蛋白质语言模型从序列到函数

2024-11-29 09:01   湖北  

导 语

将大型语言模型背后的技术应用于蛋白质序列正在加快蛋白质的研究和设计


人工智能在蛋白质研究中占有一席之地。蛋白质折叠工具 AlphaFold 为其开发者 John Jumper 和 Demis Hassabis 赢得了 2024 年诺贝尔化学奖。该奖项的另一半授予了华盛顿大学生物化学家大卫·贝克(David Baker),该奖项授予了计算蛋白质设计奖,他的研究小组还利用 RosettaFold 为基于 AI 的蛋白质结构预测做出了贡献。

输入蛋白质序列,这些模型使用深度学习来预测它的折叠方式。这两个模型的第一步是构建多序列比对 (MSA),这是一种很好的老式生物信息学技术,需要花费大量时间。蛋白质语言模型 (PLM) 是一种用于蛋白质研究的新型 AI 方法,不需要 MSA,因此速度更快、计算效率更高。但它们提供的不仅仅是蛋白质研究的速度。

蛋白质序列建模

AlphaFold 通过查询类似于输入序列的蛋白质序列来构建 MSA。然后,它分析氨基酸残基之间的进化关系,以弄清楚输入蛋白质序列是如何折叠的。相反,PLM 在其训练过程中推断了氨基酸残基之间的协同进化关系。

PLM 是在蛋白质数据库上训练的大型语言模型 (LLM)。如果 ChatGPT 被喂入蛋白质序列而不是文本,请考虑一下。经过训练后,LLM 不会搜索整个训练文本来响应每个查询。相反,它们根据从训练数据中学到的字母和单词之间的统计关联生成响应。

蛋白质结构可视化,突出显示螺旋、β 折叠和环区域。这种结构是理解 AlphaFold 和 PLM 等高级模型如何预测蛋白质折叠和功能的基础。[Ian Haydon/威斯康星大学蛋白质设计]
同样,PLM 识别蛋白质序列中的隐藏模式并使用它们来生成新的模式。“PLM 可以学习蛋白质语言的语法或蛋白质序列的规则。它们基本上捕获了有效的蛋白质序列,“亚利桑那大学(University of Arizona)新上任的助理教授克莱尔·麦克怀特(Claire McWhite)说。换句话说,他们知道什么是无义蛋白质序列。
PLM 处理单个氨基酸的方式有点像 LLM 处理单个字母或单词。“它们为你提供了一个可靠的数字表示,表示序列中特定氨基酸的身份和背景,”McWhite 说。氨基酸的这种数字描述支持对蛋白质序列使用机器学习。
PLM 不仅不需要 MSA,而且可用于在传统方法无法解决的地方构建 PLM。以序列相似性的暮光区为例,序列相似性的低水平,比对变得不可靠。在发表在《基因组研究》上的一项研究中,McWhite 及其同事表明,PLM 中氨基酸的数字表示可以用作执行 MSA 的新算法的输入

“它们可以对齐蛋白质的区域,即使原始序列已经基本发散,”McWhite 说。PLM 之所以能够做到这一点,是因为它们捕获了每种氨基酸的特性。此属性强调了它们在生物学中一系列用例中的实用性。

蛋白质语言模型可以做什么?

由于依赖 MSA,AlphaFold 和 RosettaFold 等工具经常难以处理缺乏相似序列可供比较的新型蛋白质。PLM 可以预测此类序列的结构,因为它们仅从序列数据中隐式推断结构特征。即使对于具有已知同源性的蛋白质,PLM 也要快得多。

ESMFold 是 Meta 开发的 PLM,比 AlphaFold 2 快 60 倍(它的下一次迭代缩小了这一差距)。今年早些时候,一些参与 ESMFold 的 Meta 研究人员开始涉足,创办了一家 AI 公司 EvolutionaryScale。其被称为 ESM3 的蛋白质语言模型同时对序列、结构和功能进行推理,以提高预测的准确性。

[谷歌 Deep Mind/Pexels]

大多数公开可用的蛋白质序列缺乏功能注释。就像结构预测一样,AI 模型不会取代实验,但它们可以告诉研究人员在哪里寻找。发表在《生物信息学简报》上的一项研究仅根据蛋白质序列预测了蛋白质-DNA 结合位点。在发表在《自然遗传学》(Nature Genetics)上的另一项研究中,研究人员使用 PLM 来预测所有可能的错义变异(基因中的单核苷酸突变,产生略有不同的蛋白质)对整个人类基因组的疾病影响。

蛋白质如何与 DNA 结合或它们的突变形式会导致哪些疾病只是蛋白质发挥其功能的众多方式中的两种。研究人员和开发 PLM 的公司的首要任务是能够更普遍地预测功能。“你希望能够解释基因组序列或蛋白质序列,并直接获得功能,”科学非营利组织 Tatta Bio 的首席执行官 Yunha Hwang 说。

Tatta Bio 正在开发 ML 驱动的工具,允许用户输入序列并输出函数。“给定一个未表征的基因或蛋白质,就无法得出任何假设或设计任何实验,因为你不知道要测试什么,”Hwang 说。从序列数据中生成可能且合理的假设使研究人员能够开始对它们进行实验。例如,在药物发现中,与传统的计算机模拟技术相比,PLM 可以筛选更多的蛋白质-药物相互作用,并且它们可以减少实验验证期间的失败。

公司还利用 PLM 的强大功能来设计新型蛋白质。蛋白质设计问题与蛋白质折叠问题相反。假设您想设计一种靶向特定患病细胞的抗体或一种酶,该酶是特定反应的更有效催化剂:它的序列应该是什么?

“人们希望从模型中输入一堆参数或一份规格表,描述他们希望蛋白质、小分子或生物实体完成的所有事情,”总部位于旧金山的初创公司 310.ai 的首席安全官 Kathy Wei 说。该公司的语言模型将文本提示转换为具有所需功能的蛋白质序列。

在设计定制蛋白质时,通常重要的一些特征是热稳定性、能够结合特定靶标或避免另一个靶标、如果它是治疗性蛋白质,则在小鼠模型中具有功能,以及看起来不像专利序列。PLM 推断任何蛋白质序列的部分如何影响这些特性,并且在从头开发中尤其受到关注。

除了设计药物之外,PLM 还可以用于为各种用例创造新型且更高效的酶。2023 年《自然生物技术》杂志的一篇论文展示了一种可以生成多种酶家族的 PLM,展示了这种能力。例如,它产生了 5 个溶菌酶家族,这些溶菌酶家族具有相似的催化效率,但与天然溶菌酶几乎没有相似性。

构建生物学基础模型

蛋白质只是生命语言的一个方面。“将人类语言视为由单词组成的句子,似乎几乎捕获了您在语言模型中可以要求的任何东西,”Wei 说。“但有很多信息不在蛋白质序列中。”

与此同时,研究人员正在研究 DNA 语言模型,这些模型是在 DNA 序列上训练的 LLM。由于蛋白质序列和结构来源于 DNA 序列,因此这些模型可以为蛋白质如何折叠和工作提供更多见解。

PLM 未来将如何发展?潜在的分子结构,我们在自然界中还没有看到,甚至还没有概念化。[谷歌 Deep Mind/Pexels]

但生物学比单独用蛋白质或 DNA 序列所能捕捉的要复杂得多。与为特定任务训练的 PLM 相反,真正的基础模型将能够接收大型、未注释的生物数据集,并在各种问题上表现良好。“目前还没有人知道那个模型是什么样子,”Wei 说。

AlphaFold 的成功得益于数十年的生物学家为蛋白质数据库贡献了经过实验验证的结构。同样,推进生物学的基础模型也需要大规模的多样化数据集。Wei 强调,展望未来,这些模型的局限性将是数据不存在。这就是为什么该行业需要投资于 DNA、蛋白质和 RNA 序列以及其他数据形式的高质量多模态数据集的原因。

PLM 面临的一个更紧迫的挑战是其有限的上下文长度,该指标定义了 LLM 可以作为输入的最大令牌数量。对于 LLM,它限制了模型一次可以处理的单词数。如果它是一个聊天机器人,它就代表了它记住了多少对话。此长度越长,它可以检测到的模式就越复杂。

Hwang 指出,虽然当前 PLM 的上下文长度不是预测单个蛋白质蛋白质结构的障碍,因为它们没有那么长。然而,他们可能会错过整个基因组中的长程相互作用。Hwang 说:“这些相互作用存在于生物数据中,我们有证据表明我们可以通过现有方法和缩放来捕获这些相互作用。

当 AI 模型预测蛋白质的结构或它与 DNA 结合的位置时,它不会揭示它在寻找什么。研究人员正试图通过提高 PLM 的可解释性来窥探这个黑匣子。“如果我们可以通过语言模型了解蛋白质的哪些成分对其编码很重要,我们就可以开始修改这些蛋白质序列以获得我们想要的特性,”McWhite 说。

不断增长的定制蛋白质世界

大自然使用理论上可能的蛋白质的有限库。“蛋白质语言模型与合成数据相结合以扩展蛋白质序列的已知功能空间有很大的前景,”McWhite 说。PLM 可以利用这种未实现的多样性。此外,“然后,我们可以将其带回训练 PLM,以创建更通用的蛋白质序列描述。

随着 PLM 的改进,研究人员可能能够使用更多参数来为每个可能的用例设计蛋白质。此外,它可能允许“设计多蛋白质环境或识别新型调节或基因组语法,”Hwang 说。

AI 已准备好扩展合成生物学家可用的蛋白质及其相互作用的范围。“我们很少经历这样的时代,有一种非常有前途的技术可以从根本上改变很多不同的事情,”Wei 说。
文章来源:SynbioBeta


  



武汉丽合智造生物科技有限公司拥有基于全球最大合成生物反应/途径大数据的人工智能定制化创新体系。为了协助产业方(天然产物提取和化学合成等企业),利用绿色合成生物制造工艺,进行“降本增效”,增加商业竞争力,公司推出了大数据和人工智能双驱动的一站式合成生物制造创新工艺"LifeGenius"定制化研发服务为了帮助更多青年科学家进行科研成果转化,司打造了“合生星”产业赋能计划。为了促进行业的智能化发展,承办了全球人工智能+合成生物挑战赛“GAS”活动。


合作请联系,备注公司+名字+职位


人工智能驱动的合成生物途径设计工具:


人工智能驱动的酶挖掘和优化设计工具:


人工智能驱动的合成生物制造工艺优化系统:

合成生物产业动态
针对合成生物产业链的关键环节,知晓全球的相关最新动态。
 最新文章