人工智能在蛋白质研究中占有一席之地。蛋白质折叠工具 AlphaFold 为其开发者 John Jumper 和 Demis Hassabis 赢得了 2024 年诺贝尔化学奖。该奖项的另一半授予了华盛顿大学生物化学家大卫·贝克(David Baker),该奖项授予了计算蛋白质设计奖,他的研究小组还利用 RosettaFold 为基于 AI 的蛋白质结构预测做出了贡献。
蛋白质序列建模
AlphaFold 通过查询类似于输入序列的蛋白质序列来构建 MSA。然后,它分析氨基酸残基之间的进化关系,以弄清楚输入蛋白质序列是如何折叠的。相反,PLM 在其训练过程中推断了氨基酸残基之间的协同进化关系。
PLM 是在蛋白质数据库上训练的大型语言模型 (LLM)。如果 ChatGPT 被喂入蛋白质序列而不是文本,请考虑一下。经过训练后,LLM 不会搜索整个训练文本来响应每个查询。相反,它们根据从训练数据中学到的字母和单词之间的统计关联生成响应。
“它们可以对齐蛋白质的区域,即使原始序列已经基本发散,”McWhite 说。PLM 之所以能够做到这一点,是因为它们捕获了每种氨基酸的特性。此属性强调了它们在生物学中一系列用例中的实用性。
蛋白质语言模型可以做什么?
由于依赖 MSA,AlphaFold 和 RosettaFold 等工具经常难以处理缺乏相似序列可供比较的新型蛋白质。PLM 可以预测此类序列的结构,因为它们仅从序列数据中隐式推断结构特征。即使对于具有已知同源性的蛋白质,PLM 也要快得多。
ESMFold 是 Meta 开发的 PLM,比 AlphaFold 2 快 60 倍(它的下一次迭代缩小了这一差距)。今年早些时候,一些参与 ESMFold 的 Meta 研究人员开始涉足,创办了一家 AI 公司 EvolutionaryScale。其被称为 ESM3 的蛋白质语言模型同时对序列、结构和功能进行推理,以提高预测的准确性。
大多数公开可用的蛋白质序列缺乏功能注释。就像结构预测一样,AI 模型不会取代实验,但它们可以告诉研究人员在哪里寻找。发表在《生物信息学简报》上的一项研究仅根据蛋白质序列预测了蛋白质-DNA 结合位点。在发表在《自然遗传学》(Nature Genetics)上的另一项研究中,研究人员使用 PLM 来预测所有可能的错义变异(基因中的单核苷酸突变,产生略有不同的蛋白质)对整个人类基因组的疾病影响。
蛋白质如何与 DNA 结合或它们的突变形式会导致哪些疾病只是蛋白质发挥其功能的众多方式中的两种。研究人员和开发 PLM 的公司的首要任务是能够更普遍地预测功能。“你希望能够解释基因组序列或蛋白质序列,并直接获得功能,”科学非营利组织 Tatta Bio 的首席执行官 Yunha Hwang 说。
Tatta Bio 正在开发 ML 驱动的工具,允许用户输入序列并输出函数。“给定一个未表征的基因或蛋白质,就无法得出任何假设或设计任何实验,因为你不知道要测试什么,”Hwang 说。从序列数据中生成可能且合理的假设使研究人员能够开始对它们进行实验。例如,在药物发现中,与传统的计算机模拟技术相比,PLM 可以筛选更多的蛋白质-药物相互作用,并且它们可以减少实验验证期间的失败。
公司还利用 PLM 的强大功能来设计新型蛋白质。蛋白质设计问题与蛋白质折叠问题相反。假设您想设计一种靶向特定患病细胞的抗体或一种酶,该酶是特定反应的更有效催化剂:它的序列应该是什么?
“人们希望从模型中输入一堆参数或一份规格表,描述他们希望蛋白质、小分子或生物实体完成的所有事情,”总部位于旧金山的初创公司 310.ai 的首席安全官 Kathy Wei 说。该公司的语言模型将文本提示转换为具有所需功能的蛋白质序列。
在设计定制蛋白质时,通常重要的一些特征是热稳定性、能够结合特定靶标或避免另一个靶标、如果它是治疗性蛋白质,则在小鼠模型中具有功能,以及看起来不像专利序列。PLM 推断任何蛋白质序列的部分如何影响这些特性,并且在从头开发中尤其受到关注。
构建生物学基础模型
蛋白质只是生命语言的一个方面。“将人类语言视为由单词组成的句子,似乎几乎捕获了您在语言模型中可以要求的任何东西,”Wei 说。“但有很多信息不在蛋白质序列中。”
与此同时,研究人员正在研究 DNA 语言模型,这些模型是在 DNA 序列上训练的 LLM。由于蛋白质序列和结构来源于 DNA 序列,因此这些模型可以为蛋白质如何折叠和工作提供更多见解。
但生物学比单独用蛋白质或 DNA 序列所能捕捉的要复杂得多。与为特定任务训练的 PLM 相反,真正的基础模型将能够接收大型、未注释的生物数据集,并在各种问题上表现良好。“目前还没有人知道那个模型是什么样子,”Wei 说。
AlphaFold 的成功得益于数十年的生物学家为蛋白质数据库贡献了经过实验验证的结构。同样,推进生物学的基础模型也需要大规模的多样化数据集。Wei 强调,展望未来,这些模型的局限性将是数据不存在。这就是为什么该行业需要投资于 DNA、蛋白质和 RNA 序列以及其他数据形式的高质量多模态数据集的原因。
PLM 面临的一个更紧迫的挑战是其有限的上下文长度,该指标定义了 LLM 可以作为输入的最大令牌数量。对于 LLM,它限制了模型一次可以处理的单词数。如果它是一个聊天机器人,它就代表了它记住了多少对话。此长度越长,它可以检测到的模式就越复杂。
Hwang 指出,虽然当前 PLM 的上下文长度不是预测单个蛋白质蛋白质结构的障碍,因为它们没有那么长。然而,他们可能会错过整个基因组中的长程相互作用。Hwang 说:“这些相互作用存在于生物数据中,我们有证据表明我们可以通过现有方法和缩放来捕获这些相互作用。
不断增长的定制蛋白质世界
大自然使用理论上可能的蛋白质的有限库。“蛋白质语言模型与合成数据相结合以扩展蛋白质序列的已知功能空间有很大的前景,”McWhite 说。PLM 可以利用这种未实现的多样性。此外,“然后,我们可以将其带回训练 PLM,以创建更通用的蛋白质序列描述。
随着 PLM 的改进,研究人员可能能够使用更多参数来为每个可能的用例设计蛋白质。此外,它可能允许“设计多蛋白质环境或识别新型调节或基因组语法,”Hwang 说。
人工智能驱动的合成生物途径设计工具:
人工智能驱动的酶挖掘和优化设计工具:
人工智能驱动的合成生物制造工艺优化系统: