使用蛋白质语言模型从序列到函数

2024-11-29 09:01 湖北

导语

将大型语言模型背后的技术应用于蛋白质序列正在加快蛋白质的研究和设计

人工智能在蛋白质研究中占有一席之地。蛋白质折叠工具 AlphaFold 为其开发者 John Jumper 和 Demis Hassabis 赢得了 2024 年诺贝尔化学奖。该奖项的另一半授予了华盛顿大学生物化学家大卫·贝克（David Baker），该奖项授予了计算蛋白质设计奖，他的研究小组还利用 RosettaFold 为基于 AI 的蛋白质结构预测做出了贡献。

输入蛋白质序列，这些模型使用深度学习来预测它的折叠方式。这两个模型的第一步是构建多序列比对（MSA），这是一种很好的老式生物信息学技术，需要花费大量时间。蛋白质语言模型（PLM）是一种用于蛋白质研究的新型 AI 方法，不需要 MSA，因此速度更快、计算效率更高。但它们提供的不仅仅是蛋白质研究的速度。

蛋白质序列建模

AlphaFold 通过查询类似于输入序列的蛋白质序列来构建 MSA。然后，它分析氨基酸残基之间的进化关系，以弄清楚输入蛋白质序列是如何折叠的。相反，PLM 在其训练过程中推断了氨基酸残基之间的协同进化关系。

PLM 是在蛋白质数据库上训练的大型语言模型（LLM）。如果 ChatGPT 被喂入蛋白质序列而不是文本，请考虑一下。经过训练后，LLM 不会搜索整个训练文本来响应每个查询。相反，它们根据从训练数据中学到的字母和单词之间的统计关联生成响应。

蛋白质结构可视化，突出显示螺旋、β 折叠和环区域。这种结构是理解 AlphaFold 和 PLM 等高级模型如何预测蛋白质折叠和功能的基础。[*Ian Haydon/威斯康星大学蛋白质设计]*

同样，PLM 识别蛋白质序列中的隐藏模式并使用它们来生成新的模式。“PLM 可以学习蛋白质语言的语法或蛋白质序列的规则。它们基本上捕获了有效的蛋白质序列，“亚利桑那大学（University of Arizona）新上任的助理教授克莱尔·麦克怀特（Claire McWhite）说。换句话说，他们知道什么是无义蛋白质序列。

PLM 处理单个氨基酸的方式有点像 LLM 处理单个字母或单词。“它们为你提供了一个可靠的数字表示，表示序列中特定氨基酸的身份和背景，”McWhite 说。氨基酸的这种数字描述支持对蛋白质序列使用机器学习。

PLM 不仅不需要 MSA，而且可用于在传统方法无法解决的地方构建 PLM。以序列相似性的暮光区为例，序列相似性的低水平，比对变得不可靠。在发表在《基因组研究》上的一项研究中，McWhite 及其同事表明，PLM 中氨基酸的数字表示可以用作执行 MSA 的新算法的输入。

“它们可以对齐蛋白质的区域，即使原始序列已经基本发散，”McWhite 说。PLM 之所以能够做到这一点，是因为它们捕获了每种氨基酸的特性。此属性强调了它们在生物学中一系列用例中的实用性。

蛋白质语言模型可以做什么？

由于依赖 MSA，AlphaFold 和 RosettaFold 等工具经常难以处理缺乏相似序列可供比较的新型蛋白质。PLM 可以预测此类序列的结构，因为它们仅从序列数据中隐式推断结构特征。即使对于具有已知同源性的蛋白质，PLM 也要快得多。

ESMFold 是 Meta 开发的 PLM，比 AlphaFold 2 快 60 倍（它的下一次迭代缩小了这一差距）。今年早些时候，一些参与 ESMFold 的 Meta 研究人员开始涉足，创办了一家 AI 公司 EvolutionaryScale。其被称为 ESM3 的蛋白质语言模型同时对序列、结构和功能进行推理，以提高预测的准确性。

大多数公开可用的蛋白质序列缺乏功能注释。就像结构预测一样，AI 模型不会取代实验，但它们可以告诉研究人员在哪里寻找。发表在《生物信息学简报》上的一项研究仅根据蛋白质序列预测了蛋白质-DNA 结合位点。在发表在《自然遗传学》（Nature Genetics）上的另一项研究中，研究人员使用 PLM 来预测所有可能的错义变异（基因中的单核苷酸突变，产生略有不同的蛋白质）对整个人类基因组的疾病影响。

蛋白质如何与 DNA 结合或它们的突变形式会导致哪些疾病只是蛋白质发挥其功能的众多方式中的两种。研究人员和开发 PLM 的公司的首要任务是能够更普遍地预测功能。“你希望能够解释基因组序列或蛋白质序列，并直接获得功能，”科学非营利组织 Tatta Bio 的首席执行官 Yunha Hwang 说。

Tatta Bio 正在开发 ML 驱动的工具，允许用户输入序列并输出函数。“给定一个未表征的基因或蛋白质，就无法得出任何假设或设计任何实验，因为你不知道要测试什么，”Hwang 说。从序列数据中生成可能且合理的假设使研究人员能够开始对它们进行实验。例如，在药物发现中，与传统的计算机模拟技术相比，PLM 可以筛选更多的蛋白质-药物相互作用，并且它们可以减少实验验证期间的失败。

公司还利用 PLM 的强大功能来设计新型蛋白质。蛋白质设计问题与蛋白质折叠问题相反。假设您想设计一种靶向特定患病细胞的抗体或一种酶，该酶是特定反应的更有效催化剂：它的序列应该是什么？

“人们希望从模型中输入一堆参数或一份规格表，描述他们希望蛋白质、小分子或生物实体完成的所有事情，”总部位于旧金山的初创公司 310.ai 的首席安全官 Kathy Wei 说。该公司的语言模型将文本提示转换为具有所需功能的蛋白质序列。

在设计定制蛋白质时，通常重要的一些特征是热稳定性、能够结合特定靶标或避免另一个靶标、如果它是治疗性蛋白质，则在小鼠模型中具有功能，以及看起来不像专利序列。PLM 推断任何蛋白质序列的部分如何影响这些特性，并且在从头开发中尤其受到关注。

除了设计药物之外，PLM 还可以用于为各种用例创造新型且更高效的酶。2023 年《自然生物技术》杂志的一篇论文展示了一种可以生成多种酶家族的 PLM，展示了这种能力。例如，它产生了 5 个溶菌酶家族，这些溶菌酶家族具有相似的催化效率，但与天然溶菌酶几乎没有相似性。

构建生物学基础模型

蛋白质只是生命语言的一个方面。“将人类语言视为由单词组成的句子，似乎几乎捕获了您在语言模型中可以要求的任何东西，”Wei 说。“但有很多信息不在蛋白质序列中。”

与此同时，研究人员正在研究 DNA 语言模型，这些模型是在 DNA 序列上训练的 LLM。由于蛋白质序列和结构来源于 DNA 序列，因此这些模型可以为蛋白质如何折叠和工作提供更多见解。

PLM 未来将如何发展？潜在的分子结构，我们在自然界中还没有看到，甚至还没有概念化。[谷歌 Deep Mind/Pexels]

但生物学比单独用蛋白质或 DNA 序列所能捕捉的要复杂得多。与为特定任务训练的 PLM 相反，真正的基础模型将能够接收大型、未注释的生物数据集，并在各种问题上表现良好。“目前还没有人知道那个模型是什么样子，”Wei 说。

AlphaFold 的成功得益于数十年的生物学家为蛋白质数据库贡献了经过实验验证的结构。同样，推进生物学的基础模型也需要大规模的多样化数据集。Wei 强调，展望未来，这些模型的局限性将是数据不存在。这就是为什么该行业需要投资于 DNA、蛋白质和 RNA 序列以及其他数据形式的高质量多模态数据集的原因。

PLM 面临的一个更紧迫的挑战是其有限的上下文长度，该指标定义了 LLM 可以作为输入的最大令牌数量。对于 LLM，它限制了模型一次可以处理的单词数。如果它是一个聊天机器人，它就代表了它记住了多少对话。此长度越长，它可以检测到的模式就越复杂。

Hwang 指出，虽然当前 PLM 的上下文长度不是预测单个蛋白质蛋白质结构的障碍，因为它们没有那么长。然而，他们可能会错过整个基因组中的长程相互作用。Hwang 说：“这些相互作用存在于生物数据中，我们有证据表明我们可以通过现有方法和缩放来捕获这些相互作用。

当 AI 模型预测蛋白质的结构或它与 DNA 结合的位置时，它不会揭示它在寻找什么。研究人员正试图通过提高 PLM 的可解释性来窥探这个黑匣子。“如果我们可以通过语言模型了解蛋白质的哪些成分对其编码很重要，我们就可以开始修改这些蛋白质序列以获得我们想要的特性，”McWhite 说。

不断增长的定制蛋白质世界

大自然使用理论上可能的蛋白质的有限库。“蛋白质语言模型与合成数据相结合以扩展蛋白质序列的已知功能空间有很大的前景，”McWhite 说。PLM 可以利用这种未实现的多样性。此外，“然后，我们可以将其带回训练 PLM，以创建更通用的蛋白质序列描述。

随着 PLM 的改进，研究人员可能能够使用更多参数来为每个可能的用例设计蛋白质。此外，它可能允许“设计多蛋白质环境或识别新型调节或基因组语法，”Hwang 说。

AI 已准备好扩展合成生物学家可用的蛋白质及其相互作用的范围。“我们很少经历这样的时代，有一种非常有前途的技术可以从根本上改变很多不同的事情，”Wei 说。

文章来源：SynbioBeta

武汉丽合智造生物科技有限公司拥有基于全球最大合成生物反应/途径大数据的人工智能定制化创新体系。为了协助产业方（天然产物提取和化学合成等企业），利用绿色合成生物制造工艺，进行“降本增效”，增加商业竞争力，公司推出了大数据和人工智能双驱动的一站式合成生物制造创新工艺"LifeGenius"定制化研发服务。为了帮助更多青年科学家进行科研成果转化，公司打造了“合生星”产业赋能计划。为了促进行业的智能化发展，承办了全球人工智能+合成生物挑战赛“GAS”活动。

合作请联系，备注公司+名字+职位

人工智能驱动的合成生物途径设计工具：

人工智能驱动的酶挖掘和优化设计工具：

人工智能驱动的合成生物制造工艺优化系统：

合成生物产业动态

针对合成生物产业链的关键环节，知晓全球的相关最新动态。

最新文章

使命重重的纳米粒子：肽如何解锁大脑特异性治疗

AI虚拟细胞（AIVC）：美国斯坦福大学、基因泰克制药公司和陈-扎克伯格基金会的科学家团队呼吁利用AI来创建虚拟人类细胞

第一届全国数智生物学大会在汉圆满闭幕

分享 | 工信部《生物制造中试服务平台培育指南》（征求意见稿）发布

分享 | AI+合成生物学领域2024年成果综述

2024合成生物最重磅成果综述！国内团队呕心沥血十年终打破百年难题！

分享 | 理性设计在合成生物学中的详细介绍

头部企业介绍 | 合成生物学里 · 数智化生物反应系统 · 的市场现状简述

分享 | 合成生物学中常见酶改造技术汇总简述

简报 | AI+合成生物学的融合技术赋能合成生物制造

深度学习模型比人类专家更快地预测高质量类器官

2025大健康产业技术创新论坛（云南·昆明）暨中生协特医食品及生物活性肽工作委员会第三届年会

直播预告| 啃下蛋白表达“硬骨头”——无细胞蛋白表达技术应用

Cradle Bio 的 $73M B 轮融资增强了人工智能驱动的蛋白质工程

使用蛋白质语言模型从序列到函数

【线上直播】第二期基于AI的蛋白质结构解析与设计

全球AI+合成生物学挑战赛即将评选出炉

揭示 RNA 的隐藏舞蹈：分子成像的新前沿

2025大健康产业技术创新论坛（云南·昆明）暨中生协特医食品及生物活性肽工作委员会第三届年会

人工蛋白质设计从革命性方法中获得推动

第一位自主机器人科学家进入实验室，Tetsuwan Scientific 获得 $2.7M

【线上直播】第二期基于AI的蛋白质结构解析与设计

Evo：解码生命基因蓝图的 AI

2025大健康产业技术创新论坛（云南·昆明）暨中生协特医食品及生物活性肽工作委员会第三届年会

打造合成生物学一站式CRO平台，丽合智造AI+合成生物学合成途径数据库助力源头创新

生物工程酵母：将草药变成主流医学

领先世界100年!国内首例！合成生物迎来最重磅成果

Maravai LifeSciences 将收购 Officinae Bio 的 DNA 和 RNA 业务，用于核酸创新

第一届全国数智生物学大会（第二轮通知）

【杭州】发酵工艺设计优化：从小试到中试放大关键技术专题研讨班

生物制造里程碑：Inscripta 的 GenoScaler™ 将环保护肤成分推向市场

您没有预见到的合成革命：2024 年最具颠覆性的生物技术发明一瞥

行业井喷，势不可挡！2024合成生物产业大会为聚焦合成生物医药应用而生

直播预告——SynBioMan生物智造平台驱动原料生物合成

2024 年 AIxBIO 演示日内部：融合 AI 和生物技术的顶级初创公司

认识 Chonkus：吃碳并像岩石一样下沉的藻类

大会议程重磅揭晓！CIPM合成生物与生物制造产业发展大会

【杭州】发酵工艺设计优化：从小试到中试放大关键技术专题研讨班

新加坡国立大学推进合成生物学驱动的未来

直播预告——SynBioMan生物智造平台驱动原料生物合成

震惊全球！合成生物制造领域迎来大地震，领先世界50年！

膜蛋白表达的破解钥匙——无细胞蛋白表达技术应用

【日程公布】第二届合成生物智造与技术应用产业峰会邀您聚上海！

AI颠覆合成化学之路—人工智能在化学合成及生物合成中创新应用（10.25-10.27）上海

第一届全国数智生物大会会议通知（第一轮）

利用乙醇进行可持续生物制造

【杭州11月15-17日】2024合成生物系统设计、优化及DNA编辑、组装与细胞工厂构建专题培训班

大地震！生物合成迎来近百年来最重磅成果!AI将改写生物合成历史进程

【战略合作】精准挖酶，高效改造——丽合智造与镁孚泰合成生物领域的双赢合作

合成麻黄型生物碱生产的酶法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉