团队从Meta分离而出,模拟超过5亿年的自然进化过程,这家企业以AI大模型助力合成生物学前沿探索

健康   2024-10-10 08:01   重庆  


生物学AI大模型正成为推动生命科学领域进步的关键力量。这些模型通过提供对生物数据的深入分析和预测,极大加速了药物发现、基因组学研究和疾病诊断的过程。它们能够处理和解读庞大的生物信息数据集,揭示生物学现象背后的模式和机制,从而为疾病治疗和生物技术创新提供了新的视角和策略。

目前,在药物开发方面,人工智能模型能够预测药物分子的活性,优化药物设计,从而缩短药物从实验室到市场的时间。在合成生物学领域,人工智能大模型能够设计和优化新型蛋白质,这些蛋白质在自然界中可能不存在,从而为合成生物学提供了新的生物元件。它们通过机器学习算法增强了现有蛋白质的性能,这对于开发高效的生物催化剂和精确的生物传感器至关重要。

2024年6月,人工智能公司Evolutionary Scale发布公司第一款人工智能大模型ESM3模型,被领域内认为极具变革意义。作为Evolutionary Scale的旗舰产品,ESM3模型通过模拟超过5亿年的自然进化过程,能够生成具有全新序列的功能性蛋白质。这一突破不仅展示了ESM3在生成新蛋白质方面的巨大潜力,也为合成生物学的研究和应用开辟了新的可能性。

使用超过1024 FLOPS和98 Billion参数进行模型训练


Evolutionary Scale成立于2023年7月,致力于开发人工智能技术,以推动生命科学领域的研究和应用,特别是以生物学为基础,开发ESM3模型来理解和生成蛋白质的序列、结构和功能。

Evolutionary Scale 由 Alexander Rives 领导,他曾在Meta负责Meta AI 的蛋白质折叠研究项目,在这家科技巨头关闭该项目后,他带领团队成员离职创业,成立了Evolutionary Scale,其中八名创始员工都来自同一部门。刚成立没多久,Evolutionary Scale便获得了4000万美元的种子轮融资。2024年6月,公司再次获得了1.42亿美元融资,其中不乏著名风投公司与科技巨头,由Nat Friedman和Daniel Gross以及Lux Capital领投,亚马逊、NVentures(英伟达的风险投资部门)和天使投资人参投。

Evolutionary Scale希望成为一家专注于生物科学领域的前沿AI研究实验室,致力于推出生物学前沿的语言大模型。他们创建了一个基于Transformer模型、类似于OpenAI的GPT-4的人工智能模型,但使用有关蛋白质分子的数据进行训练,以预测其他未知蛋白质的结构。同时,他们用该模型创建了一个数据库,如今包含7亿种可能的蛋白质3D结构,这为开发可以治愈疾病的药物、可以清除污染的微生物或制造工业化学品的替代方法提供了一块关键拼图。

在成立1年之后,公司的训练模型便已成型,那就是推理蛋白质序列、结构和功能的生物学生成模型——ESM3。

ESM3 经过地球自然多样性的训练,其训练数据包含了从亚马逊雨林到海洋深处,再到热液喷口等极端环境,以及少量土壤中的微生物在内的数十亿种蛋白质。

建立在全球吞吐量最高的GPU集群之上,ESM3在参数、计算能力和数据方面都处于领先地位。该模型使用超过1x1024 FLOPS 和98B个参数进行训练,其计算能力远远超出了现有超级计算机的性能,同时模型具有极高的容量,能够捕捉和学习数据中的极其细微的模式。因此,ESM3甚至可以称得上是有史以来用于训练生物模型的计算量最大的模型。

据介绍,ESM3是Evolutionary Scale 创建的第一个AI模型,比之前的ESM2 模型大一个数量级,并且本身具有多模式和生成性。

创建ESM3的目标是推理蛋白质的序列、结构和功能。为实现这一目标,Evolutionary Scale将三维结构和功能转换为离散字母表,并构建一种将每个三维结构写成字母序列的方法。这使得 ESM3 可以进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表在同一语言模型中连接了序列、结构和功能。

ESM3的训练目标相对简单。对于每种蛋白质,Evolutionary Scale会提取、标记和部分屏蔽其序列、结构和功能,ESM3的任务则是使用受自然语言处理模型启发的屏蔽语言建模目标来预测屏蔽位置。为了完成这项任务,ESM3 必须学习深入了解数据中序列、结构和功能之间的联系。当扩展到数十亿种蛋白质和数十亿个参数时,ESM3就要学会模拟蛋白质的进化和预测。

生成全新序列蛋白质,模拟超过5亿年的自然进化过程


在这一规模和复杂性罕见的参数训练下,ESM3的第一个成果便是按照思路推理生成新的绿色荧光蛋白(GFP)候选物,而这一候选物如果通过自然进化,需要花费5亿年时间。

绿色荧光蛋白(GFP)是一种在生物科学研究中具有重大意义的蛋白质,最初从一种名为Aequorea victoria的水母中发现。GFP因其独特的自发光特性而闻名,能够在紫外光或蓝光照射下发出绿光。这种发光是由其内部的荧光素辅基引起的,该辅基在吸收光能后释放出绿光。

GFP的应用非常广泛,特别是在分子和细胞生物学领域。科学家通过将GFP基因与其他目标基因融合,可以产生GFP标记的蛋白质,从而在活细胞中实时观察和追踪蛋白质的表达和定位。这一技术极大地促进了对细胞过程和生物分子相互作用的理解。

为了适应不同的研究需求,科学家们已经通过基因工程技术改造GFP,创造出一系列不同颜色的荧光蛋白变体,这些变体覆盖了从蓝色到红色的颜色范围,使得科学家能够在单一实验中同时追踪多个不同的生物标记。

GFP的发现和应用对生物科学领域产生了深远的影响,其贡献者下村修、马丁·查尔菲和钱永健因此获得了2008年的诺贝尔化学奖。GFP作为一种生物标记,在减少实验动物使用方面发挥了积极作用,因为它允许在体外或更简单的模型生物中进行研究,现在已经成为现代生物技术研究中不可或缺的工具。

GFP是由11个β-折叠组成的桶状结构,中间有一个螺旋。折叠后,GFP会发生自发反应,形成荧光发色团。目前没有其他已知的蛋白质能产生这种独一无二的机制。

即使对于大自然来说,产生荧光也是困难的。产生新荧光蛋白的进化过程需要很长时间,天然荧光蛋白已经从远古历史中的祖先序列分化了数亿年,成为了今天的蛋白质。

受到天然GFP核心中一些残基结构的启发,Evolutionary Scale让ESM3按照思路推理生成了新的GFP候选物。实际上,从20229 x 4096229个序列和结构中纯靠偶然生成一个候选物几乎是不可能的。Evolutionary Scale在第一次实验中共测试了96 种蛋白质候选物,发现了一款亮度比天然GFP低50倍、发色团在一周内成熟的蛋白质,顺着这一思路,团队生成了另一组96种蛋白质,在进行了测试后,发现了几种与天然GFP亮度相似的蛋白质,其中最亮的蛋白质被称之为 esmGFP。esmGFP与自然界中发现的最相近的荧光蛋白有96个突变差异,在229个氨基酸中,有58% 的序列存在相似性。

通过进一步的分析,Evolutionary Scale团队发现, ESM3模拟进化所得的esmGFP,实际上在自然界中可能需要超过 5 亿年进化才能实现。

开放ESM3模型,助力行业探索蛋白质设计和合成生物学技术前沿


ESM3这款多模态生成语言模型能够理解和生成蛋白质的序列、结构和功能,为科学家提供了强大的设计和工程化生物学组件的平台,不仅加速了蛋白质设计和发现的过程,也为研究进化生物学原理提供了新的视角。

这类AI大模型的出现,将有潜力改变生物技术产业,尤其是在药物开发、生物催化剂和生物材料设计等领域。

面对这一成果,英国著名合成生物学家Tom Ellis对ESM3评价道,这个新型的模型意味着DBTL范式中,Design已不再是限速步骤和瓶颈,接下来还需要聚焦Building和Testing的瓶颈阶段。

目前,ESM模型在研究和工业领域得到了富有影响力的应用。例如,科学家可以使用 ESM-1v 和 ESM-1b 来进化抗体,从而改善了治疗相关特性。BioNTech 和 InstaDeep对 COVID 刺突蛋白上的 ESM 语言模型进行了微调,以检测对公共健康构成更高风险的变体,并在世卫组织指定之前成功标记了所有 16 种令人关注的变体。还有人使用 ESM-1b 来预测突变的临床效果,设计新型抗 CRISPR 蛋白变体,这些变体保持了在靶编辑功能,同时减少了脱靶副作用。

此外,在指导多种蛋白质进化、预测酶的功能、设计高结合亲和力的抗体等方面,ESM模型都加速了行业的科学研究发展。

而为了助力行业的发展,继续探索蛋白质设计与合成生物学前沿,Evolutionary Scale已开放部分ESM3模型,他们还在开发 ESM3 的专门版本,以解锁药物设计前沿的应用。希望设计蛋白质时,同样能帮助科学家创造新药。

*封面图片来源:123rf


如果您想对接文章中提到的项目,或您的项目想被动脉网报道,或者发布融资新闻,请与我们联系;也可加入动脉网行业社群,结交更多志同道合的好友。






声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。未经许可,禁止进行转载、摘编、复制及建立镜像等任何使用。
动脉网,未来医疗服务平台

动脉网
动脉网(www.vbdata.cn)聚焦于技术驱动下生命健康领域产业创新和变革的报道与研究。
 最新文章