首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
用AI模拟5亿年生命进化的ESM3模型登上Science,背后公司一年融资1.42亿美元
科技
2025-01-18 18:14
北京
“如果我们能学会阅读和书写生命的代码,生物学就将变得可编程。试错将被逻辑取代,繁琐的实验将被模拟所替代。
”
这个曾经看起来遥不可及的愿景,正在被一家新兴的 AI 公司变为现实。
在过去的几年里,
DeepMind 的 AlphaFold
让世界见证了 AI 在预测蛋白质结构方面的突破。但要真正理解和设计蛋白质,我们面临的挑战远不止于此。
在生命科学领域,蛋白质被称为生命的“执行者
”
。它们是构成生命的核心分子之一,从驱动细胞运动的分子马达,到进行光合作用的能量转换机器,再到构建细胞内部骨架的支撑蛋白,以及与环境互动的复杂感受器,蛋白质几乎参与了生命体内所有关键过程。要想设计新的蛋白质,科学家不仅要懂它们的“形状
”
,更要理解它们的“语言
”
——序列、结构和功能之间复杂的联系。
1 月 16 日,
Science
杂志发表了一项重要突破:由前
Meta
首席科学家 Alexander Rives 领衔的初创公司 EvolutionaryScale 开发出了新一代人工智能模型 ESM3。
该模型首次实现了对蛋白质序列、结构和功能的统一推理,并成功“设计”出了一种全新的荧光蛋白。
图丨相关论文(来源:
Science
)
这种蛋白质与自然界已知的最相近的荧光蛋白相比,序列相似度仅为 58%。从自然界中发现的绿色荧光蛋白(GFP)的多样化速率来看,这一代新荧光蛋白的生成相当于模拟了 5 亿年的进化过程。
实现序列、结构与功能的统一推理
ESM3 是一个具有 980 亿参数的语言模型,它能够同时理解蛋白质的序列、结构和功能。这个模型在 27.8 亿个自然蛋白质序列上进行训练,涵盖了从亚马逊雨林到海洋深处等各种环境中的蛋白质。
其核心创新在于其采用了一种称为“多轨道 Transformer
”
(Multi-Track Transformer
)
的架构。
与传统的蛋白质 AI 模型往往只专注于序列或结构的单一方面不同,ESM3 通过巧妙的架构设计,在输入端将蛋白质的序列、结构和功能信息编码为不同的“轨道”。这些信息在模型内部被融合到一个统一的特征空间中,使模型能够同时理解这三个维度的关联。
具体来说,序列信息以氨基酸序列形式输入,结构信息则被编码为每个氨基酸周围的局部三维环境,而功能信息则通过来自 InterPro 数据库的功能注释和 GO 术语来表示。
图丨 ESM3 是一种多轨道 Transformer,能够联合推理蛋白质序列、结构和功能(来源:EvolutionaryScale)
为了高效处理蛋白质的三维结构信息,研究团队还开发出了一种基于局部参考系的几何注意力机制。这种机制以每个氨基酸的化学键几何构型为基础定义局部坐标系,再通过全局坐标变换实现不同局部区域之间的信息交互。这种方法不仅计算效率高,还保证了对蛋白质结构的精确表达,实验显示其能以小于 0.5 埃的精度重建蛋白质结构。
模型的训练采用了一种改进的掩码语言建模方法。不同于传统的固定掩码率训练,ESM3 使用了可变的掩码调度策略。这种策略让模型能够看到序列、结构和功能的各种组合,并学习预测任意组合中缺失的部分。
在生成新蛋白质时,ESM3 采用了一种迭代的条件生成策略。模型可以接受任意组合的条件约束,比如特定位置的氨基酸身份、局部结构片段或功能关键词。它会首先创建一个完全或部分被掩码的序列模板,然后通过计算条件概率分布 p(xi|xm) 来逐步填充被掩码的位置。这个生成过程的独特之处在于它是自回归的,每生成一个新的氨基酸都会被立即加入上下文,影响后续位置的生成。这种方式使得模型能够维持序列的连贯性和结构的合理性。
图丨使用 ESM3 进行生成式编程(来源:
Sciecne
)
生成需 5 亿年进化的全新荧光蛋白
然后,研究团队选择了 GFP 作为验证 ESM3 能力的目标,这是一个极具挑战性的选择。绿色荧光蛋白因其独特的发光机制而闻名,它能够自发形成发光基团,这种特性在自然界中极为罕见。
模型采用“思维链
”
(Chain-of-thought
)
策略来设计新的荧光蛋白。这个过程首先向 ESM3 提供 GFP 中形成和催化发光团所必需的六个关键氨基酸残基(Thr62、Thr65、Tyr66、Gly67、Arg96、Glu222)的序列和结构信息。同时,还提供了来自天然 GFP 的第 58-71 位氨基酸的结构信息,这些残基对发光团形成的能量学有重要影响。
图丨 利用思维链生成远距离荧光蛋白(来源:
Science
)
模型首先生成蛋白质骨架的结构标记,创建出可能的蛋白质主链构象。研究团队设计了严格的筛选标准,只有那些能够正确协调活性位点原子但整体结构与模板不同的候选结构才能进入下一步。随后,模型基于选定的结构生成相应的氨基酸序列,并通过迭代优化不断改进序列与结构的匹配度。
在第一轮实验中,模型生成了 96 个候选序列。其中一个被标记为 B8 的设计展现出了微弱的荧光,尽管它与已知的最相近的荧光蛋白仅有 57% 的序列相似度。研究团队随后以 B8 为起点进行第二轮设计,最终得到了被命名为 esmGFP 的新型荧光蛋白。这个蛋白质虽然与已知荧光蛋白的序列相似度只有 58%(差异多达 96 个氨基酸位点
)
,但其荧光强度却与天然 GFP 相当。
从光谱特性来看,esmGFP 激发峰值在 496nm,较 EGFP 的 489nm 略有红移,但两者的发射峰值都在 512nm。同时,esmGFP 的激发光谱展现出更窄的半高宽(39nm 对比 EGFP 的 56nm
)
,这意味着它具有更好的光谱特异性。
研究团队通过对比分析发现,esmGFP 与其他荧光蛋白的差异程度相当于不同目之间但属于同一纲的物种差异。
通过构建时间校准的系统发育树,研究人员估算这种差异相当于超过 5 亿年的进化距离。这一发现具有重要意义,因为它表明 AI 模型能够在实验室中实现自然界需要数亿年才能完成的分子进化。
被 Meta 裁员后创业,一年融资上亿美元
在 ESM3 取得突破性进展的背后,是一个充满戏剧性的创业故事。2023 年 8 月,作为扎克伯格“效率年
”
裁员计划的一部分,
Meta
解散了由十几名科学家组成的 AI 蛋白质研究团队。但对团队负责人 Alexander Rives 来说,这反而成为了一个新的起点。他迅速召集了核心团队成员,成立了 EvolutionaryScale 公司,继续他们在 Meta 未完成的工作。
图丨Alexander Rives(来源:EvolutionaryScale)
“Meta 不是一家生物技术公司,
”
Rives 在接受 Fortune 杂志采访时表示,“虽然
Meta
的开放研究文化让我们能够开展这项工作,但当我们真正想要将这些模型扩展到更高水平时,创建一家新公司确实是更好的选择。
”
这个选择很快得到了投资界的认可。
2024 年 6 月 25 日,EvolutionaryScale 宣布完成了 1.42 亿美元的种子轮融资,
投资方包括前 GitHub CEO Nat Friedman、知名投资人 Daniel Gross、Lux Capital,以及来自
亚马逊
和
英伟达
风投部门 NVentures 的战略投资。
这支团队在 Meta 期间就已经证明了他们的技术实力。例如,BioNTech 和 InstaDeep 此前就使用他们开发的 ESM 语言模型来检测新冠病毒的高风险变体,成功预测了世卫组织认定的所有 16 个需要关注的变异株。
“这显然是发明了蛋白质语言建模并有能力继续扩大规模的梦之队,
”
领投人 Friedman 表示,“Alex 的思维格局很大。他希望建立一个能够捕捉生物学所有复杂性的多模态模型。我一直在寻找具有这种雄心、远见和专业知识的人。
”
目前,EvolutionaryScale 已经开始将其技术推向市场。公司采用双轨策略:一方面向学术研究人员免费开放 ESM3 的基础版本(项目地址:https://github.com/evolutionaryscale/esm),另一方面为制药公司提供商业版本用于药物研发。这种模式类似于
DeepMind
的做法——免费向研究人员开放 AlphaFold,同时通过子公司 Isomorphic Labs 与制药公司开展合作。
但公司的愿景远不止于此。一位公司发言人表示:“ESM3 只是起点。我们相信,未来的模型将更加多模态化,能够整合从分子到细胞尺度的生物学数据。这不仅会帮助我们更好地理解生命系统,也将为疾病治疗和可持续发展带来新的突破。
”
在 AI 制药这片蓝海上,EvolutionaryScale 面临着来自 DeepMind 子公司 Isomorphic Labs、Insitro 等方面的竞争。但正如 ESM3 展示的那样,当 AI 真正掌握了生命的语言,Biology as Engineering 的未来或许比我们想象的更近。“我们相信未来 AI 可以帮助我们从最基本的层面理解生命的复杂系统,做出改变我们对生物学认识的新发现,帮助我们找到疾病的治愈方法,建设一个更可持续的世界。
”
参考资料:
1.https://www.science.org/doi/10.1126/science.ads0018
2.https://www.evolutionaryscale.ai/blog/esm3-release
3.https://www.reuters.com/technology/evolutionaryscale-lands-142-mln-advance-ai-biology-2024-06-25/
4.https://fortune.com/2024/06/25/meta-ai-mafia-evolutionaryscale-llm-biology-seed-round-142-million/
排版:刘雅坤
01/
自动化学实验室成真?微软华人学者领衔研发材料生成模型,已发现277个稳定独特新颖材料结构
02/
首次实现活体细胞内纳米结构无标记化学成像,科学家用AI开发受激拉曼纳米成像技术,分辨率可达86纳米
03/
印度史上首家成功发射卫星的私营公司:95后小伙创立Pixxel,已发射三颗高光谱成像卫星,可覆盖40公里带状区域
04/
突破金刚石膜大规模生产瓶颈:港大团队用“一步法”剥离晶圆级金刚石膜,生产成本比传统工艺降低1000倍
05/
三代物理人梦想成真:兰大校友实现量子疤痕态直接成像,有望用于打造电子光学器件
DeepTech深科技
DeepTech 是一家专注新兴科技的资源赋能与服务机构,以科学、技术、人才为核心,通过科技数据与咨询、出版与影响力、科创资本实验室三大业务板块,推动科学与技术的创新进程。DeepTech 同时是《麻省理工科技评论》中国区独家运营方。
最新文章
OpenAI推出首个智能体Operator,能网购、会订票甚至会做表情包
热电性能超过1962以来文献记录最高值,科学家提升拓扑材料低温热电性能,突破高水平热电性能对超导磁体的依赖
融资超百亿美元,跃居美国第四大独角兽,这家AI数据公司什么来头?
重塑Web开发的AI编程工具Bolt.new完成8350万美元融资,估值达7亿美元
2024 ACM Fellow公布,10位华人学者入选
Anthropic创始人眼中的AI智能体进化:工具、上下文、代码与安全
为开发肝病肾病疗法带来依据:科学家开发代谢路径跟踪方法,实现药物代谢路径的实时监测
为什么使用AI诊断癌症如此困难?
哈工深团队提出多模态智能体Optimus-1,在MineCraft长序列任务表现接近人类水平
OpenAI联手软银、甲骨文启动“星际之门”计划!拟投资5000亿美元打造全球最大AI算力中心
北大团队研发多模式忆阻器,支持多种光学神经网络,助力实现大规模可重构视觉计算硬件系统
2月7日截止|2024年度“35岁以下科技创新35人”中国报名倒计时
DeepSeek开源推理大模型R1:纯强化学习实现接近OpenAI o1水平,成本降至1/30
特朗普第二任期的科技政策:退出巴黎协定,撤销电动车优惠政策,欲将美国宇航员送往火星
“永久化学品”污染问题终于有解:科学家开发有机光催化体系,助力理解C–F键裂解机制
宾大团队联合UCLA提出新型推理框架,助力大模型解决专业领域推理难题
101种语言即时翻译,Meta新模型可做你的“AI翻译官”
让AI预测人脑未来10分钟状态,悉尼大学华人团队提出新型Transformer架构,单时间点预测均方误差为0.0013
为什么AI编程能快速落地?
AI也会“喵喵叫”:MIT团队让机器学会模仿声音
OpenAI联合抗衰初创研发GPT-4b micro模型,将干细胞生产效率提高50倍,助力实现更有效的器官培育和细胞替代疗法
用AI模拟5亿年生命进化的ESM3模型登上Science,背后公司一年融资1.42亿美元
美AI军工初创再获2亿美元投资,a16z、空客入局,估值已达50亿
为什么说2025是气候科技的关键一年
美最高法裁决维持TikTok禁令,唯一“生还”可能性握在特朗普手里
自动化学实验室成真?微软华人学者领衔研发材料生成模型,已发现277个稳定独特新颖材料结构
英伟达加速布局生成式物理AI:首投中国台湾创企MetAI,用数字孪生重塑工业制造
AI加持的美国军工初创拟打造军用无人机超级工厂,此前与OpenAI达成战略合作
估值102亿美元,全球首家复活灭绝物种公司再获2亿美元融资
AI是否会终结传统搜索引擎?
“星舰”第七次试飞:成功捕捉助推器,但飞船解体
首次实现活体细胞内纳米结构无标记化学成像,科学家用AI开发受激拉曼纳米成像技术,分辨率可达86纳米
国产算力加持的大模型新突破,科大讯飞发布端到端同传大模型媲美人类口译员
看不见的碳捕手:浮游生物的生态贡献
印度史上首家成功发射卫星的私营公司:95后小伙创立Pixxel,已发射三颗高光谱成像卫星,可覆盖40公里带状区域
西安交大团队设计新型光催化分子,为太阳能转化提供高效产氢新策略
《麻省理工科技评论》预测2025年AI五大趋势
谷歌提出创新神经记忆架构,突破Transformer长上下文限制
突破金刚石膜大规模生产瓶颈:港大团队用“一步法”剥离晶圆级金刚石膜,生产成本比传统工艺降低1000倍
癫痫发作频次减少80%,国外公司开发干细胞疗法,15名癫痫受试者获初步疗效
电动汽车迎战2025:中美欧三强的新博弈
美国出台史上最严AI芯片禁令,三道红线划分全球AI版图,模型权重首次入管控
三代物理人梦想成真:兰大校友实现量子疤痕态直接成像,有望用于打造电子光学器件
蓝色起源“新格伦”号巨型火箭首飞再推迟,贝索斯太空宏愿关键一步受阻
台积电美国工厂4nm芯片投产,约一半员工来自中国台湾
高分辨率“透视眼”:MIT团队新方法无需导线即可观察细胞活动
这种植物能减少“牛打嗝甲烷排放”?多国布局研发牛打嗝抑制剂,2030年或让一亿头牛脱碳
马斯克CES“未来宣言”:3年内AI完成所有认知任务、50万机器人投产、首艘载人飞船奔赴火星
28岁小伙“复活”美国安然,还卖起了家用核反应堆?
智能的代价:AI背后的能源消耗与环境危机
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉